Slot-MPC - 객체 중심 표현과 그래디언트 기반 MPC로 푸는 시각 계획
목차
개요
Slot-MPC는 본 대학교(University of Bonn)의 Jonathan Spieler, Angel Villar-Corrales, Sven Behnke가 발표한 시각 계획(visual planning) 프레임워크입니다. 객체 중심 월드 모델(object-centric world modeling)과 그래디언트 기반 모델 예측 제어(Model Predictive Control, MPC)를 결합한 것이 핵심입니다. 이 시스템은 보상 신호 없이 오프라인 데이터로부터 슬롯(slot) 기반의 구조화된 표현을 학습합니다. 그 결과 픽셀 공간이 아니라 잠재 객체 공간(latent object space)에서 행동을 최적화하여 효율적으로 계획을 수립합니다.
기존 월드 모델은 장면 전체를 하나의 통짜 표현으로 다루기 때문에 방대한 상태-행동 커버리지가 필요했습니다. 반면 객체 중심 접근은 장면을 지속적인 개체(entity)들로 분해하여 더 나은 구성적 일반화(compositional generalization)를 가능하게 합니다. 사람이 장면을 비정형 시각 스트림이 아니라 객체들의 집합으로 인식한다는 점이 이 귀납적 편향(inductive bias)의 출발점입니다. 저자들은 이 편향이 샘플 효율과 일반화를 개선해야 한다고 보았습니다.
논문의 핵심 기여는 세 가지입니다. 첫째, 슬롯 기반 객체 표현과 미분 가능한 MPC를 통합했습니다. 둘째, 데이터가 적은 환경(low-data regime)에서 그래디언트 기반 최적화가 샘플링 방식을 능가함을 보였습니다. 셋째, 패치 기반 대안 대비 잠재 차원을 99% 축소했습니다.
방법론
객체 중심 잠재 동역학 학습
장면 파싱은 SAVi를 사용합니다. 프레임을 순열 등변(permutation-equivariant) 슬롯 임베딩 S_t ∈ ℝ^(N_S × D_S)로 인코딩합니다. 슬롯 차원에 대한 정규화된 softmax로 슬롯 간 경쟁을 유도하는 Slot Attention을 활용합니다.
1
2
A = softmax_{N_S}( q(S_{t-1}) · k(h_t)^T / sqrt(D_S) )
S_t = GRU( A · v(h_t), S_{t-1} )
각 슬롯은 Spatial Broadcast Decoder로 이미지를 복원하며, 학습 손실은 이미지 재구성 오차입니다.
동역학 모델은 조건부 객체 중심 비디오 예측기(Conditional Object-Centric Video Predictor, cOCVP)입니다. 트랜스포머 기반으로, 학습 가능한 투영 f_a를 통해 행동 조건화를 더한 OCVP의 확장판입니다. 학습 목적함수는 프레임 예측과 슬롯 정렬을 함께 다룹니다.
1
L_cOCVP = Σ λ_Img · ||X̂_t - X_t||_2^2 + λ_Slot · ||Ŝ_t - E_SAVi(X_t)||_2^2
실험에서는 λ_Img = λ_Slot = 1을 사용했습니다.
정책 학습과 모델 예측 제어
전문가 시연으로부터의 행동 복제(behavior cloning)가 MPC의 웜스타트(warm-start) 초기화를 제공합니다. 단일 정책 네트워크가 슬롯 상태로부터 행동을 예측하도록 학습됩니다.
1
L_πθ = Σ ||πθ(S_t) - a_t||_2^2
이는 고차원 행동 공간에서 궤적 최적화를 웜스타트하면 이득이 있다는 알려진 사실을 활용한 것입니다.
MPC의 목적함수는 잠재 공간에서 예측된 최종 슬롯과 목표 슬롯 사이의 유클리드 거리를 최소화합니다. 순서가 없는 슬롯 표현을 정렬하기 위해 비용 계산 전에 헝가리안 매칭(Hungarian matching)을 적용합니다.
1
J_MPC = ||Ŝ_{t+H} - S_Goal||_2^2
최적화는 두 가지 변형을 비교합니다. 첫째, MPPI(그래디언트 프리)는 시간 의존 가우시안 분포에서 N개의 궤적을 샘플링하고, 온도 파라미터 τ로 상위 k개 궤적에 중요도 가중치를 부여해 제안 분포를 갱신합니다. 둘째, 그래디언트 기반 MPC는 미분 가능한 동역학 모델을 통해 롤아웃 전체에 역전파하여 단일 궤적을 경사 하강으로 최적화합니다.
1
a ← a - η · ∇ J_MPC
상태-행동 커버리지가 제한된 환경에서는 그래디언트 기반 방식이 계산적으로 더 효율적입니다.
주요 결과
성공률 비교
평가에는 Meta-World(Button Press, Lever Pull)와 robosuite(Stack, Square)를 사용했습니다. 환경별로 두 종류의 오프라인 데이터셋을 구성했습니다. 월드 모델 학습용 무작위 궤적 9000개와 행동 복제용 전문가 시연 약 200~2000개입니다. 비교 대상은 GC-BC, Dreamer-v3, DINO-WM, 그리고 객체 중심이 아닌 자체 변형입니다. DINO-WM처럼 짧은 하위 궤적이 아니라 전체 에피소드를 평가하여 장기 시야(long-horizon) 능력을 더 잘 반영했습니다.
| 작업 | Slot-MPC | Dreamer-v3 | DINO-WM | GC-BC |
|---|---|---|---|---|
| Button Press | 0.64 | 0.64 | 0.00 | 0.54 |
| Lever Pull | 0.52 | 0.56 | 0.00 | 0.10 |
| Stack | 0.42 | 0.30 | 0.00 | 0.30 |
| Square | 0.22 | 0.00 | 0.00 | 0.00 |
Slot-MPC는 Meta-World에서 Dreamer-v3와 대등하며, robosuite에서는 모든 베이스라인을 크게 앞섭니다. DINO-WM이 전부 실패한 것은 장기 시야 롤아웃에서의 분포 이동(distribution shift) 때문으로 분석됩니다. 주목할 점은 Dreamer-v3가 온라인 환경 상호작용(Meta-World 100만 스텝, robosuite 500만 스텝)을 사용한 반면 Slot-MPC는 순수 오프라인이라는 것입니다.
효율성과 어블레이션
어블레이션은 각 구성 요소의 중요성을 보여줍니다. 객체 중심 표현을 제거하면 작업에 따라 0~70%의 성능 하락이 발생합니다. MPC를 완전히 제거(정책만 사용)하면 4~14% 하락합니다. 정책 사전(policy prior)을 제거하면 44~100% 하락하여 장기 시야 작업에 필수적임을 보였습니다. MPPI는 0~4%에 그쳐 오프라인 환경에서 그래디언트 기반 MPC가 우월함을 확인했습니다.
계산 효율성에서의 차이는 극적입니다.
| 방법 | Meta-World 시간(초) | robosuite 시간(초) |
|---|---|---|
| Slot-MPC | 0.42 | 0.48 |
| Slot-MPC + MPPI | 4.22 | 5.19 |
| DINO-WM | 144.37 | 145.30 |
Slot-MPC의 잠재 차원은 4×128 = 512로, DINO-WM의 196×384 = 75,264 대비 99% 축소되었습니다. 이 덕분에 계획 속도가 약 340배 빨라졌습니다.
주요 하이퍼파라미터는 다음과 같습니다. SAVi는 객체 슬롯 4개, 128차원 임베딩을 사용합니다. cOCVP는 트랜스포머 4층, 256차원 토큰, 어텐션 헤드 8개입니다. 계획 시야 H는 Meta-World에서 8, robosuite Stack/Square에서 15입니다. 그래디언트 기반은 3 반복에 스텝 크기 η = 0.001을, MPPI는 5 반복에 64 샘플과 16 엘리트, 온도 1.0을 사용합니다. 전체 학습은 단일 NVIDIA RTX A6000 GPU에서 수행되었습니다.
한계와 주의사항
저자들은 몇 가지 제약을 인정합니다. 계획에 목표 이미지(goal image)가 필요하며, 향후 언어 조건화로 확장할 수 있습니다. 객체 중심 분해의 품질에 의존하고, 정책 사전의 품질이 성능 상한을 결정합니다. 또한 모든 평가가 시뮬레이션에서만 이루어졌습니다.
향후 방향으로는 실제 로봇 배치, 탐색 개선을 위한 하위 목표 생성, DINOSAUR 같은 더 강력한 분해 모델 통합, 텍스트 조건부 목표 명세가 제시됩니다.
결론
Slot-MPC는 객체 중심 표현이 통짜 모델보다 훨씬 적은 상태-행동 커버리지를 요구하여 오프라인 일반화에 유리함을 보였습니다. 샘플링 기반 방식은 분포 이동에 취약한 반면, 정책 분포 근처에 머무는 그래디언트 기반 최적화는 안정성을 제공합니다. 전체 MPC 최적화는 복잡한 작업에서 정책 단독 대비 4~14% 향상을 제공하지만 좋은 초기화가 전제됩니다. 패치 기반 대안 대비 340배 속도 향상과 99% 차원 축소는 단일 GPU에서의 실시간 계획을 실용적으로 만듭니다.