두 번째 사전학습 패러다임, 세계 모델링의 시대
목차
첫 번째와 두 번째 패러다임
첫 번째 사전학습 패러다임은 다음 단어 예측이었다.
지금은 두 번째 전환점, 즉 세계 모델링으로 넘어가는 중이라는 주장이다.
핵심은 다음 물리 상태를 예측하는 능력이며, 이는 단순 텍스트 생성과 다른 축을 연다.
세계 모델링의 정의
세계 모델링은 “행동을 조건으로 다음 가능한 세계 상태를 예측”하는 것이라고 정의된다.
비디오 생성 모델은 그 한 형태이며, 다음 상태는 RGB 프레임의 연속이고 행동은 텍스트 지시가 된다.
이 과정은 실제로는 물리 시뮬레이터이자 렌더링 엔진에 가깝다.
대체 행동에 따른 미래 변화, 즉 반사실을 학습하는 것이 핵심이다.
VLM과 VLA의 한계
VLM은 언어 중심 구조로 발전해 왔다.
비전은 인코더를 통해 들어오지만 언어 백본의 보조 시민으로 취급되기 쉽다.
2025년의 로보틱스는 VLM 위에 행동 디코더를 얹는 VLA 접근이 주류였다.
이는 편리하지만, 모델의 파라미터가 지식 회수에 치우치고 물리 이해에 덜 할당된다는 문제가 있다.
즉 “이 픽셀이 코카콜라다”는 잘 맞추지만, “병을 기울이면 액체가 퍼져 모터를 망친다” 같은 물리 결과는 약하다.
비전 우선 관점
생물학적으로도 비전은 뇌의 큰 영역을 차지한다.
언어는 상대적으로 작은 영역에 집중되며, 감각과 운동을 잇는 고대역폭 채널은 시각이다.
로보틱스의 핵심은 언어가 아니라 센서모터 루프를 정확히 닫는 것이다.
언어 없이도 물리 지능이 높은 존재가 있다는 점에서, 비전 우선 접근은 설득력을 얻는다.
로보틱스에 가까워지는 이유
세계 모델은 물리 세계에 대한 풍부한 상호작용 데이터를 학습할 수 있다.
앞으로는 RGB뿐 아니라 3D 공간 움직임, 고유수용감각, 촉각이 학습 대상이 될 가능성이 크다.
또한 시각 공간에서의 사고 과정, 즉 이미지와 기하학적 시뮬레이션 기반의 추론이 중요해진다.
언어는 보조 스캐폴드에 불과하며, 물리적 문제 해결의 기반은 아니라는 관점이다.
다음 연구 질문들
완벽한 미래 시뮬레이션이 가능해도 행동 디코딩이 쉬운 문제는 아니다.
픽셀 재구성이 최선의 목적 함수인지, 더 나은 잠재 공간이 있는지도 아직 열려 있다.
로봇 데이터는 어느 정도 필요한지, 텔레오퍼레이션 스케일링이 답인지도 불확실하다.
이 모든 과정을 거쳐 로보틱스의 GPT-3 순간에 도달할 수 있을지가 핵심 질문이다.
정리
두 번째 사전학습 패러다임은 세계 모델링이며, 이는 로보틱스를 실질적으로 바꾸는 기반이 될 가능성이 있다.
언어 중심의 시각 보조 구조에서, 비전 중심의 물리 예측 구조로 이동해야 한다는 메시지가 강하다.
이 전환은 과대평가보다 연구의 기본 원칙을 다시 세우는 방향에 가깝다.
AGI는 아직 수렴하지 않았고, 그래서 다시 연구의 시대가 열렸다는 결론이다.