포스트

VLM3: 비전 언어 모델은 태생부터 3D 학습기다

목차

  1. 개요
  2. 방법론
  3. 주요 결과
  4. 한계와 주의사항
  5. 결론
  6. Reference

개요

VLM3는 Meta와 Princeton 연구진이 발표한 연구로, 비전 언어 모델(VLM)이 복잡한 작업 특화 설계 없이도 “태생적 3D 학습기”라는 주장을 담고 있다. 저자는 Zhipeng Cai, Zhuang Liu, Yunyang Xiong 등이며 arXiv:2605.30561v1로 2026년 5월 28일 공개되었다.

전통적인 전문 비전 모델은 3D 이해를 위해 커스텀 아키텍처, 무거운 증강, 회귀 손실 같은 복잡한 설계를 동원해 왔다. 이 연구는 이러한 복잡한 설계가 정말로 필수인지에 의문을 제기한다. 저자들은 표준 VLM에 간단한 수정만 가해도 여러 3D 이해 작업에서 전문 모델과 동등하거나 우월한 성능을 달성할 수 있음을 보인다.

핵심 주장은 세 가지 요소가 VLM의 태생적 3D 학습 능력을 끌어낸다는 것이다. 첫째는 초점거리 통일(focal length unification), 둘째는 텍스트 기반 픽셀 참조(text-based pixel reference), 셋째는 데이터 혼합과 스케일링(data mixture & scaling)이다. 이 세 요소를 적용한 VLM3는 표준 아키텍처를 유지하면서도 depth estimation 정확도를 0.84에서 0.9로 개선했다.

방법론

VLM3의 방법론은 아키텍처를 바꾸지 않고 세 가지 단순한 요소를 결합하는 데 초점을 둔다.

첫 번째 요소는 Focal Length Unification이다. 서로 다른 카메라가 만들어내는 초점거리 모호성을 해결하기 위해, 이미지를 초점거리가 1000픽셀이 되도록 리사이즈한다. 이 과정은 아키텍처 변경을 전혀 요구하지 않는다. 카메라 intrinsic 정보가 없는 이미지의 경우 사전학습된 캘리브레이션 모델을 사용해 초점거리를 추정한다.

두 번째 요소는 Text-Based Pixel Reference이다. 픽셀 좌표를 양 축 모두 0 이상 2000 미만의 범위로 정규화하여 텍스트로 표현한다. 이는 선행 연구가 사용하던 시각적 프롬프팅 마커를 대체한다. 이 방식은 학습 시 이미지당 10개의 질의를 함께 패킹할 수 있어 오버헤드를 최소화한다.

세 번째 요소는 Data Mixture & Scaling이다. 연구진은 가중치를 적용한 데이터셋 조합이 아키텍처나 손실 설계보다 더 중요하다고 강조한다. 균일 가중은 성능이 저조했고, 데이터셋 크기에 기반한 가중은 베이스라인 수준이었으며, 커스텀 가중 튜닝이 최적의 결과를 냈다.

주요 결과

VLM3는 여러 3D 이해 작업에서 전문 모델 및 이전 SOTA와 비교되었다.

Metric Depth Estimation은 δ₁ 지표(높을수록 좋음)의 평균으로 평가한다. 이전 SOTA인 DepthLM-7B는 0.838, 제안 모델 VLM3-4B는 0.904를 기록했고, 전문 모델인 UnidepthV2는 약 0.87이었다. 데이터셋별로 보면 NuScenes 0.970, iBims1 0.960, ETH3D 0.810이었다.

모델δ₁ 평균
DepthLM-7B (이전 SOTA)0.838
UnidepthV2 (전문 모델)약 0.87
VLM3-4B (제안)0.904

Object-Level 3D Understanding에서는 정성 정확도 91.35%를 달성하여 SpatialRGPT-8B의 89.80%를 앞섰다. 추가 인코더 없이도 정량 지표가 개선되었다.

Pixel Correspondence는 EPE 지표(낮을수록 좋음)의 평균으로 평가한다. 베이스라인 VLM은 153.28, VLM3-4B는 15.37을 기록했으며, 전문 모델 DKM은 41.30, RoMa는 21.88이었다.

모델EPE 평균
베이스라인 VLM153.28
DKM (전문)41.30
RoMa (전문)21.88
VLM3-4B15.37

Camera Pose Estimation은 AUC@30°(높을수록 좋음)로 평가한다. ETH3D에서 VLM3는 93.3, DA3-Giant는 91.2였다. ScanNet++에서는 VLM3가 94.7, DA3-Giant가 98.1이었다. 평균은 VLM3 94.0, DA3-Giant 94.7로 거의 대등했다.

데이터셋VLM3DA3-Giant
ETH3D93.391.2
ScanNet++94.798.1
평균94.094.7

핵심 발견 중 하나는 텍스트 기반 참조의 유효성이다. 텍스트 기반 방식과 시각적 프롬프팅의 δ₁이 8M 샘플에서 각각 0.849와 0.853으로 거의 동일했다.

데이터 가중치의 영향도 두드러졌다. 32M 샘플과 10개 QA 조건에서 균일 가중은 0.842, 크기 기반 가중은 0.884, 최적 가중은 0.904를 기록했다.

모델 스케일링과 관련해서는, 더 큰 모델인 8B와 32B가 현재 데이터 규모에서 과적합으로 4B보다 저조한 성능을 보였다. 이는 모델 크기보다 데이터 스케일링이 훨씬 중요함을 시사한다.

학습 비용은 작업별로 달랐다. depth는 32 GPU로 3일(26M 이미지, 320M 라벨 픽셀), object-level은 32 GPU로 3시간(1M), pixel correspondence는 64 GPU로 7일(80M), camera pose는 32 GPU로 4일(10M)이 소요되었다.

한계와 주의사항

VLM3는 pixel correspondence 작업에서 전문 모델 UFM의 7.89 EPE에 뒤처진다. VLM3-4B의 15.37 EPE는 베이스라인 VLM의 153.28과 다른 전문 모델보다는 우수하지만, UFM과는 격차가 있다. 저자들은 추가 스케일링과 데이터 혼합 튜닝으로 이 격차를 개선할 수 있다고 본다.

또한 모든 작업을 텍스트 생성으로 다루는 단순한 접근이 3D 포즈 파라미터처럼 복잡한 출력에도 효과적이라는 점을 강조한다. 이는 단순함이 곧 한계가 아니라 오히려 확장성의 원천이 될 수 있음을 보여준다.

결론

VLM3는 단순하고 확장 가능한 3D 학습의 새 패러다임을 연다. 초점거리 통일, 텍스트 기반 픽셀 참조, 데이터 혼합·스케일링이라는 세 가지 요소만으로 표준 VLM이 다양한 3D 작업에서 전문 모델과 경쟁할 수 있음을 입증했다. 이 연구는 SOTA 3D 이해에 복잡한 작업 특화 설계가 필수라는 통념에 도전한다.

Reference