Qwen-VLA: 작업·환경·로봇 형태를 통합하는 비전-언어-행동 모델

게시 2026/06/05 업데이트 2026/06/05

By Juho

20 분읽는 시간

개요

Qwen-VLA(arXiv:2605.30280)는 Qwen Team이 발표한 통합 비전-언어-행동(Vision-Language-Action, VLA) 모델이다. 체화 지능(embodied intelligence)은 흔히 조작이나 내비게이션처럼 단일 시나리오에 맞춰진 특화 모델로 연구되어, 작업·환경·로봇 형태 전반의 일반화가 제한되고 능력이 파편화된다.

이 연구는 이질적인 체화 의사결정 문제를 하나의 비전-언어-행동 모델로 통합할 수 있는지 탐구한다. Qwen-VLA는 Qwen3.5-4B 멀티모달 백본을 지각·이해·추론에서 연속 행동·궤적 생성까지 확장하며, DiT 기반 플로우 매칭 행동 디코더를 부착한다. 로봇 조작 궤적, 인간 1인칭 시연, 합성 시뮬레이션, 내비게이션 데이터 등 다양한 소스에 대한 대규모 공동 사전학습을 수행한다.

단일 일반화 정책 Qwen-VLA-Instruct는 다음 성과를 동시에 달성한다. LIBERO 97.9%, Simpler-WidowX 73.7%, RoboTwin-Easy/Hard 86.1/87.2%, R2R OSR 69.0%, RxR SR 59.6%, 실세계 ALOHA OOD 평균 76.9%, DOMINO 동적 조작 제로샷 26.6%다.

방법론

통합 문제 정식화

조작은 엔드이펙터 자세나 관절 위치를, 내비게이션은 웨이포인트를, 1인칭 인간 데이터는 손목·손 궤적을 예측한다. 표면적으로 이질적이지만, 모든 작업은 시각 관측·언어 지시·형태별 제약에 조건화하여 미래 행동이나 궤적을 예측한다는 공통 계산 구조를 공유한다.

저자들은 모든 작업을 통합 조건부 예측 프레임워크로 정식화한다. 시간 단계 t에서 모델은 시각 컨텍스트 o_t, 언어 지시 x, 형태 설명 e, 선택적 작업 식별자 z를 받아 예측 지평 H에 걸친 목표 시퀀스를 예측한다.

p_θ(y_{t:t+H-1} | o_t, x, e, z)

목표 시퀀스는 작업에 따라 달라지지만 통합된 행동·궤적 공간에서 표현된다. 조작은 엔드이펙터 위치, 내비게이션은 웨이포인트, 자율주행은 연속 좌표 궤적, 1인칭 데이터는 MANO 같은 구조화된 자세 공간의 손 동작으로 표현된다.

모델 아키텍처

모델은 고수준 이해를 위한 비전-언어 백본과 정밀 행동 생성을 위한 플로우 매칭 행동 전문가로 구성된다.

백본은 Qwen3.5다. 초기 비전-언어 융합으로 학습된 네이티브 멀티모달 모델로, ViT가 만든 시각 토큰을 텍스트 토큰 스트림에 직접 끼워 넣는다. 하이브리드 어텐션 설계는 다수 레이어의 게이트 선형 어텐션과 일정 간격의 그룹 쿼리 소프트맥스 어텐션을 결합한다.

행동 전문가는 단일 스트림 DiT 스타일 플로우 매칭 정책이다. VLM 은닉 상태와 노이즈 행동 청크를 하나의 시퀀스로 연결해 AdaLN 시간 단계 조건화와 함께 공동 셀프 어텐션으로 처리한다. 플로우 매칭 목적함수로 학습되며, 추론 시 몇 번의 오일러 적분으로 행동 시퀀스를 생성해 저지연 실시간 제어가 가능하다. 행동 전문가는 약 1.15B 파라미터이며, 16개 DiT 블록(블록당 70.8M, 합계 1.13B)이 대부분을 차지한다.

형태 인식 프롬프트 조건화

여러 로봇 형태를 하나의 모델로 지원하기 위해, 각 학습 예제 앞에 현재 플랫폼·팔 구성·제어 관례를 기술하는 프롬프트를 붙인다. 프롬프트는 다음 템플릿을 따른다.

The robot is {robot_tag} with {single arm / dual arms}[, waist][, and mobile
base]. The control frequency is {FPS} Hz. Please predict the next {chunk_size}
control actions to execute the following task: {ori_instruction}.

각 데이터셋은 고유한 제어 관례를 보존하며, 통합 텐서 인터페이스와 마스킹 스킴을 사용한다. 각 학습 샘플은 고정 예측 지평 H와 고정 채널 차원 K를 가진 목표 텐서를 만든다. 제어 모드가 c개 채널을 쓰면 앞쪽 c차원에 배치하고 나머지는 영으로 패딩하며, 이진 마스크가 패딩 항목이 그래디언트에 영향을 주지 않도록 한다. 이 방식은 형태별 출력 헤드가 필요 없어, 단일 DiT 파라미터 세트가 모든 제어 모드를 처리한다.

4단계 학습 레시피

VLM 백본은 이미 강하게 사전학습된 반면 DiT 행동 디코더는 무작위 초기화 상태로, 두 모듈이 비대칭 상태로 학습에 진입한다. 저자들은 행동 학습을 압축 관점에서 바라본다. “빨간 컵을 집어라” 같은 언어 지시는 의도를 몇 개 토큰으로 압축하지만, 대응하는 행동 궤적은 수백 개의 고차원 관절 값에 이른다. 이 차원 격차를 메우는 것이 구조화된 압축 해제 문제다.

이에 따라 4단계 레시피를 채택한다.

단계	이름	핵심
I	T2A (텍스트→행동 DiT 사전학습)	VLM을 고정하고 이미지 없이 언어·형태 프롬프트만으로 DiT 학습, 언어 인덱싱 행동 사전 구축
II	CPT (계속 사전학습)	두 모듈을 풀고 이질적 혼합 데이터로 행동을 시각 관측에 접지
III	SFT (지도 미세조정)	멀티태스크 트랙과 실로봇 텔레오퍼레이션 트랙으로 분기
IV	RL (강화학습)	SimplerEnv에서 희소 이진 성공 보상으로 폐루프 성공 최적화, 최종 Qwen-VLA-Instruct 생성

T2A에서 이미지를 의도적으로 배제하는 이유는, 디코더가 시각 단서로 지름길을 만들지 않고 언어로 행동을 접지하도록 강제하기 위함이다. RL은 PPO와 GAE(γ=0.99, λ=0.95, ε=0.2)를 사용한다. 플로우 매칭 디코더의 로그 확률은 결정론적 확률 흐름 ODE를 SDE로 변환해 각 전이를 명시적 가우시안으로 만들어 해석적으로 계산한다.

대규모 사전학습 데이터

사전학습 혼합은 다섯 데이터 계열에 걸쳐 있으며 구성은 다음과 같다.

데이터 소스	비율
로봇 조작 궤적	74.2%
내비게이션 궤적	7.5%
인간 1인칭 궤적	6.0%
합성 시뮬레이션 궤적	3.7%
일반 비전-언어 데이터	3.4%
공간 그라운딩(2D)	2.5%
자율주행 VQA	2.4%
세밀 체화 행동 캡션	0.2%

로봇 조작 데이터는 DROID, BridgeData V2, RT-1, AgiBot World 등 공개 데이터셋을 포함해 1만 시간 이상의 상호작용 데이터를 아우른다. 여기에 자체 수집 실로봇 궤적 1,000시간 이상과 합성 시뮬레이션 궤적 800만 개 이상을 더한다. 1인칭 인간 데이터는 Ego4D, EPIC-KITCHENS, EgoDex, EgoVerse, Xperience에서 가져오며, 손 관절은 PCA로 10개 주성분(아이겐그래스프)으로 압축해 손당 32개 행동 차원으로 표현한다.

주요 결과

시뮬레이션 조작 성능

LIBERO, Simpler-WidowX, RoboCasa-GR1, RoboTwin 2.0 네 가지 시뮬레이션 환경에서 평가했다. 특화 모델은 각 벤치마크에 개별 미세조정되지만, Qwen-VLA는 모든 형태에 한 번 학습되어 형태 인식 프롬프트만으로 모든 플랫폼에 배포된다.

방법	유형	LIBERO	RoboCasa-GR1	Simpler-WidowX	RoboTwin-Easy	RoboTwin-Hard
GR00T N1.6	특화	97.2	49.9	63.2	47.6	–
π0.5	특화	97.6	37.0	46.9	82.7	76.8
ABot-M0	특화	98.6	58.3	–	86.0	85.0
Qwen-VLA-Base	일반	90.8	40.4	64.3	64.3	66.4
Qwen-VLA-Instruct	일반	97.9	56.7	73.7	86.1	87.2

단일 일반화 모델이 대부분의 특화 모델을 능가한다. LIBERO에서 97.9%로 최고 특화 모델과 대등하고, Simpler-WidowX에서 73.7%로 StarVLA-OFT(64.6%)를 넘으며, RoboTwin-Easy/Hard에서 86.1/87.2%로 이전 최고 특화 모델 ABot-M0를 초과한다. 사전학습만으로도 Qwen-VLA-Base가 LIBERO 90.8%에 도달하고, 지시 튜닝으로 LIBERO +7.1%p, RoboCasa-GR1 +16.3%p, RoboTwin-Easy +21.8%p의 일관된 향상을 얻는다.

실세계 ALOHA와 OOD 일반화

실세계 평가는 양팔 ALOHA 플랫폼에서 수행되었다. 사전학습 없이 처음부터 학습한 변형과 Qwen-VLA-Base에서 미세조정한 변형을 비교했다.

인도메인 6개 작업 평균에서 사전학습 변형은 83.6%를 달성해, 처음부터 학습한 48.5%를 크게 앞선다. OOD 평가에서는 색·인스턴스·위치·배경·지시 다섯 일반화 설정 평균 76.9%로, π0.5(41.5%)를 35.4%p, 사전학습 없는 변형을 40.7%p 능가한다.

모델	색	인스턴스	위치	배경	지시	평균
π0.5	57.7	61.5	19.2	26.9	42.3	41.5
Qwen-VLA-aloha (사전학습 없음)	42.3	30.8	34.6	30.8	42.3	36.2
Qwen-VLA-aloha (사전학습)	88.5	76.9	53.8	80.8	84.6	76.9

같은 아키텍처임에도 처음부터 학습은 특히 OOD에서 훨씬 낮은 성능을 보여, 성능 향상이 아키텍처가 아니라 사전학습된 Qwen-VLA-Base에서 비롯됨을 시사한다.

내비게이션과 동적 조작

연속 환경 비전-언어 내비게이션(VLN-CE)의 R2R, RxR Val-Unseen에서 Qwen-VLA-Instruct가 대부분 지표에서 최고를 기록한다. R2R에서 OSR 69.0, SR 57.5로 StreamVLN을 각각 4.8, 0.6점 앞서고, 더 어려운 RxR에서 SR 59.6, SPL 47.8로 모든 기준선을 상당한 차이로 능가한다.

정적 OOD 벤치마크 SimplerEnv-OOD에서는 단순 픽앤플레이스만으로 미세조정했음에도 평균 32.0%로 π0.5(12.6%)를 크게 앞선다. 동적 조작 DOMINO 벤치마크에서는 제로샷 설정으로 SR 26.6%, MS 39.5를 기록한다. 동적 조작에 특화 미세조정된 PUMA(SR 17.2%)조차 9.4%p 차이로 능가하며, 이는 통합 행동·궤적 사전학습이 전이 가능한 공간-운동 사전을 학습함을 보여준다.

주요 어블레이션

T2A 사전학습 어블레이션에서 핵심 설계 선택이 검증되었다. 데이터 구성은 합성 20% + 실데이터 80% 혼합이 71.09%로 최고였으며, 순수 실데이터(51.04%)나 순수 합성(64.06%)보다 우수했다. 전체 시퀀스 예측이 청크 예측을 일관되게 앞섰고(10% 합성에서 +4.94%p), T2A 단계에 이미지를 포함하면 오히려 성능이 떨어졌다(−2.87%p). 플로우 매칭 시간 단계 분포는 T2A에 Sigmoid-Normal, SFT에 Beta 조합이 71.09%로 최고였다. T2A 학습은 2,000스텝에서 정점을 찍었고, 40,000스텝에서는 과적합으로 하락했다.

이외에도 비전-언어 공동 학습은 세밀한 객체 인식이 필요한 벤치마크에서 명확한 이득을 주었고(RoboCasa-GR1 +4.9%p), 이질적 형태를 위한 프로젝션 설계에서는 제로 패딩이 가장 가벼우면서 동등한 성능을 보여 기본값으로 채택되었다. RL 후처리는 SimplerEnv에서 +2.9%p의 가장 큰 향상을 주면서, RL 롤아웃에 없던 벤치마크에서도 성능을 보존하거나 소폭 향상시켰다.

한계와 주의사항

저자들은 여러 한계를 밝힌다. 첫째, 체화 행동 데이터는 비전-언어 사전학습 데이터보다 훨씬 작고 다양성이 낮아, 롱테일 객체·환경·형태와 접촉이 많은 상호작용에 대한 강건성이 제한된다. 둘째, 비전-언어 이해·내비게이션·행동 생성에 걸친 공동 학습은 최적화 트레이드오프를 낳아, 행동 지향 학습이 일부 순수 비전-언어·내비게이션 평가를 다소 후퇴시킬 수 있다. 셋째, 현재 평가는 대체로 단기 지평이고 벤치마크 중심이어서, 장기간·실패 가능성이 높은 실세계 배포는 미해결 과제로 남는다.

향후 방향으로는 자율 수집과 sim-to-real 전이를 통한 실세계 상호작용 데이터 확장, 대규모 인간 비디오 활용, 장기 계획·에피소드 메모리·월드 모델링 통합, 힘·촉각·고유수용성 신호 등 풍부한 물리 피드백 결합을 제시한다.

결론

Qwen-VLA는 Qwen 비전-언어 백본을 지각·추론에서 체화 행동 생성까지 확장한 통합 모델이다. 조작, 내비게이션, 1인칭 행동 모델링, 궤적 예측을 공유된 행동·궤적 예측 프레임워크로 정식화해, 하나의 모델이 작업·환경·로봇 형태 전반의 이질적 데이터로부터 학습한다. 형태 인식 프롬프트 조건화, DiT 기반 플로우 매칭 행동 디코더, 대규모 공동 사전학습, SFT/RL 후처리를 결합해 강한 일반화 성능을 달성하면서도 다양한 제어 관례에 유연하게 대응한다. 결과는 언어 접지 VLA 모델이 멀티모달 파운데이션 모델과 체화 에이전트를 잇는 실행 가능한 인터페이스가 될 수 있음을 시사한다.

Reference

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments (arXiv:2605.30280)

AI Benchmark GPU