Lance - 다중 태스크 시너지로 만든 ByteDance의 경량 통합 멀티모달 모델
목차
개요
Lance는 ByteDance Intelligent Creation Lab의 Fengyi Fu, Mengqi Huang 등이 2026년 5월 18일 발표한 통합 멀티모달 모델입니다. 이미지와 비디오 모두에 대해 이해(comprehension), 생성(creation), 편집(modification) 태스크를 지원하는 경량 네이티브 모델입니다.
핵심 접근은 모델 크기를 키우거나 텍스트-이미지 도메인을 강조하는 대신, 협력적 다중 태스크 학습(collaborative multi-task training)을 활용하는 것입니다. 프레임워크는 공유 컨텍스트 표현과 특화된 능력 분기라는 두 토대 위에서 작동합니다. 저자들은 다중 태스크 학습이 단순한 능력 누적이 아니라 모달리티-태스크 경계를 넘나드는 전이(transfer) 메커니즘으로 작동한다고 봅니다.
Lance는 X2T(임의 모달리티에서 텍스트), X2I(임의에서 이미지), X2V(임의에서 비디오) 태스크를 단일 프레임워크에 통합합니다. 활성 파라미터는 33B(activated parameters), 학습 예산은 128 GPU에 불과합니다.
방법론
듀얼 익스퍼트 아키텍처
핵심 긴장 관계는 명확합니다. 이해 태스크는 언어에 정렬된 고수준 의미 특징에서 이득을 보지만, 생성은 질감·기하·시간 동역학을 보존하는 저수준 연속 표현을 요구합니다. 대부분의 기존 접근은 통합 표현(단순하나 성능 타협)이나 분리 표현(복잡성 증가) 중 하나를 따랐습니다.
Lance는 통합 멀티모달 토큰 인터페이스를 유지하면서 이해와 생성에 전용 익스퍼트 용량을 할당합니다.
| 익스퍼트 | 처리 대상 | 최적화 |
|---|---|---|
| 이해 익스퍼트 | 텍스트와 의미 시각 토큰 | 표준 다음 토큰 예측 손실 |
| 생성 익스퍼트 | VAE 잠재 토큰 | 플로우 매칭 속도 예측 |
시각 표현은 의미 토큰(Qwen2.5-VL ViT 인코더)과 생성 잠재 토큰(Wan2.2 3D causal VAE)을 분리해 유지합니다. 단일 표현으로는 의미 추론과 고품질 합성을 동시에 만족하기 어렵다는 인식 때문입니다.
손실 함수는 다음과 같이 결합됩니다.
1
2
L = λ_u · L_UND + λ_g · L_GEN
L_GEN = E[ || v_θ_GEN(x_t, S, t) - (x1 - x0) ||^2 ]
생성 목적함수는 보간 잠재 x_t = t·x1 + (1-t)·x0을 사용하며, x1은 깨끗한 VAE 잠재, x0은 가우시안 노이즈입니다. 어텐션은 일반화된 3D 인과 어텐션으로, 텍스트 토큰은 인과 마스킹을, 시각 토큰은 공간·시공간 구조를 위해 양방향 어텐션을 씁니다.
모달리티 인식 위치 인코딩과 학습
표준 3D-RoPE는 의미 ViT 토큰, 깨끗한 VAE 조건, 노이즈 VAE 타깃 같은 이질적 시각 토큰 그룹을 구분하지 못해 위치 모호성을 만듭니다. 이를 해결하기 위해 모달리티 인식 위치 인코딩(Modality-Aware Positional Encoding, MaPE)을 도입합니다.
1
p^(m)_{t,h,w} = p̂^(m)_{t,h,w} + [Δ_m, 0, 0]
여기서 Δ_m은 시간 차원을 따른 모달리티별 오프셋으로, 공간 배치와 시간 일관성을 보존하면서 서로 다른 시각 그룹을 위치 공간에서 분리합니다.
학습은 다단계로 진행됩니다.
| 단계 | 스텝 | 소비 토큰 | 내용 |
|---|---|---|---|
| 사전학습(PT) | 350k | 1.5T | 멀티모달 정렬과 기본 생성, 해상도 커리큘럼 192p에서 480p |
| 연속학습(CT) | 80k | 300B | 통합 다중 태스크로 확장, 편집·주제 기반 생성 점진 추가 |
| 지도 미세조정(SFT) | 15k | 72B | 명령 충실도, 시각 일관성, 편집 정확도 |
| 강화학습(RL) | 800 | - | GRPO, PaddleOCR 보상으로 텍스트 렌더링 정확도 개선 |
사전학습은 약 110억 이미지-텍스트 쌍과 약 1억 4천만 비디오-텍스트 샘플을 사용했으며, 비디오 모델링 난도를 고려해 이미지:비디오 비율을 약 1:4로 두었습니다.
주요 결과
생성과 편집 벤치마크
이미지 생성 GenEval 벤치마크에서 Lance는 3B로 0.90을 기록하여, 7B의 TUNA(0.90)와 동급이며 BAGEL(0.88), Show-o2(0.76)를 앞섭니다. 파라미터 절반으로 최상위 성능을 달성한 것입니다. DPG-Bench에서는 전체 84.67, 관계 모델링 93.38로 세밀한 의미 일관성을 보였습니다.
비디오 생성 VBench에서도 두드러집니다.
| 모델 | 파라미터 | 총점 |
|---|---|---|
| Lance | 3B | 85.11 |
| TUNA | 1.5B | 84.06 |
| Wan2.1-T2V | 14B | 83.69 |
| HunyuanVideo | 8.3B | 83.43 |
Lance는 통합 모델 중 최고 총점을 3B만으로 달성했습니다. 시간 깜빡임 99.66, 동적 정도 75.83 등 시공간 안정성과 모델링에서 강점을 보였습니다.
멀티모달 편집 GEdit-Bench에서는 평균 7.30으로 InternVL-U(6.88), BAGEL(6.52)을 앞서 통합 모델 중 최고 편집 점수를 얻었습니다. 배경 변경 7.73, 콘텐츠 조작 7.83, 대체 7.85에서 우수했으나 텍스트 수정(4.46)은 약점으로 남았습니다.
이해 벤치마크와 어블레이션
멀티모달 이해 MVBench에서 Lance는 3B로 62.0%를 기록했습니다. 이는 7B인 Show-o2(55.7%) 대비 11.3% 상대 향상이며, 약 2.3배 적은 파라미터로 달성한 결과입니다.
어블레이션은 다중 태스크 시너지 가설을 뒷받침합니다. 이해 데이터를 생성:이해 = 8:2로 추가하면 이미지(GenEval 81.65)와 비디오 생성(VBench 82.91)이 모두 개선됩니다. 편집·주제 기반 생성 데이터를 6:4로 추가하면 최고 결과(GenEval 82.06, VBench 83.05)를 얻으며, 예상외로 비디오 이해(59.18)까지 개선됩니다. MaPE 어블레이션에서는 모든 지표가 일관되게 향상되며, 특히 이미지 편집(GEdit 6.86 대 6.30)에서 가장 큰 8.1% 상대 향상을 보였습니다.
한계와 주의사항
저자들은 몇 가지 한계를 인정합니다. 텍스트 수정 편집이 다른 편집 범주보다 약하며(GEdit 4.46), 현재 접근은 이미지·비디오 모달리티에 집중되어 있습니다.
향후 방향으로는 비디오 인식 보상 모델을 통한 사후 학습, 모델·익스퍼트 용량·컨텍스트 길이 확장, 오디오·음성·3D·깊이·임바디드 신호 등 더 넓은 모달리티, 실시간 폐루프 멀티모달 에이전트가 제시됩니다.
결론
Lance는 폭넓은 다중 태스크 학습이 단순한 능력 합산이 아니라 태스크 시너지를 통해 통합 멀티모달 시스템을 발전시킴을 입증했습니다. 듀얼 스트림 익스퍼트 구조와 모달리티 인식 위치 인코딩으로 공유 컨텍스트 모델링과 특화 능력 경로를 균형 있게 결합했습니다. 33B 활성 파라미터와 128 GPU 예산이라는 자원 효율적 조건에서, 이미지·비디오의 이해·생성·편집 벤치마크 전반에 걸쳐 더 큰 모델들과 견줄 만한 성능을 달성했습니다.