Native Multimodal Modeling 로드맵: 융합 아키텍처에서 평가까지의 5단계 분류

게시 2026/06/03 업데이트 2026/06/03

By Juho

9 분읽는 시간

개요

Native Multimodal Modeling(NMM)은 다중 양식 입력과 출력을 보조적인 부산물이 아니라 본래적인 처리 단위로 다루는 아키텍처를 가리킨다. 이 로드맵은 NMM을 “양식 무관 추론에서 세계 모델링으로 가는 필수 단계”로 정의한다. 즉, 단일 양식 모델을 확장하는 것이 아니라 처음부터 텍스트, 이미지, 음성, 비디오, 문서, GUI를 동등하게 처리할 수 있도록 설계된 모델이 핵심 대상이다.

이 연구는 NMM 시스템의 “Nativity”를 형식화하기 위해 융합 패러다임을 구분하고, 엔드 투 엔드 파이프라인을 다섯 가지 차원으로 정리한다. 다섯 차원은 아키텍처, 학습, 데이터셋, 추론, 평가이며, 시스템 분류 축으로는 M2T·M2G·M2M의 입출력 이중성을 사용한다.

핵심 분류 체계

로드맵의 출발점은 모델이 양식을 얼마나 일찍, 얼마나 깊이 통합하는가에 대한 융합 방식 구분과, 모델이 어떤 양식을 받아 어떤 양식을 내보내는가에 대한 입출력 분류다.

융합 방식

융합 방식은 두 가지 큰 패러다임으로 나뉜다.

융합 방식	학습 패턴	특징
Mid-fusion	사전 학습 중 단계적 언프리징과 차등 학습률 적용	SFT 단계 재배선이 가능
Early-fusion	시작부터 공동 학습, z-loss와 QK-Norm 안정화	RL 정책이 융합 방식에 의해 결정됨

Mid-fusion은 기존 단일 양식 백본을 점진적으로 다중 양식으로 확장하는 데 적합하다. 반면 Early-fusion은 초기부터 모든 양식이 같은 학습 신호를 공유하므로, 안정화 기법인 z-loss와 QK-Norm이 필수적이다.

입출력 이중성

입출력 분류 축은 모델이 다루는 양식의 방향성을 명확히 한다.

카테고리	의미	예시
M2T (Multi-to-Text)	이미지·음성·비디오 이해 후 단일 양식 생성	비전 언어 모델, 멀티모달 챗봇
M2G (Multi-to-Target)	시나리오 기반 이미지·음성·비디오 생성	텍스트-투-이미지, 텍스트-투-비디오
M2M (Multi-to-Multi)	대칭적 양방향 모델링	양방향 음성 대화, 영상 대화

이 세 카테고리는 시스템 설계, 학습 데이터 구성, 평가 벤치마크의 선택을 좌우한다.

다섯 가지 축

로드맵은 NMM 시스템을 다섯 가지 핵심 축으로 분해한다. 각 축은 융합 방식과 입출력 이중성을 가로지르며 구체적인 설계 선택을 형식화한다.

아키텍처와 학습

첫 번째 축인 모델 아키텍처는 M2T, M2G, M2M에 따른 기능 역할 할당을 다룬다. 대표 사례로 Llama-4, Qwen3-VL, MiniCPM-o 4.5가 언급된다. 이들은 각자 다른 입출력 패턴을 가지며, 동일한 융합 방식이라도 모델이 어떤 역할에 특화되어 있는지에 따라 모듈 구성이 달라진다.

두 번째 축인 학습은 융합 방식에 따른 특징적 시그니처를 다룬다. 프리징 토폴로지, 손실 정식화, 커리큘럼 스케줄링이 핵심 변수다. SFT 단계의 재배선은 Mid-fusion에서만 가능하며, RL 정책은 융합 방식이 결정한다는 점이 강조된다.

데이터셋과 추론, 평가

세 번째 축인 데이터셋은 기능 역할별로 정리된다. Understand, Generate, Interact, Align의 네 역할이 PT(Pretraining), SFT, RL 단계와 결합되어 텍스트, 이미지, 비디오, 음성, 문서, GUI 등의 양식을 커버한다.

네 번째 축인 추론과 배포는 다중 양식 모델의 고질적 문제인 “시퀀스 폭발(sequence explosion)”을 다룬다. 이를 해결하기 위해 비주얼 리샘플링, 동적 해상도, 희소 인지(sparse perception), 풀듀플렉스 스트리밍 같은 기법이 제안된다. 특히 풀듀플렉스 스트리밍은 실시간 양방향 대화에 필수적이다.

다섯 번째 축인 평가는 양식별 벤치마크 체계를 다룬다. 이미지, 음성, 비디오 각각에 대해 이해와 생성 두 측면을 모두 평가하면서 회귀가 발생하지 않도록 한다.

대표 데이터셋과 미래 방향

이 로드맵은 60개 이상의 데이터셋을 카탈로그화한다. 주요 항목으로는 LAION-5B, VQA v2, WebVid, AudioSet, ControlNet 변형, 그리고 상호작용 벤치마크인 WebArena와 OSWorld가 포함된다. 저자들은 다중 기관 협업으로 구성되었고, 주요 연구자로 Siyu An, Junru Lu 등이 명시되며 2026년 발표되었다.

향후 전략적 방향으로는 세 가지가 제시된다. 첫째, 양식 특수성 유지와 이산화 트레이드오프를 어떻게 균형 잡을 것인가. 둘째, 자기회귀(Autoregressive)와 확산(Diffusion) 패러다임을 어떻게 연결할 것인가. 셋째, 풀듀플렉스 스트리밍 역량을 어떻게 더 발전시킬 것인가다. 이 세 방향은 NMM이 “양식 무관 추론에서 세계 모델링”으로 도약하기 위한 핵심 도전 과제로 자리매김한다.

결론

NMM 로드맵은 점점 분화되는 다중 양식 모델 생태계를 다섯 가지 축과 두 가지 분류 체계로 체계화한다. 융합 방식(Mid/Early)과 입출력 이중성(M2T/M2G/M2M)은 모델 설계의 두 좌표축으로 작동하며, 아키텍처·학습·데이터셋·추론·평가의 다섯 차원은 각 좌표에서 구체적 설계 선택을 정식화한다. 60개 이상의 데이터셋과 벤치마크를 양식별로 정리한 이 로드맵은 NMM 연구자에게 통합된 참조 프레임을 제공한다. 앞으로 NMM이 단순한 멀티모달 모델을 넘어 세계 모델링으로 나아가기 위해서는 양식 특수성과 통합, 자기회귀와 확산, 비동기와 풀듀플렉스의 트레이드오프를 해소해야 한다는 점이 명확히 제시된다.

Reference

Toward Native Multimodal Modeling: A Roadmap

AI LLM Benchmark