Qwen-Image-2.0 텍스트 렌더링과 이미지 편집을 하나로 묶은 통합 생성 모델
목차
개요
Qwen 팀이 발표한 Qwen-Image-2.0은 텍스트-이미지 생성(T2I)과 지시 기반 이미지 편집(TI2I)을 단일 프레임워크로 묶은 이미지 생성 파운데이션 모델이다. 기존 모델들은 사진 사실성이나 텍스트 렌더링 중 한 축에 강하거나, 생성과 편집 중 한 작업에 특화되는 경향이 있었다. Qwen-Image-2.0은 Qwen3-VL을 조건 인코더로 사용하고 Multimodal Diffusion Transformer(MMDiT)를 백본으로 결합해 두 작업을 같은 모델로 처리한다. 최대 1K 토큰 길이의 지시문에 대응하며, 슬라이드·포스터·인포그래픽·만화 같은 텍스트가 빽빽한 시각 자료를 직접 만들어낼 수 있다고 보고된다. 2026년 4월 22일 기준 LMArena T2I 리더보드에서 글로벌 9위, 중국 모델 중 1위, ELO 1168점을 기록했다.
방법론
Qwen-Image-2.0은 데이터, 아키텍처, 학습 세 축에서 각각 새로운 설계를 적용한다. 세 요소가 결합되며 long-text 렌더링과 다국어 타이포그래피, 2K 해상도 사진 사실성을 동시에 끌어올린다.
데이터 파이프라인과 캡셔닝
데이터 수집은 도메인 폭, 지시문 품질, 소스-타깃 일관성 세 가지 원칙을 따른다. T2I용 데이터는 사진, 그래픽 디자인, 예술 작품, 합성 이미지를 포함하고 인물, 풍경, 객체 같은 일반 도메인과 함께 롱테일 개념을 보존한다. TI2I용 편집 데이터는 단일 이미지(속성 수정, 배경 교체, 스타일 변환, 텍스트 편집, 복원, 구조 인식 수정)와 다중 이미지(레퍼런스 기반 생성, 주체 일관성, 합성 병합)로 나뉜다.
캡셔닝은 네 가지 유형으로 분리되어 있다.
| 캡션 유형 | 용도 |
|---|---|
| General | 임의 해상도 이미지의 종합 설명, 다국어 지원 |
| Text | 슬라이드·포스터·만화 같은 텍스트 중심 이미지의 레이아웃과 기호 |
| Knowledge | 이미지 관련 배경 지식과 보조 컨텍스트 주입 |
| Structured | 관계 그래프·플로차트의 엔티티와 관계 명시 |
학습 데이터는 6단계 필터링 파이프라인을 통과한다. 1단계는 256p 해상도에서 Broken Files, Resolution, Deduplication, NSFW, Rotation, Entropy, CLIP, Token Length 8개 필터를 적용한다. 2단계는 256p에서 편집 데이터를 결합하고, 3단계는 512p로 해상도를 올리며 합성 데이터를 추가한다. 4단계는 512p와 1024p 혼합 학습이고, 5단계에서 2048p가 합류해 멀티 해상도 학습이 이루어진다. 6단계는 더 엄격한 분포 필터를 적용한 SFT 단계다. 폐쇄 루프 데이터 플라이휠은 모델 평가에서 발견된 실패 사례를 RL 트랙, 사전학습 트랙, 프롬프트 엔지니어링 트랙으로 자동 라우팅해 다음 체크포인트에 반영한다.
아키텍처와 VAE 설계
아키텍처는 Qwen3-VL 조건 인코더, 고압축 VAE, MMDiT 세 가지로 구성된다. 가장 인상적인 부분은 16배 공간 압축 비율의 VAE다. 기존 오픈소스 VAE가 8배 압축을 채택하는 것과 달리, Qwen-Image-2.0은 f16c64 구성(16배 압축, 64채널)을 사용해 표준 f8c16 베이스라인과 동일한 채널 병목을 유지하면서 압축률을 두 배로 끌어올렸다. 잔차 오토인코더 구조와 의미 정렬 손실(VA-VAE 스타일)을 도입해 압축률·재구성 충실도·디퓨저빌리티의 3중 트레이드오프를 완화했다. 적대적 손실은 대규모 학습에서 중복으로 판단되어 제거됐고, 의미 정렬 강도는 학습 초기에는 강하게, 후반에는 점진적으로 약화시키는 동적 스케줄이 적용됐다.
MMDiT 블록은 텍스트와 이미지 토큰을 같은 트랜스포머 백본에서 처리하며, 위치 인코딩은 MSRoPE를 사용한다. 모듈레이션은 편향 항을 제거하고 순수 곱셈 형태 h = γh로 단순화했고, MLP에는 SwiGLU 활성화 함수를 도입해 텍스트-이미지 공동 학습에서 발생하는 활성화 폭주를 완화한다.
프롬프트 엔핸서(PE)는 Qwen3.5-9B에서 초기화되어 SFT 후 GRPO 기반 RL로 후속 학습된다. 세밀한 캡션을 단계적으로 콜로퀴얼하게 열화시킨 뒤 역방향 추론을 학습 신호로 사용하는 데이터 구축 방식이 핵심이고, 결과적으로 사용자의 짧은 프롬프트를 구조화된 상세 프롬프트로 다시 쓴다.
다단계 학습과 RLHF
학습 단계와 하이퍼파라미터는 다음과 같이 구성된다.
| 단계 | Steps(K) | 해상도 | Batch | T2I/TI2I 비율 | 학습률 |
|---|---|---|---|---|---|
| Pre-training | 700 | 256/512 | 32/16 | 0.9/0.1 | 1e-4 |
| Continual Pre-training | 250 | 512/1024/2048 | 16/8/4 | 0.7/0.3 | 2e-5 |
| Supervised Fine-tuning | 10 | 512/1024/2048 | 16/8/4 | 0.7/0.3 | 1e-5 |
RLHF 단계에서는 다섯 가지 보상 모델이 작업별로 분리되어 있다. T2I에는 미적 보상, 이미지-텍스트 정렬 보상, 인물 보상이 적용되고, TI2I에는 지시 따름 보상과 시각 일관성 보상이 적용된다. GRPO 기반 디퓨전 RL이 사용되며, CFG는 롤아웃 샘플링에는 사용하지만 정책 최적화 목적함수의 unconditional 분기는 제외하는 하이브리드 전략을 채택했다. 이 설계는 보상 신호의 신뢰도를 유지하면서도 unconditional 모델 최적화에 드는 계산 비용을 줄여준다. 추가로 DMD(Distribution Matching Distillation) 기반의 4-NFE 학생 모델 Qwen-Image-2.0-Distillation을 함께 학습해, 40스텝 교사 모델과 시각적으로 비교 가능한 품질을 4번의 함수 평가만으로 달성한다.
주요 결과
벤치마크는 VAE 재구성, LMArena 사용자 선호도, 그리고 다양한 정성 비교 세 갈래로 보고됐다.
VAE 재구성 성능
ImageNet-1k 검증 세트(256x256)와 내부 텍스트 풍부 코퍼스에서 PSNR과 SSIM이 측정됐다.
| 모델 | 설정 | ImageNet PSNR/SSIM | Text PSNR/SSIM |
|---|---|---|---|
| Wan2.1 | f8c16 | 31.22 / 0.8839 | 29.93 / 0.9658 |
| HunyuanVideo | f8c16 | 32.23 / 0.9010 | 30.62 / 0.9664 |
| FLUX.1-dev | f8c16 | 31.29 / 0.8870 | 26.77 / 0.9386 |
| Qwen-Image | f8c16 | 33.21 / 0.9143 | 32.83 / 0.9773 |
| HunyuanImage-3.0 | f16c32 | 33.42 / 0.9159 | 36.63 / 0.9839 |
| Qwen-Image-2.0 | f16c64 | 33.42 / 0.9225 | 32.81 / 0.9795 |
Qwen-Image-2.0-VAE는 16배 압축 비율 환경에서 ImageNet SSIM 0.9225로 동일 카테고리 최고치를 보였다. f8c16 기반 모델들과 비교했을 때 압축률을 두 배로 키우면서도 재구성 품질을 유지한 점이 주목할 만하다.
LMArena 평가와 정성 비교
LMArena T2I 리더보드는 사용자에게 모델 정체를 가리고 이미지를 비교하게 한 뒤 ELO 점수를 산출하는 블라인드 평가다. 2026년 4월 22일 기준 Qwen-Image-2.0은 ELO 1168점으로 글로벌 9위, 중국 모델 1위에 올랐고 Nano Banana를 앞섰다. 세부 영역별 ELO 비교에서도 Portraits·Text Rendering·Overall 축에서 이전 Qwen-Image-2512보다 일관되게 더 높은 점수를 기록했다.
정성 평가는 GPT-Image-2, NanoBanana Pro, Qwen-Image-2512, Wan2.7 Pro, Seedream 5.0 Lite와의 비교로 진행됐다. 중국어 텍스트 렌더링 비교에서는 GPT-Image-2가 글자 크기를 지나치게 작게 그리고 자주 오자를 만들었으며, NanoBanana Pro는 일부 구간을 중복 출력했다. Qwen-Image-2.0만이 글자 단위 정확성을 유지하면서 타이포그래피 스타일을 전체 시각 구성과 자연스럽게 어우러지게 배치했다. 인물 생성에서는 다른 모델들이 배경 텍스처를 인공적으로 그리거나, “SERVED”를 “SERVE(D)”로 잘못 해석하거나, “1680” 같은 환각 숫자를 넣는 실패가 관찰된 반면 Qwen-Image-2.0은 텍스트 정확도와 사진 사실성을 동시에 유지했다. 이미지 편집에서도 고양이 정체성 보존, 다중 이미지 합성, 클래식 한시 렌더링 같은 시나리오에서 다른 모델들이 모색 변경, 자세 왜곡, 시 순서 뒤섞임, 글자 깨짐 같은 오류를 보였지만 Qwen-Image-2.0은 정체성과 지시문 준수를 동시에 만족했다.
한계와 주의사항
논문 자체는 별도의 Limitations 절을 두지 않고 미해결 과제로 처리하지만, Introduction에서 언급된 병목이 그대로 남아 있는 영역들이 있다. 2K 이상의 초고해상도에서 텍스처 중복이나 미세 디테일 손실은 모델 가족 전반의 도전 과제이며, 1K 토큰을 넘는 더 긴 문서나 복잡한 다국어 혼합에 대한 성능은 별도 검증이 필요하다. RLHF 단계에서 다섯 가지 보상 모델의 가중치를 동적으로 조정해 단일 차원 과최적화를 피한다고 명시되어 있지만, 실제 운영에서는 미적 품질과 지시 따름이 충돌하는 영역의 트레이드오프가 남는다. 또한 정성 비교는 저자들이 선정한 예시 기반이므로 LMArena ELO 같은 사용자 블라인드 점수를 함께 보는 것이 안전하다. 4-NFE Distillation 학생 모델은 효율성이 뛰어나지만, 40스텝 교사 대비 디테일 보존 한계는 작업과 도메인에 따라 달라질 수 있다.
결론
Qwen-Image-2.0은 생성과 편집을 분리된 파이프라인이 아닌 단일 모델로 통합하면서 텍스트 렌더링·다국어 타이포그래피·고해상도 사실성 같은 실무 병목을 동시에 다룬다. Qwen3-VL 조건 인코더, f16c64 잔차 VAE, MMDiT 백본, 다섯 갈래 RLHF 보상이 결합되어 LMArena ELO 1168, ImageNet VAE SSIM 0.9225 같은 정량 결과로 이어졌다. 1K 토큰 지시문으로 슬라이드와 포스터를 직접 만들고, 동일 모델이 한시 렌더링과 다중 이미지 합성을 함께 처리한다는 점은 실제 창작 워크플로에 의미 있는 변화다. 이미지 생성 모델을 도입하면서 텍스트와 편집을 별도 시스템으로 운영해 온 팀이라면, 단일 백본으로 통합 가능한지부터 검토해볼 만하다.