Qwen3.5 - 알리바바의 새로운 대규모 언어 모델 시리즈

게시 2026/03/07 업데이트 2026/03/07

By Juho

4 분읽는 시간

개요

알리바바 클라우드의 Qwen 팀이 개발한 Qwen3.5 대규모 언어 모델 시리즈가 공개되었다. 멀티모달 역량, 아키텍처 효율성, 강화학습, 언어 다양성 면에서 크게 발전한 모델이다. 모든 오픈 웨이트 모델은 Apache 2.0 라이선스로 제공된다.

핵심 특징

통합 비전-언어 파운데이션

멀티모달 토큰에 대한 조기 융합(Early Fusion) 훈련을 통해 Qwen3과 동등한 성능을 달성했다. 추론, 코딩, 에이전트, 시각적 이해 벤치마크에서 Qwen3-VL 모델을 능가하는 성과를 보인다.

효율적 하이브리드 아키텍처

Gated Delta Networks와 Sparse Mixture-of-Experts(MoE)를 결합한 아키텍처를 채택했다. 최소한의 오버헤드로 높은 처리량의 추론이 가능하다.

확장 가능한 강화학습

백만 에이전트 환경에 걸쳐 강화학습을 확장하고, 점진적으로 복잡한 작업 분포를 적용했다. 이를 통해 모델의 일반화 능력이 크게 향상되었다.

글로벌 언어 지원

201개 언어와 방언을 지원하여 전 세계 배포에 적합하다. 텍스트 전용 훈련 대비 거의 100%의 멀티모달 훈련 효율성을 달성했다.

모델 크기 및 출시 일정

Qwen3.5는 다양한 크기의 모델을 순차적으로 출시했다.

출시일	모델
2026-02-16	Qwen3.5-397B-A17B
2026-02-24	Qwen3.5-122B-A10B, 35B-A3B, 27B
2026-03-02	Qwen3.5-9B, 4B, 2B, 0.8B

모델명의 “A” 접미사는 MoE 구성에서의 활성 파라미터 수를 나타낸다. 예를 들어 397B-A17B는 전체 397B 파라미터 중 17B만 활성화하여 추론에 사용한다.

배포 및 활용

다양한 방식으로 모델을 배포하고 활용할 수 있다.

공식 플랫폼으로는 Qwen Chat 웹/모바일 인터페이스와 Alibaba Cloud Model Studio API가 있다. Model Studio는 OpenAI 및 Anthropic 호환 API를 제공한다.

로컬 배포는 Hugging Face Transformers, llama.cpp, MLX(Apple Silicon 최적화)를 지원한다.

프로덕션 서빙에는 SGLang과 vLLM이 OpenAI 호환 API를 제공하며, 262K 컨텍스트 길이를 지원한다.

  
# Transformers를 통한 대화형 채팅
transformers chat Qwen/Qwen3.5-35B-A3B

# SGLang 배포
python -m sglang.launch_server --model-path Qwen/Qwen3.5-35B-A3B \
  --port 8000 --tp-size 4 --context-length 262144 --reasoning-parser qwen3

# vLLM 배포
vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 4 \
  --max-model-len 262144 --reasoning-parser qwen3

파인튜닝은 UnSloth, Swift, Llama-Factory를 통해 SFT, DPO, GRPO 방식으로 가능하다.

결론

Qwen3.5는 멀티모달 통합, 효율적 MoE 아키텍처, 201개 언어 지원 등으로 오픈소스 LLM 생태계에서 강력한 경쟁력을 보여주고 있다. Apache 2.0 라이선스로 자유롭게 활용할 수 있어 다양한 프로젝트에 적용 가능하다.

Reference

Qwen3.5 GitHub Repository

LLM

LLM AI Benchmark