LG EXAONE 4.5 33B: 한국어 특화 첫 오픈 비전-언어 모델
목차
개요
LG AI Research가 EXAONE 4.5 33B를 Hugging Face에 공개했다. EXAONE 시리즈 최초의 오픈 웨이트 비전-언어 모델(VLM)이다. 31.7B 파라미터의 언어 모델과 1.29B 파라미터의 비전 인코더를 결합해 총 33B 규모를 이룬다.
지식 컷오프는 2024년 12월이며 BF16 정밀도의 Safetensors 포맷으로 제공된다. 기본 설정으로 enable_thinking=True 추론 모드를 활성화한다. 한국어를 포함한 6개 언어를 지원하며 한국어 이해 능력이 특히 강화되었다.
모델 아키텍처
EXAONE 4.5는 262,144 토큰(256K)의 긴 컨텍스트를 처리하도록 설계되었다. 하이브리드 어텐션 패턴으로 효율성과 표현력의 균형을 맞추었다.
언어 모델 구조
언어 모델은 Causal LM 기반이며 하이브리드 어텐션 패턴이 특징이다. 슬라이딩 윈도우 3회와 글로벌 어텐션 1회를 16번 반복하는 구조이다. 글로벌 어텐션에는 Rotary Positional Embedding을 제거한 NoPE를 적용했다.
| 항목 | 값 |
|---|---|
| Hidden Dimension | 5,120 |
| Intermediate Size | 27,392 |
| Layers | 64 + 1 MTP |
| Attention Heads | Q 40 / KV 8 (GQA) |
| Head Dimension | 128 |
| Sliding Window | 4,096 토큰 |
| Vocab Size | 153,600 |
| Context Length | 262,144 토큰 |
비전 인코더
비전 인코더는 1.29B 파라미터로 구성된다. Grouped Query Attention(GQA)과 2D RoPE 임베딩을 사용한다. 이미지-텍스트 QA를 추론 모드와 비추론 모드 모두에서 수행할 수 있다.
벤치마크 성능
EXAONE 4.5 33B는 동급 오픈 모델 대비 폭넓은 영역에서 경쟁력 있는 점수를 기록했다. 특히 한국어 특화 벤치마크와 수학/STEM 영역에서 강점을 보인다.
비전-언어 태스크
문서 이해와 수학/과학 멀티모달 벤치마크에서 높은 점수를 받았다. 한국어 비전 벤치마크 KRETA에서 91.9%를 기록한 점이 주목할 만하다.
| 영역 | 벤치마크 | 점수 |
|---|---|---|
| 문서 이해 | OmniDocBench | 81.2% |
| 문서 이해 | AI2D | 89.0% |
| 문서 이해 | CharXiv | 71.7% |
| STEM/수학 | MathVision | 75.2% |
| STEM/수학 | MathVista | 85.0% |
| STEM/수학 | WeMath | 79.1% |
| 한국어 | KRETA | 91.9% |
| 한국어 | K-Viscuit | 80.1% |
| 한국어 | KMMMU | 42.7% |
| 일반 | MMStar | 74.9% |
| 일반 | BLINK | 68.8% |
언어 단독 태스크
추론과 도구 사용 벤치마크에서도 강한 성능을 보여준다. AIME 2025에서 92.9%, GPQA-Diamond에서 80.5%를 기록했다.
| 영역 | 벤치마크 | 점수 |
|---|---|---|
| 추론 | AIME 2025 | 92.9% |
| 추론 | GPQA-Diamond | 80.5% |
| 추론 | MMLU-Pro | 83.3% |
| 도구 사용 | τ2-Bench | 56.5~77.9% |
| 지시 수행 | IFEval | 89.6% |
| 지시 수행 | IFBench | 62.6% |
| 롱컨텍스트 | AA-LCR | 50.6% |
| 한국어 | KMMLU-Pro | 67.6% |
| 한국어 | KoBALT | 52.1% |
배포와 활용
EXAONE 4.5는 주요 추론 엔진을 폭넓게 지원한다. TensorRT-LLM은 Day-0 지원, vLLM과 SGLang은 커스텀 포크가 필요하며 llama.cpp 양자화 버전도 제공된다. 에이전트 시나리오에서는 MCP 통합을 통한 도구 사용이 가능하다.
하드웨어 요구 사항으로 전체 컨텍스트 활용 시 단일 H200이 필요하다. 멀티 GPU 구성에서는 A100-40GB 4장으로 텐서 병렬 처리가 가능하다.
1
2
3
4
5
6
7
8
vllm serve LGAI-EXAONE/EXAONE-4.5-33B \
--served-model-name EXAONE-4.5-33B \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser hermes
범용 작업은 temperature=1.0, top_p=0.95, presence_penalty=1.5를 권장한다. 문서/OCR/한국어 태스크에서는 temperature=0.6, top_k=20으로 낮추는 설정이 안정적이다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="EXAONE-4.5-33B",
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "..."}},
{"type": "text", "text": "Question here?"}
]
}],
max_tokens=32768,
temperature=1.0,
top_p=0.95,
presence_penalty=1.5
)
한계와 라이선스
라이선스는 EXAONE AI Model License Agreement 1.2 NC로 상업적 사용이 제한된다. 학습 데이터 통계에 의존하므로 부적절하거나 편향된 응답이 나올 수 있다. 2024년 12월 이후 정보는 반영되어 있지 않으며 실시간 정보 접근도 불가능하다.
결론
EXAONE 4.5 33B는 LG AI Research가 공개한 최초의 오픈 비전-언어 모델이다. 256K 롱컨텍스트, MCP 기반 도구 사용, 한국어 특화 성능을 동시에 갖춘 점이 차별점이다. 비상업적 라이선스 제약이 있으나 국내 한국어 멀티모달 연구의 중요한 기준점이 될 전망이다.