Kimi K2.6 공개: 1T MoE 오픈소스 모델의 에이전틱 코딩 도약
목차
개요
Moonshot AI가 네이티브 멀티모달 에이전틱 모델 Kimi K2.6을 오픈소스로 공개했다. 장기 코딩, 코딩 기반 디자인, 자율 실행, 스웜 기반 작업 조율에서 실용적 역량이 크게 향상됐다. 이전 버전 K2.5 대비 주요 지표에서 두 자릿수 % 개선을 보였고, 일부 벤치마크에서는 Claude Opus 4.6 및 GPT-5.4와 경쟁 가능한 수준에 이르렀다.
아키텍처와 파라미터
K2.6은 Mixture-of-Experts 구조를 채택했다.
| 항목 | 세부 사항 |
|---|---|
| 총 파라미터 | 1T |
| 활성 파라미터 | 32B |
| 레이어 수 | 61 (dense 레이어 1개 포함) |
| 어텐션 은닉 차원 | 7168 |
| MoE 전문가 은닉 차원 | 2048 |
| 어텐션 헤드 | 64 |
| 전문가 수 | 384 |
| 토큰당 선택 전문가 | 8 |
| 컨텍스트 길이 | 256K 토큰 |
| 어텐션 메커니즘 | MLA |
| 비전 인코더 | MoonViT (400M) |
| 어휘 크기 | 160K |
| 라이선스 | Modified MIT |
추천 추론 엔진은 vLLM, SGLang, KTransformers다. Transformers는 4.57.1 이상 5.0.0 미만 버전이 요구된다.
핵심 기능
장기 실행 코딩
K2.6은 수천 건의 도구 호출과 12시간 이상의 연속 실행을 안정적으로 처리한다. 블로그 사례에서는 Zig 기반 Qwen3.5-0.8B 추론을 4,000회 이상의 도구 호출로 12시간 동안 최적화했다. exchange-core 금융 엔진 재설계에서는 중간 처리량 185%, 성능 133% 향상을 달성했다.
에이전트 스웜 확장
K2.5의 100개 서브에이전트, 1,500단계 수준에서 K2.6은 300개 서브에이전트와 4,000 조율 단계로 확장됐다. 문서, 웹사이트, 슬라이드, 스프레드시트 같은 이질적 작업을 병렬 처리한다. Claw Groups라는 리서치 프리뷰를 통해 이기종 에이전트 조율 프레임워크가 제공된다.
프로액티브 오케스트레이션
OpenClaw와 Hermes의 기반 모델로 24/7 자율 운영이 가능하다. 5일간의 자율 엔지니어링 워크로그에서 모니터링과 인시던트 대응을 직접 관리한 사례가 공개됐다. Skills 시스템은 PDF, 슬라이드, 문서를 재사용 가능한 작업 템플릿으로 변환한다.
벤치마크 성능
K2.6은 에이전틱, 코딩, 추론, 비전 전 영역에서 강한 수치를 보였다.
| 영역 | 벤치마크 | K2.6 | K2.5 |
|---|---|---|---|
| 에이전트 | BrowseComp (스웜) | 86.3% | - |
| 에이전트 | HLE-Full (도구 포함) | 54.0% | - |
| 에이전트 | Terminal-Bench 2.0 | 66.7% | 50.8% |
| 코딩 | SWE-Bench Pro | 58.6% | 50.7% |
| 코딩 | SWE-Bench Verified | 80.2% | - |
| 코딩 | LiveCodeBench v6 | 89.6% | - |
| 추론 | AIME 2026 | 96.4% | - |
| 추론 | GPQA-Diamond | 90.5% | - |
| 비전 | MathVision (Python) | 93.2% | - |
| 비전 | V* (Python) | 96.9% | - |
K2.5 대비 Terminal-Bench 2.0에서 15.9%p, SWE-Bench Pro에서 7.9%p 상승은 장기 실행 안정성 개선을 반영한다.
OpenRouter 가용성과 가격
K2.6은 OpenRouter를 통해서도 즉시 사용할 수 있다. OpenRouter는 프롬프트 크기와 파라미터에 맞는 최적 공급자로 요청을 라우팅하며 가용성을 위한 폴백을 제공한다.
| 항목 | 값 |
|---|---|
| 입력 가격 | 1M 토큰당 0.60달러 |
| 출력 가격 | 1M 토큰당 2.80달러 |
| 컨텍스트 길이 | 262,144 토큰 |
| 출시일 | 2026년 4월 20일 |
OpenRouter의 최근 사용량 통계는 K2.6 채택이 빠르게 늘고 있음을 보여준다.
- Prompt tokens: 50.6B
- Reasoning tokens: 485M
- Completion tokens: 234M
특히 reasoning 파라미터와 reasoning_details 배열을 통해 모델의 단계별 사고 과정에 접근할 수 있다는 점이 명시돼 있다. Thinking 모드를 API 레벨에서 제어할 수 있어 에이전트 프레임워크와 통합하기 수월하다.
사용 예시
Moonshot API는 OpenAI/Anthropic 호환 엔드포인트를 제공한다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import openai
client = openai.OpenAI(api_key="your-api-key", base_url="https://api.moonshot.ai/v1")
messages = [
{'role': 'system', 'content': 'You are Kimi, an AI assistant created by Moonshot AI.'},
{'role': 'user', 'content': 'Which is bigger: 9.11 or 9.9?'}
]
response = client.chat.completions.create(
model="kimi-k2.6",
messages=messages,
max_tokens=4096
)
print(f"Reasoning: {response.choices[0].message.reasoning}")
print(f"Response: {response.choices[0].message.content}")
Thinking 모드가 기본이고, extra_body={'thinking': {'type': 'disabled'}}로 즉답 모드를 선택할 수 있다. 권장 온도는 Thinking 모드에서 1.0, Instant 모드에서 0.6, top_p는 0.95다. 추론 작업에서는 max_tokens를 98,304까지 확장할 수 있다.
이미지와 비디오도 base64 인코딩으로 멀티모달 메시지에 포함할 수 있다.
1
2
3
4
5
6
7
8
9
messages = [
{
'role': 'user',
'content': [
{'type': 'text', 'text': 'Describe this image in detail.'},
{'type': 'image_url', 'image_url': {'url': f'data:image/png;base64,{image_base64}'}},
],
}
]
결론
K2.6은 오픈소스 진영에서 에이전틱 워크로드에 실용적으로 쓸 수 있는 선택지를 한 단계 끌어올렸다. 1T 총 파라미터 중 32B만 활성화되는 MoE 구조로 비용 효율을 유지하면서 256K 컨텍스트를 확보했다. GeekNews 커뮤니티에서는 OpenRouter를 통한 경쟁적 가격으로 실사용 성능이 견고하다는 평가가 이어졌고, Opus 대비 일반 추론에서는 뒤진다는 지적도 함께 나왔다. 자사 워크로드 특성에 맞춰 Opus/GPT-5.4와 비교 테스트해볼 가치가 충분한 모델이다.