Kimi K2.7 Code : 장기 코딩에 특화된 오픈 가중치 에이전트 모델

게시 2026/06/19 업데이트 2026/06/21

By Juho

10 분읽는 시간

개요

Kimi K2.7 Code는 Moonshot AI가 공개한 코딩 중심 에이전트 모델이다. 이 모델은 이전 세대인 Kimi K2.6을 기반으로 구축되었다. 실제 장기 코딩 작업 성능이 크게 개선되었으며, K2.6 대비 사고 토큰 사용량은 약 30% 감소했다.

K2.7 Code는 일반 대화가 아니라 장기 소프트웨어 엔지니어링을 목표로 설계되었다. 계획, 편집, 도구 실행, 다단계 디버깅 같은 작업을 수행하도록 특화되어 있다. 오픈 가중치로 공개되어 자가 호스팅이 가능하며, 폐쇄형 모델 대비 저렴한 API 가격을 제공한다.

방법론

아키텍처

Kimi K2.7 Code는 Mixture-of-Experts(MoE) 구조를 사용한다. 총 1조(1T) 파라미터를 보유하지만 토큰당 32B만 활성화한다. 384개의 전문가 중 토큰당 8개를 선택하고, 여기에 1개의 공유 계층이 추가된다.

레이어 구성은 61개 레이어이며 이 중 조밀(dense) 레이어 1개가 포함된다. 어텐션은 MLA 어텐션을 사용하고, 피드포워드 계층은 SwiGLU를 사용한다. 이미지와 비디오 입력은 400M 파라미터 규모의 MoonViT 비전 인코더로 처리한다.

다음은 아키텍처 핵심 요소를 정리한 표이다.

항목	내용
구조	Mixture-of-Experts(MoE)
총 파라미터	1조(1T)
활성 파라미터	토큰당 32B
전문가	384개 중 토큰당 8개 선택, 공유 계층 1개
레이어	61개 (조밀 레이어 1개 포함)
어텐션	MLA
피드포워드	SwiGLU
비전 인코더	MoonViT 400M

주요 사양과 제약

컨텍스트 윈도우는 256K 토큰(262,144)이다. 어휘 크기는 160K이며, 기본 양자화는 INT4를 사용한다. 허깅페이스에 공개된 모델 크기는 약 595GB이다.

K2.7 Code에는 동작 방식에 대한 몇 가지 고정 제약이 존재한다. 사고 모드(thinking mode)는 필수로 활성화되며 비활성화할 수 없다. preserve_thinking은 기본 활성화되어 있다.

샘플링 파라미터는 고정되어 있어 사용자가 제어할 수 없다. 온도는 1.0, top_p는 0.95로 고정되어 있다. 최대 출력은 32,768 토큰이다.

다음은 주요 사양을 정리한 표이다.

항목	값
컨텍스트 윈도우	256K 토큰 (262,144)
어휘 크기	160K
기본 양자화	INT4
모델 크기	약 595GB
사고 모드	필수 활성화 (비활성화 불가)
온도 / top_p	1.0 / 0.95 (고정)
최대 출력	32,768 토큰

주요 결과

벤치마크 성능

K2.7 Code는 여러 코딩 및 에이전트 벤치마크에서 K2.6 대비 일관된 향상을 보인다. 특히 Kimi Code Bench v2에서 50.9에서 62.0으로 21.8% 향상되었다. MLS Bench Lite에서는 26.7에서 35.1로 31.5% 향상되어 개선 폭이 가장 컸다.

다음은 K2.6과 K2.7 Code의 벤치마크 비교 표이다.

벤치마크	K2.6	K2.7 Code	향상
Kimi Code Bench v2	50.9	62.0	21.8%
Program Bench	48.3	53.6	11.0%
MLS Bench Lite	26.7	35.1	31.5%
MCP Mark Verified	72.8	81.1	11.4%

추가 에이전트 벤치마크로 Kimi Claw 24/7에서 46.9, MCP Atlas에서 76.0을 기록했다. 폐쇄형 모델과 비교하면, K2.7 Code는 MCP Mark Verified에서 Claude Opus 4.8보다 우수하다(81.1 대 76.4). MLS Bench Lite에서는 GPT-5.5와 근접한 성능을 보인다.

K2.6 대비 개선

K2.7 Code의 가장 두드러진 개선은 추론 토큰 효율성이다. 사고 토큰 사용량이 약 30% 감소하여 비용 절감과 속도 개선으로 이어진다.

모든 벤치마크에서 향상이 나타났으며, MLS Bench Lite에서 31.5%로 가장 큰 폭의 개선을 보였다. 즉 더 적은 사고 토큰으로 더 높은 성능을 달성한 것이 핵심 개선점이다.

활용과 가격

활용 사례와 배포

K2.7 Code는 장기 코딩 작업을 중심으로 다양한 활용 사례를 가진다.

저장소 규모 리팩토링에 활용할 수 있다. 테스트 실패 지점에서 시작해 모듈 간 편집을 수행한 뒤 재실행하는 흐름을 처리한다.

코드 리뷰에도 사용된다. 256K 컨텍스트 안에서 대규모 diff와 관련 파일을 함께 분석할 수 있다.

MCP 도구 사용에도 적합하다. CI 검사, 티켓 업데이트, 파일 편집 자동화 같은 작업을 도구 실행으로 처리한다.

장기 컨텍스트 분석도 가능하다. 문서, 스크린샷, 비디오 같은 입력을 긴 컨텍스트로 분석한다.

배포 측면에서는 Transformers 라이브러리에서 trust_remote_code=True 옵션으로 사용한다. 배포 엔진으로는 vLLM, SGLang, KTransformers가 권장되며 서버급 배포가 필요하다. OpenAI 및 Anthropic 호환 API를 제공한다.

가격과 라이선스

라이선스는 Modified MIT로 개방형이다. API 가격은 입력과 출력, 캐시 입력에 따라 구분된다.

다음은 가격 정보를 정리한 표이다.

구분	가격
입력	1M 토큰당 0.95달러
출력	1M 토큰당 4.00달러
캐시 입력	1M 토큰당 0.19달러

한계와 주의사항

K2.7 Code는 여러 강점을 가지지만 명확한 약점도 존재한다.

강점으로는 개방형 가중치, K2.6 대비 일관된 성능 개선, 폐쇄형 모델 대비 저렴한 API 가격을 들 수 있다.

약점은 다음과 같다. 공개된 벤치마크는 자사가 제공한 수치라는 점에서 외부 검증이 필요하다. 사고 모드를 비활성화할 수 없어 항상 사고 토큰이 소비된다. 샘플링 파라미터를 제어할 수 없어 출력의 다양성을 조정하기 어렵다. 자가 호스팅 시 약 595GB의 대용량 스토리지가 필요하다.

결론

Kimi K2.7 Code는 Kimi K2.6을 기반으로 장기 코딩 작업에 특화한 오픈 가중치 에이전트 모델이다. 1조 파라미터 MoE 구조에 토큰당 32B를 활성화하고, 256K 컨텍스트와 MoonViT 비전 인코더를 갖춘다. 모든 벤치마크에서 K2.6 대비 향상되었으며, 사고 토큰을 약 30% 줄이면서도 성능을 끌어올린 점이 핵심이다.

개방형 라이선스와 저렴한 API 가격은 분명한 장점이다. 다만 자사 제공 벤치마크, 비활성화 불가한 사고 모드, 고정된 샘플링 파라미터, 대용량 스토리지 요구는 도입 전에 고려해야 할 요소이다.

Reference

LLM

LLM AI Benchmark