Anthropic의 AI 모델 증류 공격 탐지 및 방지 사례

게시 2026/02/28 업데이트 2026/03/01

By Juho

6 분읽는 시간

개요

Anthropic은 세 개의 중국 AI 연구소가 Claude를 대상으로 대규모 모델 증류 공격을 수행했다는 사실을 공개했습니다. DeepSeek, Moonshot AI, MiniMax는 약 24,000개의 사기 계정을 통해 총 1,600만 건 이상의 상호작용을 생성했습니다. 이는 Anthropic의 서비스 약관 및 중국 내 지역 접근 제한을 위반한 행위입니다.

증류 공격이란

모델 증류(distillation) 공격은 상용 AI 모델의 출력을 대규모로 수집하여 자체 모델을 훈련시키는 방식입니다. 이를 통해 고비용의 자체 훈련 없이도 상용 모델의 능력을 자체 모델에 이전할 수 있습니다. 중국 내에서는 Claude에 대한 직접 접근이 제한되어 있어, 공격자들은 프록시 서비스를 통해 우회했습니다. 이들은 일반 사용자 트래픽과 혼합하여 탐지를 어렵게 만들었습니다.

세 개의 캠페인

DeepSeek

DeepSeek은 150,000건 이상의 교환을 통해 Claude의 출력 데이터를 수집했습니다. 이 데이터는 DeepSeek 모델의 훈련에 활용된 것으로 추정됩니다.

Moonshot AI

Moonshot AI는 340만 건 이상의 교환을 생성했습니다. DeepSeek보다 약 23배 많은 규모의 데이터를 수집한 셈입니다.

MiniMax

MiniMax는 가장 공격적인 캠페인을 수행했습니다. 1,300만 건 이상의 교환을 생성하여 전체 공격의 80% 이상을 차지했습니다. 또한 Anthropic의 신모델 출시 후 24시간 내에 트래픽의 절반을 전환하는 민첩함을 보였습니다.

연구소	교환 건수
DeepSeek	150,000건 이상
Moonshot AI	340만 건 이상
MiniMax	1,300만 건 이상
합계	1,600만 건 이상

공격 방식의 기술적 세부사항

각 연구소는 “지능형 클러스터(intelligent cluster)” 아키텍처라는 사기 계정 네트워크를 구축했습니다. 한 경우에는 단일 프록시 네트워크가 동시에 20,000개 이상의 사기 계정을 관리했습니다.

공격자들이 수집하려 한 데이터 유형은 다음과 같습니다.

chain-of-thought 데이터: Claude에게 완료된 응답 뒤의 내부 추론을 단계별로 작성하도록 요구
검열 우회 데이터: 정치적 민감 질문에 대한 안전한 대안 응답 생성 유도

공격은 정상 사용과 다음과 같은 패턴으로 구별됩니다. 수십만 번 반복되는 동일한 프롬프트 변형이 수백 개의 조직된 계정에서 좁은 기능을 목표로 도달할 때 식별 가능합니다.

Anthropic의 탐지 및 대응

Anthropic은 이번 공격에 대응하기 위해 다음과 같은 기술적 대응책을 개발했습니다.

행동 지문(behavioral fingerprint) 시스템 구축
분류기(classifier) 개발로 비정상 패턴 자동 탐지
기술 지표를 다른 AI 연구소, 클라우드 제공자, 관계 당국과 공유
교육 계정, 보안 연구 프로그램 검증 강화
제품 및 API 수준의 보안 기능 추가 개발

의미와 시사점

이번 사건은 AI 모델을 상업 서비스로 운영하는 기업들이 직면한 새로운 유형의 보안 위협을 보여줍니다. 단순한 API 남용을 넘어 모델의 지식과 능력 자체를 훔치려는 시도입니다. 특히 경쟁사가 대규모 훈련 비용을 절감하는 수단으로 증류 공격을 활용할 수 있다는 점에서, AI 산업 전반의 생태계 공정성 문제가 제기됩니다.

일부에서는 OpenAI와 Anthropic도 Google의 연구 성과와 공개 데이터를 기반으로 성장했다는 점을 지적하며, 이 문제의 복잡성을 강조합니다. 그러나 계약 위반과 지역 접근 제한 우회는 법적, 윤리적으로 명확한 문제입니다.

결론

Anthropic은 단일 회사로는 이 문제를 해결할 수 없다고 밝혔습니다. 산업 전반, 클라우드 제공자, 정책 입안자 간의 조정된 대응이 필수적입니다. 이번 보고서는 이러한 위협에 대한 증거를 이해관계자들과 공유하기 위해 발표되었으며, AI 모델 증류 공격에 대한 업계 공동 대응의 필요성을 제기합니다.

Reference

Detecting and Preventing Distillation Attacks

AI LLM Security