Microsoft MDASH - 100개 이상의 AI 에이전트로 사이버짐 1위, 앤트로픽 미토스를 능가하다
목차
개요
마이크로소프트가 다중 모델 기반 에이전트형 AI 보안 시스템 MDASH(Multi-Model Agentic Scanning Harness)를 공개했습니다. 앤트로픽의 미토스(Mythos)와 오픈AI의 데이브레이크(Daybreak)와 정면 경쟁하는 AI 보안 시스템으로, 사이버짐(CyberGym) 벤치마크에서 1위를 기록했습니다. 대구 과학고와 KAIST 출신의 김태수 조지아텍 컴퓨터공학과 교수이자 MS 보안 부사장이 개발을 주도했습니다. 사티야 나델라 MS CEO도 본인 트위터에 이번 성과를 직접 공유하며 외부에 알렸습니다.
MDASH의 설계 철학
MDASH는 단일 AI 모델에 의존하지 않고 100개가 넘는 특화 AI 에이전트를 조합해 취약점을 탐지하는 구조로 설계됐습니다. 설계의 핵심은 “모델 자체가 아니라 모델 주변의 에이전트 시스템에 지속 가능한 이점이 있다”는 MS의 판단입니다.
무거운 AI와 가벼운 AI의 협업
MDASH는 작업 성격에 따라 서로 다른 종류의 모델을 투입합니다.
| 모델 유형 | 사용 영역 |
|---|---|
| Frontier 대형 모델 | 복잡한 추론이 필요한 작업 |
| 증류 경량 모델 | 대량의 검증, 토론, 반복 분석 |
복잡한 취약점 추론에는 고성능 대형 모델을 쓰고, 대량의 검증과 반복 분석에는 경량화된 증류 모델을 투입하는 방식입니다. 외신은 이를 “무거운 AI는 깊게 생각하고, 가벼운 AI는 대량 검증을 수행하는 협업 구조”라고 평가했습니다. 이 구조는 정확도와 비용 효율을 동시에 잡으려는 시도이며, 단일 모델 호출로는 처리 불가능한 규모의 분석을 가능하게 합니다.
단계별 작업 분리
시스템 내부는 보안 분석을 여러 단계로 분리해 처리합니다.
- code preparation - 코드 준비
- scanning - 취약점 스캔
- validation - 결과 검증
- deduplication - 중복 제거
- proof generation - 공격 증명 생성
- patch validation - 패치 검증
각 단계마다 적합한 모델과 에이전트가 투입되며, 결과는 다음 단계로 전달됩니다. 이는 보안 분석 워크플로우를 파이프라인 형태로 모듈화한 구조로, 단계별 정확도와 재현율을 독립적으로 측정하고 개선할 수 있게 합니다.
실제 성과
MDASH는 비공개 테스트와 공개 벤치마크에서 모두 강한 성능을 입증했습니다.
윈도 취약점 16건 발견
MS는 실제 윈도(Windows)의 네트워크 및 인증 구성 요소에서 16개의 새로운 취약점을 MDASH로 발견했다고 밝혔습니다. 이 중 4개는 원격 코드 실행(Remote Code Execution)이 가능한 심각한 수준의 취약점이었습니다.
내부 테스트 결과는 다음과 같습니다.
| 테스트 | 결과 |
|---|---|
| 21개 취약점 삽입 비공개 환경 | 21개 모두 탐지, 오탐 0건 |
| clfs.sys 5년 MSRC 회고 테스트 | 96% 재현율 |
| tcpip.sys 회고 테스트 | 100% 재현율 |
21개 의도적 취약점에 대해 오탐 없이 모두 탐지한 결과는 단순히 재현율만 높은 것이 아니라 정밀도까지 함께 확보됐음을 보여줍니다. 회고 테스트의 96-100% 재현율은 과거 실제 사례를 기준으로 검증된 수치라는 점에서 의미가 큽니다.
사이버짐 벤치마크 1위
실제 취약점 재현 과제 1507개로 구성된 공개 벤치마크 사이버짐(CyberGym)에서 MDASH는 88.4%의 점수로 리더보드 1위에 올랐습니다.
| 시스템 | 사이버짐 점수 |
|---|---|
| Microsoft MDASH | 88.4% |
| Anthropic Mythos | 83.1% |
| OpenAI GPT-5.5 | 81.8% |
사이버짐은 실제 해킹과 사이버 공격 상황을 가상 환경에서 재현해 조직의 보안 대응 능력을 훈련하고 검증하는 모의훈련 체계입니다. MS는 MDASH가 미토스보다 5.3%p, GPT-5.5보다 6.6%p 높은 점수를 기록했다고 강조했습니다.
경쟁 구도
AI 기반 보안 시장은 빅3가 정면 경쟁하는 구도로 재편되고 있습니다.
| 회사 | 시스템 | 핵심 기능 |
|---|---|---|
| Microsoft | MDASH | 다중 모델 에이전트, 100개 이상의 특화 AI 조합 |
| Anthropic | Mythos | 코드베이스 스캔, 취약점 검증, 패치 제안 |
| OpenAI | Daybreak | 코드 리뷰, 위협 모델링, 패치 검증, 의존성 위험 분석 |
OpenAI의 데이브레이크는 자사 모델과 Codex를 결합해 안전한 코드 리뷰, 위협 모델링, 패치 검증, 의존성 위험 분석, 보안 수정 가이드 등을 지원합니다. 앤트로픽의 미토스는 코드베이스 스캔, 취약점 검증, 패치 제안 기능을 중심으로 AI 보안 시장에 진입했습니다. MDASH는 이들과 달리 단일 모델 중심 접근에서 벗어나 다중 모델 에이전트 조합으로 차별화를 시도하는 점이 특징입니다.
한국인 부사장 김태수
MDASH 개발을 주도한 인물은 김태수 조지아텍 컴퓨터공학과 교수이자 MS 보안 담당 부사장입니다. 그는 대구 과학고와 KAIST를 거쳤으며, 2026년 1월부터 조지아주 소재 MS에서 근무하고 있습니다.
주요 이력은 다음과 같습니다.
- 2026년 DARPA가 세계 처음 시행한 AI 사이버 챌린지(AIxCC) 1위 팀 애틀랜타 리더
- NSF CAREER 상 (2018)
- 페이스북 인터넷 방어상 (2015)
- SOSP’21, USENIX Security’18, EuroSys’17 등 주요 학회 우수 논문상 수상
- 2021년 4월부터 4년여간 삼성리서치 보안팀 근무, 삼성전자 최연소 임원으로 입사
DARPA AIxCC 우승 경험이 MDASH의 다중 에이전트 협업 설계에 직접적인 영향을 미친 것으로 추정됩니다. 삼성 최연소 임원과 글로벌 빅테크 부사장이라는 이력은 한국 보안 연구자가 글로벌 AI 보안 시장의 중심에 진입한 사례로 볼 수 있습니다.
의미와 시사점
MDASH의 성과는 세 가지 측면에서 의미가 있습니다.
첫째, AI 보안 경쟁의 축이 “더 큰 모델”에서 “더 좋은 에이전트 시스템”으로 옮겨가고 있음을 보여줍니다. MS가 직접 “지속적인 이점은 단일 모델 자체가 아니라 모델 주변의 에이전트 시스템에 있다”고 밝힌 점이 이를 뒷받침합니다.
둘째, 무거운 추론과 가벼운 검증을 분리하는 협업 구조가 보안 분석에 효과적임을 입증했습니다. 이는 보안 외 다른 도메인(코드 리뷰, 문서 분석, 데이터 검증)에도 적용 가능한 일반화된 패턴입니다.
셋째, 실제 윈도 운영체제에서 16개의 새로운 취약점, 그 중 4개의 RCE 수준 취약점을 발견한 결과는 AI 보안이 연구 단계를 넘어 기업 규모의 방어 도구로 전환됐음을 보여줍니다. MS는 이미 MDASH를 내부 엔지니어링 팀에서 여러 제품과 서비스의 보안 강화에 활용하고 있으며, 일부 고객사 대상 비공개 프리뷰도 진행 중입니다.
결론
Microsoft MDASH는 다중 모델 에이전트형 AI 보안 시스템으로, 사이버짐 벤치마크에서 88.4%로 1위를 기록하며 앤트로픽 미토스(83.1%)와 OpenAI GPT-5.5(81.8%)를 모두 앞섰습니다. 실제 윈도 환경에서 16개의 새로운 취약점, 그 중 4개의 RCE 수준을 발견했으며, 회고 테스트에서 96-100%의 재현율을 보였습니다. 설계의 핵심은 frontier 대형 모델과 증류 경량 모델을 작업 성격에 따라 조합하고, 보안 분석을 단계별 파이프라인으로 모듈화한 점입니다. 대구 과학고·KAIST 출신 김태수 부사장이 개발을 주도했으며, 사티야 나델라 CEO도 트위터로 성과를 공유했습니다. AI 보안 시장의 경쟁 축이 단일 모델 성능에서 에이전트 시스템 설계로 옮겨가는 흐름을 상징적으로 보여주는 사례입니다.