METR의 AI 시간 지평 연구 - AI 자율성이 6개월마다 두 배씩 성장한다
목차
개요
METR(Machine Evaluation and Testing Research, 캘리포니아 버클리 소재 비영리 AI 연구기관)이 프론티어 AI 모델의 자율적 작업 수행 능력을 정량화한 연구를 발표했습니다. 이 연구의 핵심 지표는 “작업 완료 시간 지평(Task-Completion Time Horizon)”으로, AI가 얼마나 길고 복잡한 자율 작업을 완료할 수 있는지를 측정합니다. 연구에 따르면 AI의 시간 지평은 지난 6년간 약 6개월(183일)마다 두 배씩 증가해왔습니다. 2019년 GPT-2 시절 거의 0분이었던 능력이, 2026년 Claude Opus 4.6 기준으로는 인간 전문가 기준 약 14.5시간에 해당하는 복잡도의 작업까지 확대됐습니다.
시간 지평이란?
정의
“50%-time horizon”은 AI 에이전트가 50% 확률로 성공할 것으로 예측되는 작업의 지속 시간을 의미합니다. 여기서 핵심은 이 시간이 AI가 실제로 작동한 시간이 아니라, 인간 전문가가 동일한 작업을 완료하는 데 걸리는 시간을 기준으로 삼는다는 점입니다.
흔한 오해와 정확한 의미
- 오해: “Claude가 14.5시간 동안 작업했다”
- 정확한 의미: “인간 전문가가 14.5시간 걸리는 복잡도의 작업을 AI가 50% 확률로 성공한다”
이 기준은 AI의 절대적인 처리 속도가 아니라, AI가 자율적으로 처리할 수 있는 작업의 복잡성 수준을 나타냅니다.
방법론
평가 과제 구성
평가 과제는 RE-Bench, HCAST, 신규 소프트웨어 작업에서 추출했습니다. 소프트웨어 엔지니어링, 기계학습, 사이버보안 분야를 중심으로 구성하였으며, 자체 포함적이고 명확한 성공 기준을 갖춘 과제들입니다.
측정 방법
| 단계 | 내용 |
|---|---|
| 인간 기준 설정 | 인간 전문가의 완료 시간을 기하평균으로 추정 |
| 성공 확률 예측 | 로지스틱 곡선 피팅으로 AI 성공 확률 계산 |
| 시간 지평 산출 | 50% 및 80% 성공률 지점의 작업 지속시간 계산 |
주요 발견
지수적 성장 추세
모든 측정 데이터에서 공통적으로 약 183일(6개월)의 배증 시간이 나타났습니다. 이는 AI 능력이 약 6개월마다 두 배로 증가하고 있음을 시사합니다.
| 연도 | 모델 | 50% 시간 지평 (인간 기준) |
|---|---|---|
| 2019 | GPT-2 | 약 0분 |
| 2026 | Claude Opus 4.6 | 약 14.5시간 |
임계점 도달의 의미
METR은 이 결과가 “AI가 단순한 보조 도구를 넘어 전문 지식 노동의 상당 부분을 실질적으로 대체할 수 있는 임계점에 도달했음을 시사”한다고 밝혔습니다. 변호사, 의사, 소프트웨어 엔지니어 등 전문직이 반나절 이상을 투여하는 작업을 AI가 자율적으로 처리할 수 있는 수준에 접어든 것입니다.
한계와 주의사항
METR은 이 지표의 명확한 한계도 함께 제시했습니다.
- 도메인 편향: 소프트웨어 중심 과제로 구성되어 있어 모든 직업군에 일반화하기 어렵습니다.
- 현실과의 간극: 실제 업무에는 사람 간 상호작용, 맥락 파악, 정치적 판단 등이 필요해 직접 비교는 부적절합니다.
- 과제 조건의 이상화: 실험 과제는 실제 직장 환경보다 명확히 정의된 조건에서 설계됩니다.
METR은 이 지표를 경제적 영향 예측이나 일자리 자동화 속도 평가에 직접 적용하는 것은 적절하지 않다고 강조합니다.
결론
METR의 시간 지평 연구는 AI 자율성의 발전을 정량적으로 추적할 수 있는 중요한 기준점을 제시합니다. 6개월마다 두 배씩 증가하는 추세가 이어진다면, 향후 AI가 자율적으로 처리할 수 있는 작업의 복잡성은 급속히 확대될 것입니다. 다만 이 수치는 특정 도메인에서의 성능 측정값이며, AI가 인간 노동 전체를 대체하는 속도를 직접 의미하지는 않습니다. METR은 다양한 도메인으로 연구를 확장하며 지표를 지속적으로 갱신하고 있습니다.