When AI builds itself: 재귀적 자기개선을 향한 Anthropic의 현주소
목차
개요
Anthropic은 “When AI builds itself”라는 글을 통해 AI 시스템이 점점 더 AI 개발 그 자체를 자동화하고 있다는 증거를 제시한다. 궁극적으로는 시스템이 자신의 후속 모델을 스스로 설계하는 재귀적 자기개선(recursive self-improvement)에 가까워지고 있다는 것이 핵심 주장이다.
여기서 재귀적 자기개선은 AI 시스템이 완전히 자율적으로 자신의 후속 모델을 설계하고 개발할 수 있는 상태를 의미한다. 아직 달성되지는 않았지만 실현 가능성에 점점 다가가고 있다고 본다.
AI 개발 자동화의 타임라인
Anthropic은 AI가 AI 개발에 관여하는 정도가 단계적으로 확대되어 왔다고 정리한다.
| 시기 | AI의 역할 |
|---|---|
| 2021-2023 | 인간이 모든 개발 단계를 주도 |
| 2023-2025 | 초기 챗봇이 코드 스니펫을 보조 |
| 2025-2026 | 코딩 에이전트가 파일 전체를 작성하고 수정 |
| 현재 | 자율 에이전트가 수 시간 분량의 작업을 위임받아 처리 |
| 미래 | 시스템이 독립적으로 모델을 학습시킬 가능성 |
코드 생산의 가속
내부 데이터에 따르면 변화의 폭은 상당하다.
2026년 5월 기준 Anthropic의 머지된 프로덕션 코드의 80% 이상이 Claude에 의해 작성되었다. 엔지니어들은 2021-2025년 기준선 대비 분기당 8배 많은 코드를 출하하고 있다. 오픈엔드 코딩 작업에서의 성공률은 2026년 5월 76%에 도달했으며, 이는 6개월 만에 50포인트 상승한 수치다.
코드 품질 역시 2026년 들어 인간이 작성한 코드와 동등한 수준에 도달했다고 평가한다. 자동화된 Claude 리뷰를 적용했다면 과거 프로덕션 버그의 약 3분의 1을 사전에 잡아낼 수 있었을 것이라고 한다.
구체적 사례로는 다음과 같은 것들이 제시된다.
- 학습 잡 수만 건을 크래시시키던 난해한 디버깅 플래그를 약 2시간 만에 격리(통상 인간 작업으로 2-3일 소요)
- Project Glasswing이 수 주 만에 1만 건 이상의 치명적 취약점을 발견하여 사이버보안의 병목을 탐지에서 패치 속도로 이동시킴
- 800건 이상의 수정으로 특정 API 오류 클래스를 1,000배 감소(인간 기준 4년치 작업 분량)
실험 수행 능력의 성장
작업 완수 가능 시간(task horizon)도 빠르게 늘어났다.
| 시점 | 수행 가능한 작업 길이 |
|---|---|
| 2024년 3월 | 약 4분 분량 작업 |
| 2025년 3월 | 약 1.5시간 분량 작업 |
| 2026년 3월 | 약 12시간 분량 작업 |
| 2027년 전망 | 1주일 분량 작업 |
벤치마크 포화 속도도 빨라지고 있다. 소프트웨어 엔지니어링 벤치마크인 SWE-bench는 2년 만에 한 자릿수에서 포화로, 연구 재현 벤치마크인 CORE-Bench는 2024년 20% 성공에서 15개월 만에 포화로 향했다.
연구 역량 측면에서 Claude는 잘 정의된 실험을 인간 대비 52배의 속도로 수행했고(숙련된 인간은 4배), 오픈엔드 AI 안전성 연구에서 성능 격차의 97%를 회복했다(인간은 1주일에 걸쳐 23%). 연구 방향 선택이 인간과 일치하는 비율도 2025년 11월 51%에서 2026년 4월 64%로 개선되었다.
재귀적 자기개선의 남은 간극
이러한 진보에도 불구하고 Claude가 인간에게 여전히 뒤지는 영역이 있다. 바로 연구의 안목과 판단력(research taste and judgment)이다.
어떤 문제가 중요한지, 어떤 결과를 신뢰할 수 있는지, 어떤 시도가 막다른 길인지를 판단하는 능력이 여기에 해당한다. 이 간극이 현재의 AI 보조와 진정한 재귀적 자기개선을 가르는 경계다.
글에 인용된 표현을 빌리면, 오늘날의 양상은 대략 “인간이 아이디어를 내고, 모델이 그것을 한 자릿수 이상 빠르게 구현·테스트·평가하는” 형태다. Edison의 “영감 대 노력(inspiration vs. perspiration)” 비유처럼, AI 발전의 대부분은 자동화 가능한 실험적 반복에서 나오며 돌파구적 순간 자체는 아니라는 관점이다.
또한 Amdahl의 법칙이 언급된다. 한 과정의 속도를 높이면 병목이 다른 곳으로 이동하며, 현재는 인간의 코드 리뷰가 개발 속도를 제약하는 병목이 되고 있다.
세 가지 미래 시나리오
Anthropic은 세 가지 가능한 미래를 제시하고, 그중 두 번째를 가장 가능성 높다고 평가한다.
| 시나리오 | 핵심 내용 |
|---|---|
| 추세 정체 | 현재 역량에서 동결. 공급망, 에너지, 아키텍처 한계로 병목 발생. 사회가 적응할 시간이 가장 많음 |
| 복합적 효율 향상 지속 | AI가 개발 실행을 자동화하고 인간은 방향 설정을 유지. 100명 규모 기업이 1만 명 조직의 일을 수행 |
| 완전한 재귀적 자기개선 | AI가 연구 안목과 판단력까지 획득. 진보가 전적으로 컴퓨트 가용성에 의해 결정되고 인간은 감독·검증 역할로 이동 |
두 번째 시나리오는 혁명적 생산성 향상과 함께 대규모 감시·조작 같은 새로운 위험을 동반한다. 세 번째 시나리오는 정렬(alignment), 경제, 인간 노동의 경쟁력에 대한 근본적 불확실성을 수반한다.
의미와 시사점
Anthropic은 거버넌스 인프라와 국제 협력의 필요성을 강조한다.
전 세계적으로 검증 가능하다는 전제하에 프런티어 개발의 자발적 감속·중단, 국제 조율 메커니즘, 정책 입안자·연구자·시민사회가 참여하는 숙의 절차, 신뢰할 수 있는 일시 중단을 위한 탐지·검증 인프라 연구 등을 제안한다.
다만 글은 딜레마도 인정한다. 개발을 효과적으로 늦춰 영향을 검토할 시간을 벌 수 있다면 좋겠지만, 감속은 가장 신중하지 않은 행위자에게 유리하게 작용할 위험이 있다는 것이다.
결론
기술적 추세는 AI 개발 역량의 복합적 가속을 가리키고 있다. 현재로서는 인간이 방향 설정에서 비교 우위를 유지하지만 그 격차는 좁혀지고 있다.
재귀적 자기개선은 여전히 불확실하지만 점점 더 그럴듯해지고 있으며, 역량이 인간의 감독 능력을 넘어서기 전에 거버넌스 인프라와 국제 협력을 갖춰야 한다는 시급성이 제기된다. 과학과 의료 분야의 막대한 기회와 통제 상실·오용의 위험이 동시에 즉각적인 숙의를 요구하고 있다.