When AI builds itself: 재귀적 자기개선을 향한 Anthropic의 현주소

게시 2026/06/05 업데이트 2026/06/05

By Juho

11 분읽는 시간

개요

Anthropic은 “When AI builds itself”라는 글을 통해 AI 시스템이 점점 더 AI 개발 그 자체를 자동화하고 있다는 증거를 제시한다. 궁극적으로는 시스템이 자신의 후속 모델을 스스로 설계하는 재귀적 자기개선(recursive self-improvement)에 가까워지고 있다는 것이 핵심 주장이다.

여기서 재귀적 자기개선은 AI 시스템이 완전히 자율적으로 자신의 후속 모델을 설계하고 개발할 수 있는 상태를 의미한다. 아직 달성되지는 않았지만 실현 가능성에 점점 다가가고 있다고 본다.

AI 개발 자동화의 타임라인

Anthropic은 AI가 AI 개발에 관여하는 정도가 단계적으로 확대되어 왔다고 정리한다.

시기	AI의 역할
2021-2023	인간이 모든 개발 단계를 주도
2023-2025	초기 챗봇이 코드 스니펫을 보조
2025-2026	코딩 에이전트가 파일 전체를 작성하고 수정
현재	자율 에이전트가 수 시간 분량의 작업을 위임받아 처리
미래	시스템이 독립적으로 모델을 학습시킬 가능성

코드 생산의 가속

내부 데이터에 따르면 변화의 폭은 상당하다.

2026년 5월 기준 Anthropic의 머지된 프로덕션 코드의 80% 이상이 Claude에 의해 작성되었다. 엔지니어들은 2021-2025년 기준선 대비 분기당 8배 많은 코드를 출하하고 있다. 오픈엔드 코딩 작업에서의 성공률은 2026년 5월 76%에 도달했으며, 이는 6개월 만에 50포인트 상승한 수치다.

코드 품질 역시 2026년 들어 인간이 작성한 코드와 동등한 수준에 도달했다고 평가한다. 자동화된 Claude 리뷰를 적용했다면 과거 프로덕션 버그의 약 3분의 1을 사전에 잡아낼 수 있었을 것이라고 한다.

구체적 사례로는 다음과 같은 것들이 제시된다.

학습 잡 수만 건을 크래시시키던 난해한 디버깅 플래그를 약 2시간 만에 격리(통상 인간 작업으로 2-3일 소요)
Project Glasswing이 수 주 만에 1만 건 이상의 치명적 취약점을 발견하여 사이버보안의 병목을 탐지에서 패치 속도로 이동시킴
800건 이상의 수정으로 특정 API 오류 클래스를 1,000배 감소(인간 기준 4년치 작업 분량)

실험 수행 능력의 성장

작업 완수 가능 시간(task horizon)도 빠르게 늘어났다.

시점	수행 가능한 작업 길이
2024년 3월	약 4분 분량 작업
2025년 3월	약 1.5시간 분량 작업
2026년 3월	약 12시간 분량 작업
2027년 전망	1주일 분량 작업

벤치마크 포화 속도도 빨라지고 있다. 소프트웨어 엔지니어링 벤치마크인 SWE-bench는 2년 만에 한 자릿수에서 포화로, 연구 재현 벤치마크인 CORE-Bench는 2024년 20% 성공에서 15개월 만에 포화로 향했다.

연구 역량 측면에서 Claude는 잘 정의된 실험을 인간 대비 52배의 속도로 수행했고(숙련된 인간은 4배), 오픈엔드 AI 안전성 연구에서 성능 격차의 97%를 회복했다(인간은 1주일에 걸쳐 23%). 연구 방향 선택이 인간과 일치하는 비율도 2025년 11월 51%에서 2026년 4월 64%로 개선되었다.

재귀적 자기개선의 남은 간극

이러한 진보에도 불구하고 Claude가 인간에게 여전히 뒤지는 영역이 있다. 바로 연구의 안목과 판단력(research taste and judgment)이다.

어떤 문제가 중요한지, 어떤 결과를 신뢰할 수 있는지, 어떤 시도가 막다른 길인지를 판단하는 능력이 여기에 해당한다. 이 간극이 현재의 AI 보조와 진정한 재귀적 자기개선을 가르는 경계다.

글에 인용된 표현을 빌리면, 오늘날의 양상은 대략 “인간이 아이디어를 내고, 모델이 그것을 한 자릿수 이상 빠르게 구현·테스트·평가하는” 형태다. Edison의 “영감 대 노력(inspiration vs. perspiration)” 비유처럼, AI 발전의 대부분은 자동화 가능한 실험적 반복에서 나오며 돌파구적 순간 자체는 아니라는 관점이다.

또한 Amdahl의 법칙이 언급된다. 한 과정의 속도를 높이면 병목이 다른 곳으로 이동하며, 현재는 인간의 코드 리뷰가 개발 속도를 제약하는 병목이 되고 있다.

세 가지 미래 시나리오

Anthropic은 세 가지 가능한 미래를 제시하고, 그중 두 번째를 가장 가능성 높다고 평가한다.

시나리오	핵심 내용
추세 정체	현재 역량에서 동결. 공급망, 에너지, 아키텍처 한계로 병목 발생. 사회가 적응할 시간이 가장 많음
복합적 효율 향상 지속	AI가 개발 실행을 자동화하고 인간은 방향 설정을 유지. 100명 규모 기업이 1만 명 조직의 일을 수행
완전한 재귀적 자기개선	AI가 연구 안목과 판단력까지 획득. 진보가 전적으로 컴퓨트 가용성에 의해 결정되고 인간은 감독·검증 역할로 이동

두 번째 시나리오는 혁명적 생산성 향상과 함께 대규모 감시·조작 같은 새로운 위험을 동반한다. 세 번째 시나리오는 정렬(alignment), 경제, 인간 노동의 경쟁력에 대한 근본적 불확실성을 수반한다.

의미와 시사점

Anthropic은 거버넌스 인프라와 국제 협력의 필요성을 강조한다.

전 세계적으로 검증 가능하다는 전제하에 프런티어 개발의 자발적 감속·중단, 국제 조율 메커니즘, 정책 입안자·연구자·시민사회가 참여하는 숙의 절차, 신뢰할 수 있는 일시 중단을 위한 탐지·검증 인프라 연구 등을 제안한다.

다만 글은 딜레마도 인정한다. 개발을 효과적으로 늦춰 영향을 검토할 시간을 벌 수 있다면 좋겠지만, 감속은 가장 신중하지 않은 행위자에게 유리하게 작용할 위험이 있다는 것이다.

결론

기술적 추세는 AI 개발 역량의 복합적 가속을 가리키고 있다. 현재로서는 인간이 방향 설정에서 비교 우위를 유지하지만 그 격차는 좁혀지고 있다.

재귀적 자기개선은 여전히 불확실하지만 점점 더 그럴듯해지고 있으며, 역량이 인간의 감독 능력을 넘어서기 전에 거버넌스 인프라와 국제 협력을 갖춰야 한다는 시급성이 제기된다. 과학과 의료 분야의 막대한 기회와 통제 상실·오용의 위험이 동시에 즉각적인 숙의를 요구하고 있다.

Reference

When AI builds itself

AI Agent Evaluation Benchmark