Darwin Gödel Machine: 자기 개선 에이전트의 개방형 진화

게시 2026/06/15 업데이트 2026/06/21

By Juho

13 분읽는 시간

개요

Darwin Gödel Machine (DGM)은 Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune(UBC, Vector Institute, Sakana AI)가 제안한 자기 개선 AI 시스템이다. 이 논문은 AI 에이전트가 자신의 코드를 직접 반복적으로 수정하여 코딩 능력을 향상시키는 새로운 패러다임을 제시한다. 이론적인 괴델 기계(Gödel Machine)가 개선의 수학적 증명을 요구하는 것과 달리, DGM은 코딩 벤치마크에서의 실증적 검증으로 이를 대체한다. 생물 진화와 개방형 탐색 연구에서 영감을 받아, 시스템은 생성된 에이전트들의 아카이브를 유지하면서 다양한 진화 경로를 탐색한다. 실험 결과 SWE-bench에서 성능이 20.0%에서 50.0%로, Polyglot 벤치마크에서 14.2%에서 30.7%로 향상되었다.

방법론

시스템 아키텍처

DGM은 단일 코딩 에이전트로 초기화되며, Claude 3.5 Sonnet 또는 o3-mini 같은 동결된(frozen) 파운데이션 모델(FM)로 구동된다. 에이전트는 다음 구성 요소를 포함한다.

Bash 실행 및 파일 편집 도구
리포지토리 위치, 문제 설명, 테스트 프레임워크를 입력으로 수신
자신의 Python 코드베이스를 직접 수정하는 자기 수정(self-modification) 기능

시스템의 핵심 아이디어는 자기 개선 루프를 닫는 것이다. 즉, 하위 작업(downstream task)에서의 성능 향상이 자기 수정 능력 자체의 강화로 이어진다.

핵심 알고리즘 구성 요소

DGM 알고리즘은 네 가지 핵심 구성 요소로 이루어진다.

첫째, 부모 선택(Parent Selection): 선택 확률은 에이전트의 성능 점수와 코드베이스 편집 기능을 가진 자식 수에 대략 비례한다.

둘째, 자기 수정 프로세스: 선택된 부모가 벤치마크 평가 로그를 분석하고, 다음 구현할 기능을 제안하며, 제안 내용을 자신의 코드베이스에 반영한다. 수정된 새 에이전트는 컴파일 및 검증 과정을 거친다.

셋째, 아카이브 관리: 기본 코드베이스 편집 기능을 유지하며 성공적으로 컴파일된 모든 에이전트가 아카이브에 보존된다. 이는 가장 최근의 개선 사항만 보존하는 언덕 오르기(hill-climbing) 방식과 대조된다. 아카이브 기반 접근은 성능이 일시적으로 하락하더라도 미래의 돌파구를 열어줄 수 있는 탐색 경로를 유지한다.

넷째, 개방형 탐색(Open-Ended Exploration): 다양한 진화 경로를 동시에 유지함으로써 단일 목표에 과적합(overfitting)되는 것을 방지한다.

평가 전략

계산 비용을 고려하여 단계적 평가 전략을 채택한다.

단계	태스크 수	조건
Stage 1	10개	기본 기능 검증
Stage 2	50개	유망한 후보
Stage 3	200개	40% 이상 성공률 달성 시

실험 구성은 다음과 같다. DGM 반복 횟수는 총 80회이며, SWE-bench는 2개 병렬, Polyglot은 4개 병렬로 수행한다. 자기 수정 모델은 Claude 3.5 Sonnet (New)를 사용하고, SWE-bench 평가에는 Claude 3.5 Sonnet, Polyglot 평가에는 o3-mini를 사용한다. 실행 시간은 실행당 약 2주가 소요되며, 상당한 API 비용이 발생한다.

주요 결과

기준 성능 향상

DGM은 두 벤치마크 모두에서 초기 에이전트 대비 상당한 성능 향상을 달성하였다.

벤치마크	초기 성능	최종 성능	향상
SWE-bench	20.0%	50.0%	+30.0%p
Polyglot (50개 태스크)	14.0%	38.0%	+24.0%p
Polyglot (전체)	14.2%	30.7%	+16.5%p

SWE-bench에서의 최종 성능 50.0%는 수작업으로 설계된 오픈소스 에이전트와 비교 가능하거나 이를 능가하는 수준이다. Polyglot에서는 대표적인 커뮤니티 솔루션인 Aider를 크게 앞질렀다.

DGM이 자동으로 발견한 개선 사항에는 다음이 포함된다.

줄 기반, 문자열 교체 등 세분화된 파일 뷰·편집 방식
다중 시도(multi-attempt) 솔루션 전략
보조 언어 모델을 활용한 동료 검토(peer-review) 메커니즘
긴 컨텍스트 윈도우 관리 기법

자기 개선 및 개방형 탐색의 효과

자기 개선이 없는 DGM(DGM w/o self-improve)은 초기 반복에서는 에이전트를 개선하지만 성능 향상이 빠르게 정체된다. 반면, 아카이브 기반 개방형 탐색을 제거한 DGM(DGM w/o open-ended)은 선형 진화 방식이 되어 성능이 낮다. 4번째, 56번째 반복에서 성능이 일시적으로 하락하였으나, 이후 그 위에 쌓인 혁신들이 폭발적으로 증가하는 현상이 관찰되었다. 이는 아카이브 기반 접근이 단기적 손실을 감수하면서 장기적 탐색 가치를 확보함을 보여준다.

모델 간 일반화

DGM이 발견한 개선 사항이 학습에 사용된 FM이 아닌 다른 FM에서도 효과적인지 검증하였다.

SWE-bench(원래 Claude 3.5 Sonnet으로 최적화)에서 타 모델 적용 결과:

평가 모델	초기 성능	DGM 에이전트 성능
o3-mini	23.0%	33.0%
Claude 3.7 Sonnet	19.0%	59.5%

Polyglot(원래 o3-mini로 최적화)에서 타 모델 적용 결과:

평가 모델	초기 성능	DGM 에이전트 성능
Claude 3.5 Sonnet (New)	32.0%	33.3%
Claude 3.7 Sonnet	35.6%	36.8%

이 결과는 DGM이 발견한 개선 사항이 특정 FM에 과적합되지 않고, 다른 FM으로 일반화됨을 보여준다. Python 전용 학습 이후 비Python 언어에서의 성능도 유사한 수준을 유지하여, 발견된 개선 사항의 언어 간 전이 가능성도 확인되었다.

한계와 주의사항

논문은 다음 한계 사항을 명시하고 있다.

계산 비용: SWE-bench 단일 실행에 약 2주가 소요되고 상당한 API 비용이 발생한다. 현실적인 배포를 위해서는 실행 비용 절감이 필요하다.

파운데이션 모델 의존성: 시스템 능력은 기반 FM의 능력에 본질적으로 제한된다. FM이 추론하거나 구현할 수 없는 개선 사항은 자기 수정 과정에서도 발견할 수 없다.

벤치마크 중심 가정: DGM은 코딩 벤치마크가 자기 개선 능력을 충분히 반영한다는 가정에 의존한다. 벤치마크 점수를 목표로 하는 수정이 실제 배포 환경에 의도치 않은 취약점을 도입할 수 있다.

동결된 FM에 한정: 본 논문은 FM 재학습이 아닌 에이전트 설계 최적화에 초점을 맞춘다. FM 자체의 학습 스크립트를 재작성하는 완전한 자기 개선은 계산 집약적인 과제로 남아 있다.

클로즈드소스 성능 격차: DGM은 여전히 클로즈드소스 최신 SWE-bench 솔루션에 미치지 못한다. 이는 전문가 팀이 정교하게 수작업으로 설계한 기법들이 반영된 결과로 해석된다.

도메인 특화: 현재 구현은 코딩 도메인에 집중되어 있으며, 다른 AI 응용 도메인으로의 확장은 향후 과제이다.

논문은 안전성 측면도 다룬다. 에이전트 프로세스를 격리하는 샌드박스 실행 환경, 자원 고갈을 방지하는 엄격한 시간 제한, Python 코드베이스 내 정의된 범위로의 수정 제한, DGM 아카이브를 통한 수정 이력 추적이 안전 장치로 구현되어 있다. 실험에서 생성된 에이전트로부터 유해하거나 악의적인 행동의 증거는 발견되지 않았다.

결론

Darwin Gödel Machine은 AI 에이전트가 자신의 코드베이스를 직접 편집하여 성능을 재귀적으로 향상시킬 수 있음을 실증적으로 보여준다. 개방형 아카이브 기반 탐색은 단순한 언덕 오르기 방식이 빠지는 지역 최적점 함정을 피하는 데 효과적이다. SWE-bench에서 20.0%에서 50.0%로, Polyglot에서 14.2%에서 30.7%로의 성능 향상은 자기 개선 시스템이 실용적인 수준에서 작동할 수 있음을 입증한다. 발견된 개선 사항이 다른 FM으로 전이되는 결과는 에이전트 설계의 일반화 가능성을 보여준다. 계산 비용, FM 능력 한계, 벤치마크 중심 가정 등 현실적인 제약이 존재하지만, FM의 지속적인 발전과 함께 더 강력한 자기 개선 시스템을 위한 토대가 마련되고 있다.

Reference

Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents

AI Agent Benchmark