Karpathy의 AutoResearch - AI 에이전트가 밤새 자율적으로 LLM 연구를 수행하는 프레임워크
목차
개요
Andrej Karpathy가 AutoResearch라는 프레임워크를 공개했습니다. 이 프레임워크는 AI 에이전트가 사람의 개입 없이 밤새 자율적으로 LLM 연구를 수행할 수 있도록 설계되었습니다. 에이전트가 학습 코드를 직접 수정하고, 5분짜리 실험을 반복 수행하며, 검증 지표를 기반으로 개선 여부를 판단하는 구조입니다. 시간당 약 12회, 하룻밤에 약 100회의 실험을 자동으로 수행할 수 있습니다.
환경 설정
필수 요구사항
AutoResearch를 실행하기 위한 환경 요구사항은 다음과 같습니다.
| 항목 | 요구사항 |
|---|---|
| Python | 3.10 이상 |
| 패키지 매니저 | uv |
| 딥러닝 프레임워크 | PyTorch |
| GPU | NVIDIA GPU 1개 (H100에서 테스트됨) |
| AI 에이전트 | Claude 또는 유사한 AI 에이전트 |
단일 GPU만 있으면 되며, 분산 학습 설정이 필요하지 않습니다. MacOS나 Windows용 커뮤니티 포크도 존재합니다.
설치 방법
먼저 uv 패키지 매니저를 설치합니다.
1
curl -LsSf https://astral.sh/uv/install.sh | sh
이후 의존성 동기화와 데이터 준비를 수행합니다.
1
2
uv sync
uv run prepare.py
기본 학습 코드를 실행하여 베이스라인을 확인할 수 있습니다.
1
uv run train.py
소규모 시스템에서 실행하려면 TinyStories 데이터셋을 사용하고, vocab_size, MAX_SEQ_LEN, DEPTH 값을 줄이는 방법이 있습니다.
구현
3개 파일 구조
AutoResearch는 의도적으로 단순한 3개 파일 구조로 설계되었습니다.
| 파일 | 역할 | 수정 주체 |
|---|---|---|
| prepare.py | 상수 정의, 데이터 다운로드, 토크나이저 학습, 유틸리티 | 수정하지 않음 |
| train.py | GPT 모델 전체, 옵티마이저 (Muon + AdamW), 학습 루프 | AI 에이전트가 수정 |
| program.md | 에이전트를 위한 베이스라인 지침 | 사람이 수정하여 연구 방향 안내 |
이 구조의 핵심은 에이전트가 오직 train.py 한 파일만 수정한다는 점입니다. 변경 범위를 제한함으로써 사람이 리뷰하기 용이한 상태를 유지합니다.
실험 워크플로우
AutoResearch의 실험 워크플로우는 다음과 같은 순환 구조로 동작합니다.
- AI 에이전트가 train.py를 수정합니다.
- 수정된 코드로 5분간 학습을 수행합니다.
- 검증 지표(val_bpb)를 확인합니다.
- 개선되었으면 변경사항을 유지하고, 그렇지 않으면 폐기합니다.
- 위 과정을 반복합니다.
모든 실행은 정확히 5분(벽시계 기준)으로 고정되어 있어, 실험 간 공정한 비교가 가능합니다.
핵심 설계 원칙
AutoResearch가 효과적으로 작동하는 이유는 몇 가지 핵심 설계 원칙에 있습니다.
| 원칙 | 설명 |
|---|---|
| 자율 실험 | AI 에이전트가 독립적으로 코드를 수정하고 모델을 학습 |
| 고정 시간 예산 | 모든 실행이 정확히 5분으로 제한되어 공정한 비교 가능 |
| 단일 파일 수정 범위 | train.py만 수정하여 변경사항의 리뷰 용이성 확보 |
| 일관된 비교 지표 | val_bpb를 기준으로 개선 여부 판단 |
| 자체 완결형 설정 | 분산 학습 없이 단일 GPU로 실행 가능 |
평가 지표
AutoResearch는 validation bits-per-byte(val_bpb)를 핵심 평가 지표로 사용합니다. 이 지표는 모델이 검증 데이터의 각 바이트를 예측하는 데 필요한 비트 수를 나타냅니다. val_bpb 값이 낮을수록 모델의 성능이 더 좋다는 것을 의미합니다.
실험을 시작하려면 Claude나 유사한 AI 에이전트에게 program.md를 가리키고 다음과 같은 프롬프트를 제공합니다.
1
have a look at program.md and let's kick off a new experiment!
에이전트는 program.md의 지침을 읽고, train.py를 수정하여 실험을 자율적으로 시작합니다.
주의사항
- NVIDIA GPU가 반드시 필요합니다. H100에서 테스트되었으며, 다른 GPU에서는 성능이나 시간이 달라질 수 있습니다.
- 5분이라는 고정 시간 예산은 벽시계 기준이므로 GPU 성능에 따라 학습량이 달라집니다.
- 에이전트가 train.py만 수정하도록 제한되어 있지만, 에이전트의 수정이 항상 안전하다고 보장할 수는 없으므로 결과에 대한 사람의 검증이 필수적입니다.
- 소규모 시스템에서 실행할 경우 TinyStories 데이터셋과 축소된 하이퍼파라미터를 사용해야 합니다.
- 라이선스는 MIT이므로 자유롭게 활용하고 수정할 수 있습니다.
결론
Karpathy의 AutoResearch는 AI 에이전트를 활용한 자율적 LLM 연구의 실용적인 프레임워크입니다. 단순한 3개 파일 구조, 고정 시간 예산, 단일 파일 수정 범위라는 제약을 통해 에이전트의 자율성과 사람의 통제 가능성을 동시에 확보했습니다. 하룻밤에 약 100회의 실험을 자동으로 수행할 수 있어, 연구 효율성을 크게 높일 수 있는 도구입니다. 이 프레임워크는 앞으로 AI 기반 연구 자동화의 방향성을 제시하는 의미 있는 사례가 될 것입니다.