Autodata: 합성 데이터를 스스로 만드는 에이전트 데이터 사이언티스트
목차
개요
대규모 언어 모델(LLM) 개발은 고품질의 사람이 작성한 데이터가 병목이 되는 단계에 도달했다. 초기 모델은 공개 인터넷 크롤링 데이터로 주로 학습했지만, 최신 시스템은 추론·지시 따르기·도메인 전문성을 높이기 위해 모델이 스스로 생성한 합성 데이터에 점점 더 의존한다. 그러나 단순히 데이터를 더 많이 생성하는 것만으로는 부족하다. 모델이 효과적으로 학습하려면 훈련 예제가 정확한 난이도 수준에 있어야 한다. 즉, 학습 신호를 줄 만큼 어렵되, 개선의 경로를 제시할 만큼 풀 수 있어야 한다.
Autodata는 데이터 생성 과정 자체를 자율적인 에이전트 과제로 다루는 프레임워크를 제안한다. 정적 프롬프트로 한 번에 수천 개의 예제를 생성하는 대신, Autodata는 “에이전트 데이터 사이언티스트”를 활용한다. 이 에이전트는 데이터를 생성하고, 대상 모델의 성능을 분석하며, 생성 전략을 정제하는 반복 워크플로를 따른다. 그 결과 CS 연구 과제에서 최대 13.2%, 법률 추론 과제에서 최대 17.0%의 성능 향상을 달성했으며, 수학 문제에서는 추론 효율성을 개선했다.
방법론
Autodata는 내부 루프(inner loop)와 외부 루프(outer loop)로 구성된 계층적 구조로 정적 합성 데이터의 한계를 해결한다. 내부 루프는 개별 데이터 포인트의 생산에 집중하는 “Agentic Self-Instruct” 과정이다. 외부 루프는 에이전트가 따르는 지시와 전략 자체를 정제하는 “메타 최적화(meta-optimization)” 과정이다.
정적 합성 데이터의 한계와 골디락스 문제
Self-Instruct 같은 전통적 합성 데이터 생성 방법은 대개 few-shot 프롬프팅에 의존한다. 모델에 과제 예시 몇 개를 주고 더 많은 예제를 생성하도록 요청하는 방식이다. 기본적인 지시 튜닝에는 효과적이지만, 복잡한 추론 과제에 적용할 때는 큰 어려움에 부딪힌다.
가장 큰 문제는 “골디락스(Goldilocks)” 문제다. 생성된 데이터가 대상 모델에게 너무 쉽거나 너무 어려운 경우가 많다는 것이다. 과제가 너무 쉬우면 모델이 이미 답을 알고 있어 학습에 새로운 정보를 주지 못한다. 과제가 너무 어려우면, 예를 들어 수학 문제 집합에서 모델의 정확도가 0에 가까우면 학습을 위한 “기울기(gradient)”가 존재하지 않는다. 강화 학습(RL) 맥락에서 모델이 탐색 중 정답에 한 번도 도달하지 못하면, 더 나은 추론 경로를 강화할 보상 신호를 받을 수 없다. 기존 접근법은 이러한 난이도를 실시간으로 감지하고 생성 과정을 조정하는 메커니즘이 부족한 경우가 많았다.
Inner Loop: Agentic Self-Instruct
내부 루프의 핵심은 여러 전문화된 서브에이전트 간의 상호작용이다. 단일 프롬프트 대신, 시스템은 팀 기반 접근을 사용한다.
| 서브에이전트 | 역할 |
|---|---|
| Challenger | 문제(예: 연구 논문 기반 질문)와 참조 답안, 평가 루브릭을 생성한다 |
| Weak Solver | 개선 대상이 되는 목표 모델을 나타내며, 이 모델이 현재 어려워하는 과제를 찾는 것이 목표다 |
| Strong Solver | 더 유능한 모델(주로 훨씬 큰 버전 또는 더 많은 컴퓨트·스캐폴딩을 가진 모델)로, 정답 또는 고품질 추론 흔적을 제공하는 “교사” 역할을 한다 |
| Judge/Verifier | 두 솔버의 출력을 분석하여 생성된 과제가 유용한지 판정한다 |
과제가 성능 격차(gap)를 보이면 “고품질”로 간주된다. 약한 솔버의 점수를 W, 강한 솔버의 점수를 S라 할 때, 에이전트는 격차 gap = S - W를 최대화하는 방향을 추구한다. 큰 격차는 “교사”는 이해하지만 “학생”은 이해하지 못하는 과제를 의미하며, 이는 훈련에 이상적인 후보가 된다.
Outer Loop: 메타 최적화
이 연구의 가장 독창적인 기여 중 하나는 데이터 사이언티스트 에이전트 자체를 메타 최적화한다는 점이다. 에이전트 시스템조차도 자신이 따르는 지시(또는 “스캐폴드”)만큼만 우수하다. 전통적으로 이러한 지시는 사람 엔지니어가 수작업으로 튜닝한다. Autodata는 이를 진화적 외부 루프로 자동화한다.
메타 최적화기는 에이전트의 프롬프트를 코드로 취급하며, 구조화된 과정을 따른다.
| 단계 | 설명 |
|---|---|
| Selection | 에이전트 프롬프트의 한 버전을 선택한다 |
| Analysis | 논문 집합에 에이전트를 실행하고 왜 좋은 데이터를 만들지 못하는지 관찰한다(예: 질문이 문맥에서 답을 누설함) |
| Mutation | 고수준 “Analyzer” 에이전트가 실패를 진단하고, “Coder” 에이전트가 이를 방지하도록 프롬프트를 수정한다 |
| Validation | 새 프롬프트를 held-out 집합에서 테스트하여 더 나은 데이터(원하는 S, W 임계값에 대한 더 높은 통과율)를 만들면 유지한다 |
이 과정을 통해 시스템은 정교한 데이터 과학 전략을 자동으로 발견했다. 예를 들어 Judge가 지나치게 관대해지는 것을 막기 위해 “positive-only” 루브릭과 특정 가중치 상한 기법을 사용하는 법을 학습했다.
주요 결과
Autodata의 효능은 각기 다른 도전 과제를 제시하는 세 개의 도메인에서 검증되었다.
CS 연구 과제
CS 연구 도메인의 목표는 과학 논문을 기반으로 개방형 질문을 생성하는 것이었다. 표준 CoT Self-Instruct를 사용한 초기 시도는 제목이나 기본 정의를 묻는 등 너무 단순한 질문을 만드는 경우가 많았다. 반면 Autodata 에이전트는 질문을 반복적으로 정제했다. Judge가 약한 솔버(W)가 이미 질문에 정답을 맞혔다고 판단하면, Challenger에게 질문을 더 “인과적(causal)”이거나 “논지 중심적(thesis-oriented)”으로 만들도록 지시했다.
평균적으로 에이전트는 항목을 수용하기까지 6.59 라운드의 정제가 필요했다. 이 과정은 판별 격차를 성공적으로 넓혔다.
| 구분 | Weak Solver (W) | Strong Solver (S) | Gap |
|---|---|---|---|
| 정제 전 | 0.677 | 0.696 | 0.019 |
| 정제 후 | 0.458 | 0.772 | 0.314 |
정제 전에는 격차가 0.019에 불과해 두 모델이 거의 동일하게 수행했다. 에이전트 루프 이후 격차는 0.314로 증가했으며, 약한 솔버 점수는 0.458로 떨어지고 강한 솔버 점수는 0.772로 상승했다.
법률 추론
법률 도메인은 반대의 문제를 제시했다. 초기 합성 과제가 종종 너무 어려웠다. 과제가 압도적으로 어려우면 약한 솔버 점수가 0에 가까워지고 성능의 분산이 낮아진다. 분산이 없으면 강화 학습 알고리즘은 “약간 더 나은” 시도와 “약간 더 나쁜” 시도를 구별할 수 없다.
Autodata 에이전트는 난이도를 “재조정(reshaping)”하여 이를 해결했다. 약한 솔버가 어느 정도 성공의 조짐을 보일 때까지 과제를 조정하여 평균 점수를 0.159에서 0.283으로 높였다. 더 중요한 것은 이 점수들의 표준편차를 7.93에서 12.63으로 증가시켰다는 점이다. 이렇게 증가한 분산은 이후 RL 훈련 중 모델이 학습하는 데 필요한 신호를 제공했다.
과학·수학 추론
수학 추론에서의 도전 과제는 깊은 다단계 논리를 요구하는 문제를 생성하는 것이었다. 연구진은 Agentic Self-Instruct 데이터로 훈련한 모델이 정확도에서 개선을 보였음을 확인했다.
| 훈련 데이터 | 정확도 향상 |
|---|---|
| Agentic Self-Instruct | +3.20% |
| 표준 합성 데이터 | +2.42% |
| 결합 데이터 | +2.70% |
흥미롭게도 이 “어려운” 에이전트 생성 문제로 훈련하면 “쉬운” 문제에서의 성능도 향상되었다. 쉬운 문제에서 베이스라인의 +1.86%에 비해 +3.05%의 향상을 보였다. 이는 에이전트 데이터가 모델이 더 견고하고 일반화 가능한 추론 능력을 구축하도록 도왔음을 시사한다.
메타 최적화 효과
외부 루프의 메타 최적화는 데이터 생성 통과율을 실질적으로 끌어올렸다. 126회의 반복(iterations)을 거쳐 에이전트의 데이터 생성 통과율이 62.1%에서 79.6%로 향상되었다. 종합적으로 Autodata는 CS 과제에서 최대 13.2%, 법률 과제에서 최대 17.0%의 성능 향상을 달성했다.
한계와 주의사항
Autodata의 접근은 추론 시점 계산(inference-time computation)을 활용해 에이전트 루프를 구동한다. 이는 정적 생성 대비 더 많은 계산 비용을 데이터 생성 단계에 투입하는 방식이다. 또한 시스템의 품질은 Strong Solver와 Verifier의 신뢰성에 의존한다. Strong Solver와 Verifier를 통해 합성 데이터가 근거에 기반하고 정확하도록 보장함으로써, 모델이 잘못된 훈련 신호를 “환각(hallucinate)”할 위험을 완화한다. 바꿔 말하면, 이러한 검증 구성요소가 부실할 경우 데이터 품질 보장이 약해질 수 있다는 점을 시사한다.
결론
Autodata는 “훈련을 위한 컴퓨트 스케일링”에서 “데이터 품질을 위한 컴퓨트 스케일링”으로의 전환을 대표한다. 추론 시점 계산을 사용해 에이전트 루프를 구동함으로써, 훨씬 크고 노이즈가 많은 데이터셋을 능가하는 소량의 극도로 고품질인 데이터를 생산할 수 있다.
이 연구의 의의는 세 가지로 요약된다. 첫째, 효율성이다. 작은 모델이 현재 능력에 맞게 최적화된 데이터로 훈련함으로써, 이전에는 훨씬 큰 시스템에서만 가능했던 성능 수준에 도달할 수 있다. 둘째, 자율성이다. 사람이 개입하는 데이터 큐레이션의 필요를 줄여, AI 시스템이 스스로 생성한 도전을 통해 자신의 약점을 식별하고 수정하도록 한다. 셋째, 검증 가능성이다. Strong Solver와 Verifier를 통합하여 합성 데이터가 근거에 기반하고 정확하게 유지되도록 보장한다.
결론적으로 Autodata는 깊은 직관을 요하는 순수한 인간의 영역으로 여겨졌던 데이터 사이언티스트의 역할이 에이전트적·반복적 과정으로 효과적으로 모델링될 수 있음을 보여준다. 이 프레임워크는 오늘의 모델을 사용해 내일의 모델을 위한 커리큘럼을 체계적이고 자율적으로 구축하는 확장 가능한 경로를 제시한다.