포스트

LLM 에이전트가 직접 학습 데이터를 만든다: 자율 에이전트 데이터 엔지니어링

목차

  1. 개요
  2. 방법론
  3. 주요 결과
  4. 한계와 주의사항
  5. 결론
  6. Reference

개요

이 논문은 “LLM 에이전트가 사람의 개입 없이 처음부터 끝까지 학습 데이터 파이프라인을 스스로 수행할 수 있는가”라는 질문을 다룬다. 저자들은 이를 자율 에이전트 데이터 엔지니어링(Autonomous Agentic Data Engineering)이라는 태스크로 정식화한다. LLM이 데이터 전략 수립부터 합성, 반복 최적화까지 직접 관리하고, 그 성과는 사후 학습(post-training) 성능 향상으로 측정한다.

핵심 아이디어는 교사(teacher) 모델과 학생(student) 모델을 모두 고정해 데이터 엔지니어링 능력 자체만 분리해 측정하는 것이다. 평가 지표는 단순하다. 에이전트가 만든 데이터로 학생 모델을 파인튜닝한 뒤 성능이 얼마나 올랐는지를 본다.

Science, Code, Finance 세 도메인에서 실험한 결과, GPT-5.2는 반복 최적화를 통해 평균 57.29%의 상대 성능 향상을 달성했다. 즉 사람이 설계한 워크플로 없이도 LLM 에이전트가 효과적인 학습 커리큘럼을 스스로 구성할 수 있음을 보였다.

방법론

문제 정의

이 태스크는 닫힌 루프(closed-loop) 최적화 문제로 정의된다.

에이전트 A는 교사 모델 M_T를 호출해 후보 데이터셋을 합성하는 데이터 큐레이션 프로그램 P_A를 설계한다.

1
D̂ = P_A(T; M_T)

학생 모델 M_S는 이 데이터로 지도 파인튜닝되어 피드백 신호 f를 생성한다.

1
f = E(Spec(M_S, D̂))

에이전트의 목적은 사후 학습 성능을 최대화하는 것이다.

1
P_A* = argmax E(Spec(M_S, P_A(T; M_T)))

두 모델을 고정함으로써 순수하게 데이터 엔지니어링 능력만 격리해 측정할 수 있다.

태스크 프로토콜

입력은 태스크 설명, 데이터셋 개요, 선택적 시드 풀(seed pool), 공개 테스트셋, 고정된 교사 API 예산(태스크당 50,000회 호출), 표준 학생 모델(LLaMA-3.1-8B-Instruct)로 구성된다. 출력은 에이전트 코드로 전부 생성된 학습 데이터(submission.json)다. 평가는 학생 모델을 제출 데이터로 파인튜닝한 뒤 비공개 테스트셋의 정확도로 측정한다.

성능 향상은 다음과 같이 계산한다.

1
Gain(%) = [Score(M_S*) - Score(M_S)] / Score(M_S) × 100

실행 환경은 50,000회 API 호출, 데이터 합성당 3시간 실행 제한, 실행당 12시간 타임아웃을 강제한다.

세 도메인의 데이터 구성은 다음과 같다.

도메인데이터셋특징
ScienceSciBench + SciInstruct대학 수준 물리·화학·수학, 숫자 정답 필터링
CodeLiveCodeBench TOP + TACO알고리즘 이해, 테스트 출력 예측
FinanceFinanceReasoning분리된 계층 분할로 시드·평가 구성

모든 시드는 정답이 없는 원본 질문 1,000개로 구성되며, 공개·비공개 테스트 분할은 1:3 비율에 무중복을 엄격히 강제한다.

에이전트 프레임워크

저자들은 두 가지 에이전트 구조를 비교한다.

원샷 에이전트(One-Shot Agent)는 단일 패스로 최종 제출물을 생성한다. 최대 8회 독립 시도를 허용하고 유효한 제출이 나오면 종료한다.

반복 에이전트(Iterative Agent)는 네 가지 핵심 연산으로 닫힌 루프 개선을 수행한다.

연산역할
Draft합성 전략 수립 및 실행 코드 구현
Debug코드 실행 오류 분석 및 수정
Repair검증 실패 시 전략 수정 또는 데이터 후처리
Improve최고 공개 점수 해를 그리디 선택해 전략 진화

Debug와 Repair는 연속 3회로 제한되며, 전체 과정은 최대 30회 반복으로 합성 전략·프롬프트 설계·데이터 분포를 동시에 최적화한다.

주요 결과

실험에 사용된 후보 에이전트 모델은 GPT-5.2, Qwen3-Max, DeepSeek-R1, DeepSeek-V3.1, Gemini-2.5-Pro, Claude-4-Sonnet이다. 교사 모델은 vLLM으로 배포된 Qwen3-30B-A3B, 학생 모델은 2×H100에서 학습된 LLaMA-3.1-8B-Instruct다.

기준선 성능은 Science(SciBench) 16.74%, Code(LCB-TOP) 21.18%, Finance(FinanceReasoning) 39.93%였다.

원샷 vs 반복 최적화

반복 에이전트가 원샷 방식을 일관되게 능가했다. 다음은 시드 없이(From Scratch) 측정한 평균 상대 성능 향상이다.

모델원샷반복
GPT-5.240.73%57.29%
Qwen3-Max33.24%44.08%
DeepSeek-R115.32%25.16%
DeepSeek-V3.112.50%36.76%
Gemini-2.5-Pro22.99%31.03%
Claude-4-Sonnet21.05%40.44%

세 가지 관찰이 두드러진다. 첫째, 반복 능력이 추가되면 GPT-5.2는 40.73%에서 57.29%로 향상됐다. 둘째, 시드 데이터를 도입하면 깨지기 쉬운 원샷 시나리오에서 대부분의 모델이 30% 이상 추가 상대 향상을 얻었다. 셋째, 약한 모델일수록 정교한 에이전트 프레임워크의 혜택을 크게 받았다. DeepSeek-V3.1은 12.50%에서 반복 최적화와 시드 데이터를 더해 57.65%까지 급등했다.

시드를 함께 사용한 경우 Claude-4-Sonnet은 73.26%, DeepSeek-R1은 54.59%, GPT-5.2는 56.01%의 향상을 보였다. 반복 분석에서는 공개·비공개·최종 점수가 변동 속에서도 상승 추세를 보였고, 실질적 향상은 보통 8~15회 반복 내에 나타난 뒤 정체됐다.

데이터 품질 분석에서는 흥미로운 통찰이 나왔다. LLM은 사람 수준의 지시문 난이도는 맞췄지만 다양성에서는 사람 개입 파이프라인에 미치지 못했다. 반복은 개별 인스턴스의 품질 향상보다는 데이터 다양성 확장을 통해 성능을 끌어올렸다.

사람과의 비교

자율 에이전트 파이프라인을 사람이 만든 데이터와 직접 비교한 결과는 다음과 같다.

방식소스파이프라인향상
Human (SciInstruct)SciInstruct사람 큐레이션84.95%
DataFlow없음사람 설계65.82%
Iterative (seed)SciInstructGPT-5.293.19%
Iterative (scratch)없음GPT-5.276.76%

시드를 사용한 자율 에이전트는 93.19% 향상으로 사람 큐레이션 기준선(84.95%)과 사람 설계 DataFlow(65.82%)를 모두 능가했다.

실패 모드 분석

저자들은 실패를 데이터 제출 실패와 모델 특화 실패로 나눠 분석한다.

데이터 제출 실패에서 가장 지배적인 원인은 유효 샘플 부족이었다. 에이전트가 수량 인식 없이 데이터를 공격적으로 필터링하고, 버려진 샘플을 동적으로 보충하지 못했다. Science(LaTeX)와 Code(실행 가능 로직)의 형식 제약은 대량 거부를 유발했다. Claude-4-Sonnet은 지나치게 복잡한 파이프라인 탓에 출력 잘림(truncation) 비율이 Code 52.63%, Finance 59.31%로 높았다.

모델 특화 실패에서는 Science 태스크에서 하드코딩된 할당 로직이 데이터를 5개의 좁은 주제로 집중시켜 파국적 망각(catastrophic forgetting)을 일으켰다. Code 태스크에서는 단순 정규식 증강이 지시문과 실행 로직의 의미적 연결을 깨뜨려 잡음을 주입했다.

한계와 주의사항

논문이 밝힌 한계는 다음과 같다. 첫째, 규칙 기반 결정론적 평가가 가능한 QA 태스크로 범위가 제한되어 개방형 생성 태스크에는 적용이 어렵다. 둘째, 반복 에이전트는 고정 예산에도 불구하고 추론과 파인튜닝 사이클에 상당한 연산 자원을 요구한다. 셋째, 복잡한 종단 간 태스크의 결합은 실행 간 변동성을 피하기 어렵게 만든다.

핵심 격차는 제출 실패가 수량 제어와 형식 처리에 집중되었다는 점이다. 이는 LLM이 엄격한 품질 보증과 신뢰할 만한 수량 제어를 위한 사후 생성 안전장치를 갖추지 못했음을 드러낸다.

결론

이 논문은 자율 에이전트 데이터 엔지니어링을 현대 LLM의 측정 가능한 능력으로 정립했다. 가장 제약이 강한 원샷·시드 없음 시나리오에서도 GPT-5.2는 약 40%의 양의 향상을 보였고, 반복 최적화를 더하면 57.29%까지 끌어올렸다. 에이전트는 모델에 부족한 지도 신호를 추론하고, 태스크에 정렬된 인스턴스를 합성하며, 일반화 가능한 학습셋을 큐레이션할 수 있다.

다만 수량 보증과 형식 처리 실패라는 병목은 실전 배포의 근본적 제약으로 남는다. 저자들은 사후 생성 품질 보증 메커니즘 개선과 결정론적 QA를 넘어선 태스크로의 확장을 향후 과제로 제시한다.

Reference