자가진화 LLM 에이전트의 능력 붕괴: 경험 내재화를 다시 생각하다
목차
개요
자가진화(self-evolving) LLM 에이전트는 자신이 풀어낸 경험을 학습에 다시 반영해 스스로 성능을 끌어올리는 것을 목표로 한다. 그런데 에이전트가 자신의 경험을 반복 학습하면 오히려 성능이 악화되는 현상이 관찰된다.
이 글은 “Rethinking Continual Experience Internalization for Self-Evolving LLM Agents” 논문(arXiv:2606.04703, 2026년 6월)을 정리한 Pebblous 블로그 글을 기반으로 한다. 논문은 자가진화 과정에서 발생하는 점진적 능력 붕괴(progressive capability collapse)를 분석하고, 그 원인을 세 가지 함정으로 나누어 처방을 제시한다.
핵심 발견: 점진적 능력 붕괴
자가진화 에이전트가 자신의 경험을 반복해서 학습할 때, 회차가 늘어날수록 성능이 떨어지는 현상이 나타난다. 기존 on-policy 방법을 적용하면 정확도가 1회차 23.2%에서 3회차 8.5%로 급락한다.
이 현상은 WebWalkerQA, GAIA, BrowseComp-ZH 세 벤치마크에서 일관되게 관찰된다. 즉 특정 데이터셋의 우연이 아니라 자가진화 루프 자체에 내재한 구조적 문제라는 것이다.
세 가지 함정과 처방
논문은 능력 붕괴의 원인을 세 가지 질문으로 분해한다. 무엇을 경험으로 남기는가, 언제 그 경험을 꺼내 쓰는가, 누구의 풀이를 기준으로 학습하는가이다.
경험 입도: 무엇을 남기는가
첫째 함정은 경험을 어떤 입도(granularity)로 저장하느냐이다. 경험은 인스턴스 수준과 원칙 수준으로 나뉜다.
인스턴스 수준은 특정 상황의 세부사항을 그대로 보존하는 방식이다. 예를 들어 “이 질문에서는 이 URL을 열고 저 숫자를 입력한다” 같은 형태다.
원칙 수준은 상황을 가로질러 재사용 가능한 전략과 규칙으로 추상화한 방식이다. 예를 들어 “여러 출처가 엇갈릴 때는 최신 자료를 우선한다” 같은 형태다.
실험에서 원칙 수준 항목의 84%가 다음 문제에 그대로 옮겨 쓸 수 있는 전략적 진술이었다. 반면 인스턴스 수준은 다음 문제에 거의 무용지물이었다.
경험 유형별 재사용성
| 경험 유형 | 설명 | 재사용성 |
|---|---|---|
| 인스턴스 수준 | 특정 상황의 세부사항을 그대로 보존 | 3.7% |
| 원칙 수준 | 재사용 가능한 전략과 규칙으로 추상화 | 84.0% |
주입 패턴: 언제 꺼내 쓰는가
둘째 함정은 저장한 경험을 언제 주입하느냐이다. 주입 방식은 전역 주입과 단계별 주입으로 나뉜다.
전역 주입(global)은 고정된 경험 묶음을 문제 풀이 전체에 한꺼번에 적용한다. 이 방식은 조기 종료율이 63.82%에 달하고 성능이 하락세를 이어간다.
단계별 주입(step-wise)은 선택기가 현재 중간 상태를 읽고 그 순간에 맞는 경험만 골라 공급한다. 이 방식은 조기 종료율이 0%였고, WebWalkerQA에서 8.0%p, GAIA에서 5.9%p 성능이 올랐다.
주입 방식별 효과
| 방식 | 메커니즘 | 조기 종료율 | 성능 효과 |
|---|---|---|---|
| 전역 주입 | 고정된 경험 묶음을 풀이 전체에 일괄 적용 | 63.82% | 하락세 지속 |
| 단계별 주입 | 현재 상태에 맞는 경험만 선별 공급 | 0% | WebWalkerQA 8.0%p, GAIA 5.9%p 상승 |
학습 방식: 누구의 길을 따르는가
셋째 함정은 어떤 풀이 궤적을 기준으로 학습하느냐이다. 문맥 증류(context distillation)는 on-policy와 off-policy 두 방식으로 나뉜다.
on-policy는 학생의 풀이 위에 교사가 교정을 얹는 방식이다. 이 방식은 잘못된 발자국 위에 국소 수정을 쌓기 때문에 오류가 복합화되고, 평균 추론 턴이 21.9턴까지 늘어난다.
off-policy는 교사의 완성된 풀이를 거부 샘플링(rejection sampling)으로 필터링해 전달하는 방식이다. 검증된 성공 사례만 학습하므로 평균 추론 턴이 4.5턴으로 짧고, 교사 대비 5배 팽창을 회피한다.
학습 방식별 비교
| 방식 | 접근법 | 평균 추론 턴 | 특징 |
|---|---|---|---|
| on-policy | 학생 풀이 위에 교사 교정을 얹음 | 21.9턴 | 잘못된 궤적 위 국소 수정, 오류 복합화 |
| off-policy | 교사의 완성 풀이를 거부 샘플링으로 필터링 | 4.5턴 | 검증된 성공 사례만 학습 |
통합 레시피와 성능 개선
세 가지 처방을 결합하면 붕괴 곡선이 향상 곡선으로 바뀐다. 통합 레시피는 다음 세 요소로 구성된다.
첫째, 경험 정제 단계에서 경험을 원칙 수준으로 추상화하여 저장한다. 둘째, 경험 공급 단계에서 의사결정 단계마다 맥락에 맞게 선별 주입한다. 셋째, 학습 기준으로 교사가 생성한 성공 궤적에서 off-policy로 증류한다.
이 레시피를 적용한 반복 학습 곡선은 1회차에서 WebWalkerQA 30.6%, GAIA 29.8%였고, 3회차에서 WebWalkerQA 33.1%, GAIA 33.3%로 올랐다. 같은 반복 횟수에서 전역 주입과 자기생성 경험에 의존한 대조군은 8.5%까지 추락했다.
정량 핵심 수치
| 지표 | 수치 | 의미 |
|---|---|---|
| 원칙 대 인스턴스 재사용성 | 84.0% 대 3.7% | 추상화 수준의 결정적 중요성 |
| 전역 대 단계별 조기 종료 | 63.82% 대 0% | 주입 타이밍 조정의 효과 |
| on-policy 대 off-policy 추론 턴 | 21.9턴 대 4.5턴 | 교정과 시범의 효율 격차 |
| 최종 성능 변화 | 30.6%에서 33.1% | 붕괴 회피와 지속적 향상 달성 |
자율 학습의 보편적 문제
논문은 능력 붕괴를 자율 학습 전반의 보편적 문제와 연결한다. 관련 현상으로 모델 붕괴와 보상 해킹이 있다.
모델 붕괴는 자기 출력만으로 학습할 때 환각이 증폭되는 현상이다. 보상 해킹은 검증 신호 없이 보상만 좇는 에이전트가 진짜 목표 대신 허점을 탐색하는 현상이다.
공통 교훈은 자율 학습 루프에 무엇이 좋은 경험인지 가려주는 외부 기준이 반드시 필요하다는 것이다. 세 함정을 데이터의 언어로 다시 보면, 경험 입도는 어떤 데이터를 일반화 가능한 형태로 정제할지의 문제이고, 주입 타이밍은 맥락에 맞는 데이터를 제때 공급할지의 문제이며, off-policy 교사는 검증된 고품질 데이터를 학습 기준으로 삼을지의 문제다.
결론
자가진화 에이전트의 능력 붕괴는 자가진화 루프 자체에 내재한 구조적 문제다. 경험을 원칙 수준으로 추상화하고, 단계별로 선별 주입하며, 검증된 교사 궤적을 off-policy로 증류하면 붕괴 곡선을 향상 곡선으로 전환할 수 있다.
논문의 중심 결론은 자기학습의 닻이 자기 자신이 아니라 무엇을 좋은 경험으로 남길지 가려주는 외부 품질 기준이라는 것이다. 가장 자율적으로 보이는 에이전트 학습조차 결국 데이터 큐레이션의 문제로 귀결된다.