포스트

Trainee에서 Trainer로: LLM이 자신의 RL 훈련 환경을 설계하다

목차

  1. 개요
  2. 방법론
  3. 주요 결과
  4. 한계와 주의사항
  5. 결론
  6. Reference

개요

대규모 언어 모델(LLM)을 강화학습(RL)으로 훈련하는 파이프라인은 단계마다 훈련 환경을 수동으로 재설계하는 데 의존한다. 실무자는 어떤 환경 설정이 현재 정책(policy)을 가장 잘 개선할지 휴리스틱하게 추론해야 한다. 이 작업은 롤아웃 로그와 검증 실패를 반복적으로 들여다보고, 모델의 약점에 대한 가설을 세우고, 다음 단계 환경을 손으로 다시 설계하는 과정을 요구한다. RL 파이프라인이 복잡해질수록 이 수작업은 점점 더 어려워진다.

논문 “From Trainee to Trainer”는 이 과정을 자동화하기 위해 LLM-as-Environment-Engineer 프레임워크를 제안한다. 현재 정책 모델이 실패 궤적(failure trajectory)과 문맥 정보를 분석하고, 다음 단계 훈련 환경 설정에 대한 수정안을 스스로 제안하는 폐루프(closed-loop) 구조다. 모델은 개별 훈련 예제를 직접 합성하거나 선택하지 않는다. 대신 환경 생성기(environment generator)의 파라미터를 수정하여, 다음 RL 단계에서 샘플링될 분포 자체를 재설계한다.

이를 연구하기 위해 저자들은 MAPF-FrozenLake라는 제어 가능한 테스트베드를 함께 도입한다. Qwen3-4B를 백본으로 쓴 이 프레임워크는 GPT, Gemini 같은 더 큰 상용 LLM과 고정 환경 훈련 베이스라인을 모두 능가하는 최고 종합 성능을 달성한다. 흥미롭게도 현재 RL 체크포인트가 원본 베이스 모델보다 더 나은 환경 엔지니어로 작동했다. 이는 정책 학습이 모델 자신의 남은 약점을 진단하는 능력을 향상시킨다는 점을 시사한다.

GitHub 페이지프로젝트 웹사이트에서 코드와 자료를 확인할 수 있다.

방법론

핵심 질문은 다음과 같다. 정책 모델 스스로가 미래 RL 훈련 분포를 정의하는 환경 생성기를 능동적으로 재설계할 수 있는가. 각 훈련 라운드 이후 모델은 현재 상태를 검토하고, 다음 훈련 환경이 어떻게 바뀌어야 하는지 결정하며, 그 결과 데이터를 다음 RL 단계에 사용한다. 중심 과제는 이 자기 설계 설정을 유용하게 만들기 위해 모델에게 어떤 문맥(context)이 필요한가이다.

MAPF-FrozenLake 테스트베드

MAPF-FrozenLake는 FrozenLake의 다중 에이전트 경로 탐색(Multi-Agent Path Finding) 버전이다. 각 인스턴스는 구멍(hole)이 있는 격자에 여러 에이전트를 배치한다. 에이전트는 충돌 없이, 그리고 구멍에 빠지지 않고 자신의 목표 지점에 도달해야 한다. 충돌을 해결하기 위해 wait 액션을 사용할 수 있다.

환경 생성기는 Conflict-Based Search 알고리즘 위에 구축된다. 생성기 설정은 각 맵 크기마다 세 가지 요소를 지정한다. data ratio는 해당 크기에서 샘플링되는 훈련 인스턴스의 비율이며 전체 합이 1이 된다. hole ratio는 해당 크기 맵에서 구멍으로 바뀌는 셀의 비율이다. wait ratio는 에이전트 충돌 해결을 위해 최소 한 번의 wait 액션이 필요한 인스턴스의 비율이다.

맵 크기 집합은 3x3부터 10x10까지 8가지다. 콜드 스타트를 모사하기 위해 초기 훈련 데이터는 무작위로 샘플링한 설정에서 생성한다. 평가는 다차원적이며 경로 유효성, 최적성, 전체 궤적 길이를 다룬다. 이런 특성 덕분에 MAPF-FrozenLake는 환경 재설계가 다운스트림 RL 학습 동역학에 어떤 영향을 주는지 분석하기에 적합하다.

강화학습 보상 설계

전체 보상은 정확도(accuracy) 항과 길이(length) 항을 적응적 가중치로 결합한다. 정확도 보상에서 응답은 여덟 가지 엄격한 유효성 검사를 모두 통과해야 한다. 하나라도 실패하면 정확도 보상은 0이 된다.

여덟 가지 검사는 다음과 같다.

검사 항목내용
Parsable응답에서 경로를 추출할 수 있다
Legal-move각 스텝의 맨해튼 거리가 1 이하다
Conflict-free정점 또는 간선 충돌이 없다
Goal-reached모든 에이전트가 목표에 도달한다
Start-correct모든 에이전트가 시작점에서 출발한다
Agent-count파싱된 에이전트 수가 문제와 일치한다
Hole-free어떤 경로도 구멍을 통과하지 않는다
In-bounds어떤 경로도 격자를 벗어나지 않는다

여덟 검사를 모두 통과하면 정확도 보상은 정답과의 비용 격차(cost gap)로 결정된다. 비용 격차가 0이면 보상은 1.0이며, 격차가 정답 비용의 2배인 포화 임계값까지 커지는 동안 보상은 1.0에서 0.3으로 선형 감소한다. 임계값을 넘으면 0.3에서 포화한다. 정답 비용을 파싱할 수 없을 때는 0.5로 폴백한다.

길이 보상은 장황한 출력을 억제한다. 응답 길이가 1500 토큰 이하면 보상은 0이며, 1500에서 4096 토큰 사이에서 0부터 -1까지 선형으로 감소한다. 4096 토큰을 넘으면 -1에서 포화한다. 두 가중치는 모델이 간결한 출력을 학습함에 따라 강조점을 간결성에서 정확성으로 옮기도록 스케줄링된다. 짧은 응답 비율의 EMA가 0.5 미만이면 가중치는 (0.5, 0.5)이고, 0.5에서 0.9 구간에서 (0.8, 0.2)로 보간되며, 0.9 이상이면 (0.8, 0.2)로 유지된다.

환경 엔지니어링 프레임워크

정적 커리큘럼 설계와 달리, 이 프레임워크는 학습자가 자신의 약점 변화에 따라 미래 훈련 환경의 분포를 수정하는 폐 피드백 루프를 형성한다. 각 라운드는 train, eval, design 세 단계로 구성된다. design 단계에서 사용되는 모델은 현재 학습자 체크포인트다. 체크포인트는 최신 검증 결과를 읽고 다음 설정을 제안하며, 생성기가 해당 훈련 데이터를 만든다.

저자들은 환경 엔지니어가 사용할 수 있는 다섯 가지 문맥 모듈을 연구한다.

모듈역할
Failure breakdown (F)최신 검증 결과로 유효율, 최적율, 맵 크기별 실패 유형 카운트를 보고
Guideline (G)특정 라운드와 무관한 태스크 수준 설계 휴리스틱 제공
History (H)이전 실패-설정 쌍의 짧은 기록 제공
Summary (S)현재 설정 선택에 대한 모델 생성 설명을 이후 라운드로 전달
Training details (T)보상 설계와 적응적 가중치 스케줄 등 사용된 RL 목적 기술

문맥 변형은 V1부터 V6까지 6가지로 점진적으로 구성된다. V1에서 V3은 failure breakdown 위에 모듈을 점진적으로 추가한다. V4는 V3과 달리 라운드-0 기본 설정을 history에서 제거하여, 모델이 무작위 기본값을 권장 베이스라인으로 취급하지 않게 한다. V5와 V6은 V4 위에 각각 모델 생성 summary와 training details 모듈을 추가한다. 설정별 결과에 따라 최종 프레임워크로 V6을 채택한다.

훈련 루프는 알고리즘으로 정리된다. 각 라운드에서 현재 설정으로 데이터를 생성하고, GRPO로 정책을 업데이트하고, 검증하고, 문맥을 구성한 뒤, 모델이 다음 설정을 제안하고, 제약 조건을 강제하는 Project 단계를 거친다. 이 과정이 정해진 라운드 수만큼 반복된다.

주요 결과

메인 벤치마크 성능

평가 벤치마크는 일반화를 측정하기 위해 3, 4, 5 에이전트 인스턴스로 구성된다. 훈련 데이터는 전부 2 에이전트 인스턴스이며, 평가에서 더 많은 에이전트로의 일반화를 시험한다. 지표는 유효율(valid rate)과 최적율(optimal rate)이다.

다음은 3 에이전트 평가 세트의 종합 결과다.

모델유효율 합계최적율 합계
GPT-5.432.5020.58
Grok-4.233.4221.00
Gemini-3.1-Pro24.5015.33
Kimi-K2.546.1729.25
Qwen3-4B (base)14.8314.00
Qwen3-4B + GRPO (random)40.4226.08
Qwen3-4B + GRPO + Ours51.6731.67

다음은 4 에이전트와 5 에이전트 평가 세트의 종합 유효율과 최적율이다.

모델4ag 유효율4ag 최적율5ag 유효율5ag 최적율
GPT-5.417.0510.869.116.00
Grok-4.223.4315.3312.898.78
Gemini-3.1-Pro12.9510.104.783.56
Kimi-K2.526.9517.9013.478.78
Qwen3-4B (base)3.433.051.441.22
Qwen3-4B + GRPO (random)26.6716.1015.119.11
Qwen3-4B + GRPO + Ours33.1421.3318.6711.00

세 에이전트 수 모두에서 Qwen3-4B + GRPO + Ours가 두 지표에서 가장 높은 종합 점수를 달성한다. 각 에이전트 수에서 가장 강한 상용 베이스라인인 Kimi-K2.5와 비교하면, 유효율은 5.20에서 6.19포인트, 최적율은 2.22에서 3.43포인트 향상된다. 같은 백본과 훈련 절차를 쓰지만 고정 설정을 사용하는 Qwen3-4B + GRPO (random)와 비교하면, 유효율은 3.56에서 11.25포인트, 최적율은 1.89에서 5.59포인트 추가된다. 이는 훈련 루프가 모델의 전체 역량을 높이는 동시에, 단순히 유효한 계획이 아니라 최적 계획을 더 자주 산출하도록 환경을 형성함을 보여준다.

행동 분석

저자들은 세 훈련 라운드에 걸친 환경 엔지니어의 추론 궤적을 분석하여 다섯 가지 행동 차원으로 묶는다.

신호 현저성(signal salience)에서 모델은 각 모듈 안에서 국소적으로 가장 확실한 단서에 끌린다. 가장 유익한 단서가 아니라 가장 두드러진 표면 단서가 결정을 주도한다. 그래서 저자들은 라운드-0 기본값과 자기 요약을 제거하고, 지배적 단서가 태스크에 기반한 모듈만 허용한다.

편집 세분성(edit granularity)에서 V1과 V2는 라운드 사이에 거의 모든 셀을 다시 쓴다. 반면 V3와 V6은 대부분의 크기를 건드리지 않고 failure breakdown이 가리키는 크기만 편집한다. 전체 재작성은 이미 건강한 크기를 종종 악화시킨다. 좋은 문맥은 모델에게 이미 잘 작동하는 것을 수정하지 않을 자신감을 주어야 한다.

특징 기반 템플릿 대 학습 신호 기반 결정에서, V1, V2, V5는 hole ratio와 wait ratio를 맵 크기에 단조적으로 유지한다. 즉 큰 맵일수록 높은 hole ratio라는 템플릿을 따른다. 반면 V6은 7x7에서 9x9 구간에서 정체하고 10x10에서는 두 변수 모두 다시 낮춘다. 가장 큰 맵이 더 이상 유용한 학습 신호를 내지 못한다는 failure breakdown을 반영한 결과다.

라운드 간 자기 교정(cross-round self-correction)에서 V4 R2와 V6 R2는 원시 failure breakdown으로부터 직접 설정을 편집한다. 반면 V5 R2는 자신의 R1 자기 요약이 breakdown을 덮어쓰게 하여 기존 단조 템플릿만 미세 조정한다. 자기 교정은 모델 자신의 이전 서술과 독립적인 증거를 요구한다. 문맥은 사실에 대한 해석이 아니라 사실 자체를 최대한 제공해야 한다.

태스크 기반 모델링(task-grounded modeling)에서 오직 V6만 가장 어려운 맵인 10x10의 비중을 낮추고, 역량 경계 바로 아래에 예산을 집중한다. 다음 라운드에서는 경계를 7x7로 안쪽으로 이동시킨다. 이 행동은 training details 모듈에 의존한다. 환경 엔지니어는 보상 함수나 평가 세트가 아니라 생성기 설정만 바꿀 수 있으므로, 이는 보상 해킹이 아닌 훈련 인식 환경 설계를 반영한다.

Ablation 연구

첫 번째 ablation은 어떤 종류의 training details가 중요한지 검증한다. 두 설정 모두 현재 라운드 인덱스, 라운드당 에폭, 전체 에폭을 포함한다. 전체 설정만 GRPO 알고리즘, 적응적 가중치 보상, 핵심 하이퍼파라미터를 추가로 포함한다.

설정3ag 유효율3ag 최적율4ag 유효율5ag 유효율
Full RL details38.8326.5024.7614.22
Bookkeeping only (Ours)51.6731.6733.1418.67

bookkeeping만 쓴 설정이 모든 에이전트 수에서 두 지표 모두 전체 설정을 능가한다. 모델은 주로 훈련 루프에서 자신이 어디에 있는지만 알면 되며, 상세한 RL 파라미터는 현재 실패 증거로부터 모델의 주의를 분산시킨다. training details는 단계 인식을 제공할 때 유용하며, 최적화 세부사항으로 문맥을 과부하시킬 때는 그렇지 않다.

두 번째 ablation은 누가 환경 엔지니어 역할을 하는지 비교한다.

엔지니어3ag 유효율3ag 최적율4ag 유효율5ag 유효율
Untrained base45.2130.0027.6216.00
Current checkpoint (Ours)51.6731.6733.1418.67

다른 모든 구성 요소를 고정한 상태에서, 현재 체크포인트가 모든 벤치마크에서 베이스 모델을 능가한다. R1에서 베이스 엔지니어는 큰 맵을 포기하고 예산 전부를 작은 맵에 쏟는다. R2에서 큰 맵이 다시 추가되어도 각 크기에 예산의 9%만 배정한다. 반면 현재 체크포인트는 두 라운드 내내 여덟 크기 전반에 걸쳐 경계 인식 배분을 유지한다. 저자들은 이를 자기 인식 학습의 한 형태로 해석한다. 정책 학습이 모델의 자기 약점 진단 능력을 날카롭게 하여, 훈련된 체크포인트가 다음 단계 데이터를 그 격차에 더 정밀하게 겨냥할 수 있게 한다.

훈련 세부사항으로는 Qwen3-4B 위에서 GRPO로 훈련하며, GRPO 업데이트마다 128개 프롬프트 배치를 사용하고 프롬프트당 8개 궤적을 vLLM으로 샘플링한다. 4x H100 80GB GPU에서 AdamW로 학습률 2e-6을 일정하게 유지하고, 저분산 KL 페널티를 액터 손실에 직접 적용한다. 각 라운드는 4000 샘플에 대해 3 에폭을 수행하며 총 3 라운드를 진행한다.

한계와 주의사항

저자들은 몇 가지 한계를 명시한다. 첫째, MAPF-FrozenLake는 훈련 분포에 대한 세밀한 제어를 제공하지만 단일하고 자족적인 태스크 패밀리를 나타낸다. 환경 엔지니어가 학습한 재설계 전략이 질적으로 다른 실패 모드나 평가 신호를 가진 도메인으로 직접 전이되지 않을 수 있다.

둘째, 실험은 특정 RL 훈련 파이프라인에 초점을 둔다. 환경 재설계와 온라인 모방 학습이나 보상 없는 탐색 같은 다른 훈련 패러다임 사이의 상호작용은 탐구되지 않았다.

셋째, 현재 프레임워크는 환경 엔지니어를 고정된 생성기 아키텍처로 제한한다. 새로운 환경 메커니즘을 도입하는 것처럼 생성기 자체의 구조적 수정을 허용하도록 접근법을 확장하는 일은 추가적인 과제를 제기하며 이 논문에서는 다루지 않는다.

결론

이 논문은 LLM이 환경 엔지니어로 작동하여 자신의 RL 학습을 위한 훈련 설정을 능동적으로 재설계하는 폐루프 프레임워크를 도입했다. 제어 가능한 테스트베드 MAPF-FrozenLake를 개발하고, 4B 정책 모델이 구조화된 피드백의 안내를 받아 더 큰 상용 LLM을 일관되게 능가하는 환경 설정을 반복적으로 제안할 수 있음을 보였다. 메커니즘 분석은 RL 훈련이 모델의 자기 약점 진단 능력을 향상시키며, 성공적인 재설계가 단순한 난이도 극대화가 아니라 증거 기반 적응에 달려 있음을 드러낸다. 이 발견은 정책 조건부 환경 엔지니어링을 통한 자기 개선 학습 시스템 연구의 토대를 놓는다.

Reference