에이전트 워크플로를 LLM 가중치로 컴파일하기: 100배 저렴한 지하 에이전트
목차
개요
LangGraph, CrewAI 같은 외부 오케스트레이션 프레임워크는 합쳐서 29만 개 이상의 GitHub 스타를 모았다. 이 시스템들은 사용자와 LLM 사이에 외부 오케스트레이터를 두고, 매 턴마다 지시문을 주입하고 출력을 파싱한다. 이 논문은 이런 방식 대신 절차적 지식을 모델 가중치에 직접 컴파일하는 접근, 곧 지하 에이전트(subterranean agents)가 품질·비용·유연성 모두에서 더 낫다고 주장한다.
저자들은 여행 예약, 기술 지원, 보험 청구 세 도메인에서 3B~8B 파라미터 모델로 실험했다. 컴파일된 모델은 프런티어 모델 품질의 87~98%에 도달하면서, 대화당 비용은 128~462배 저렴했다. 게다가 재컴파일은 30~50분이면 끝나, 재학습 사이클이 금지적으로 비싸다는 통념을 반박한다.
핵심 원리는 한 문장으로 요약된다. “지속적 구조는 가중치에, 일시적 상태는 프롬프트에 둔다.”
방법론
표면 오케스트레이션 vs 지하 접근
표면 오케스트레이션(전통적 방식)은 외부 오케스트레이터가 LLM 위에 앉아 매 턴 프롬프트를 주입하고 출력을 파싱한다. 지하 접근(제안 방식)은 오케스트레이터가 학습 데이터 생성에만 쓰이고, 런타임에는 절차가 파인튜닝을 통해 모델 가중치 안으로 컴파일된다. 즉 사용자는 오케스트레이션 없이 모델과 직접 대화한다.
이전 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)가 이 기법이 작동함을 이미 증명했지만 개발자 채택은 미미하다. 저자들은 채택을 막는 세 가지 인식된 장벽(품질, 비용, 유연성)을 체계적으로 평가한다.
컴파일 파이프라인
절차는 방향 그래프 F=(N,E,n₀,T)로 정의된다.
| 요소 | 의미 |
|---|---|
| N | 역할(에이전트/사용자)과 프롬프트 템플릿을 가진 노드 |
| E | 선택적 조건을 가진 엣지 |
| n₀ | 시작 노드 |
| T | 종료 노드 집합 |
파이프라인은 다음 순서로 진행된다. 플로차트의 모든 유효 경로를 순회해 합성 대화를 생성하고, 전체 파라미터 업데이트로 대화 데이터에 파인튜닝한 뒤, 오케스트레이션 없이 배포한다. 배포된 모델은 절차를 암묵적으로 스스로 오케스트레이션한다.
기술적 세부는 다음과 같다. 학습 데이터는 Claude Sonnet 4.5가 경로와 시나리오 변수에 따라 플로차트를 턴 단위로 순회하며 생성한다. 파인튜닝은 AdamW 8-bit, 학습률 2×10⁻⁵로 전체 파라미터를 업데이트한다. 추론 시에는 최소한의 시스템 프롬프트만 사용한다(예: “당신은 도움이 되는 여행 예약 도우미입니다”). 주목할 점은 저랭크(LoRA) 방식이 절차적 태스크에서 실패해 전체 파인튜닝이 필요했다는 것이다.
세 도메인의 복잡도는 다음과 같다.
| 도메인 | 노드 수 | 고유 경로 | 턴 길이 |
|---|---|---|---|
| 여행 예약 | 14 | 86 | 4~17 |
| Zoom 지원 | 14 | 60 | 가변 |
| 보험 청구 | 55 | 2,381 | 9~39 |
평가는 시나리오당 n=200으로 진행됐다. 사용자 시뮬레이션은 플로차트를 모르는 Claude Sonnet 4.5가 맡고, 심판은 Claude Sonnet 4.5(LLM-as-judge)에 GPT-4.1 복제로 견고성을 확인했다. 지표는 1~5 척도의 태스크 성공, 정보 정확도, 일관성, 우아한 처리, 자연스러움이며, Wilcoxon 부호 순위 검정과 Holm-Bonferroni 보정을 적용했다.
주요 결과
장벽 1 품질
여행 예약(3B 컴파일 모델)에서, 동일 모델 오케스트레이터 대비 다섯 지표 전부에서 우위를 보였다. 태스크 성공 +0.18, 일관성 +0.22, 우아한 처리 +0.20, 자연스러움 +0.17로 모두 통계적으로 유의했다(p<0.001).
규모가 커질수록 인컨텍스트 기준선과의 격차는 좁혀졌다.
| 도메인 | 우아한 처리 | 자연스러움 | 정보 정확도 |
|---|---|---|---|
| 여행 (3B) | 82% | 82% | 102% |
| Zoom (8B) | 92% | 97% | 87% |
| 보험 (8B) | 97% | 98% | 92% |
보험 청구(8B, 55 노드)에서는 인컨텍스트 품질의 92~98%를 달성했고, LangGraph 오케스트레이터 대비 우아한 처리 +0.42, 자연스러움 +0.34로 앞섰다(p<0.001).
실패율에서도 컴파일 모델이 강점을 보였다.
| 도메인 | 컴파일 | 오케스트레이터 |
|---|---|---|
| 여행 (3B) | 5.5% | 24.0% |
| Zoom (8B) | 11.0% | 9.0% |
| 보험 (8B) | 9.0% | 17.0% |
여행과 보험에서 결정 허브(decision hub)의 라우팅 오류를 제거해 실패율이 크게 낮았다. 벽시계 시간(wall-clock)도 복잡한 절차에서 유리했다. 보험 도메인에서 컴파일 모델은 43.2초로, LangGraph(120.8초)와 인컨텍스트(52.8초)보다 빨랐다. 자체 호스팅 추론이 매 턴의 API 지연을 제거했기 때문이다.
장벽 2 비용
비용 우위는 두 축에서 나온다. 첫째, 예약형 A100 80GB($2.50/시)에 vLLM으로 자체 호스팅하면 Claude Sonnet 4.5 API 대비 약 65배 토큰 비용이 절감된다. 둘째, 인컨텍스트 기준선은 절차 복잡도에 따라 토큰 오버헤드가 커지는 반면(여행 약 2배, 보험 약 7배), 컴파일 모델의 프롬프트는 복잡도와 무관하게 일정한 크기를 유지한다.
총 비용 비교는 다음과 같다.
| 도메인 | 인컨텍스트 | LangGraph | 지하 에이전트 | 비율 |
|---|---|---|---|---|
| 여행 (14 노드) | $0.133 | $0.077 | $0.0010 | 128배 |
| Zoom (14 노드) | $0.103 | $0.054 | $0.0003 | 296배 |
| 보험 (55 노드) | $0.327 | $0.174 | $0.0007 | 462배 |
일회성 셋업 비용은 총 $50~80(데이터 생성 $40 + 파인튜닝 $10~40)이며, 모든 도메인에서 500회 대화 이내에 인컨텍스트 기준선 대비 손익분기점에 도달한다.
장벽 3 유연성
프로덕션 하드웨어(8×H200)에서 전체 재컴파일 사이클은 30~50분이다. 데이터 생성 15~30분, 파인튜닝 10~15분, 평가 5분으로 구성된다. 단일 A100 80GB에서는 약 3~4시간이 걸리며 학습이 대부분을 차지한다. 즉 재컴파일은 금지적 재학습 작업이 아니라 CI/CD에 준하는 배포 사이클로 작동한다.
흥미롭게도 학습된 “인터뷰 스타일”이 자발적으로 나타났다. 전체 턴의 64%가 정확히 하나의 집중된 질문을 담아, 더 명확한 감사 추적(audit trail)과 사용자 인지 부하 감소로 이어졌다.
한계와 주의사항
논문이 충분히 다루지 못한 부분은 다음과 같다. 태스크 지향 대화를 벗어난 도메인으로의 일반화, 39턴을 넘는 장기 절차의 다중 턴 상태 추적, 광범위한 세계 지식이 필요한 엣지 케이스(정보 정확도가 병목으로 남음)가 그렇다. 또한 플로차트 구조와 도메인별 학습 데이터를 분리하는 절제(ablation) 연구, LoRA를 넘어선 다른 파라미터 효율 방식과의 비교도 부족하다.
견고성 검증에서 GPT-4.1 심판은 핵심 결론을 확인했다. 컴파일 모델은 오케스트레이터 품질의 85~113%를 달성하면서 인컨텍스트 대비 128~462배 저렴했다. 다만 GPT-4.1은 Claude Sonnet 4.5보다 자연스러움 점수를 더 압축하는 경향을 보였다.
결론
세 가지 인식된 장벽은 생각보다 작았다. 품질 격차는 프런티어 모델 대비 2~13%(인컨텍스트 기준선의 87~98%)에 그쳤고, 70배 용량 열세에도 대부분 지표에서 LangGraph 오케스트레이터와 경쟁력이 있었다. 비용 격차는 컴파일 모델에 유리하게 128~462배였고, 프롬프트 크기가 일정하므로 절차가 복잡할수록 격차가 커진다. 유연성 격차는 30~50분 재컴파일 사이클로, 금지적 재학습이 아닌 CI/CD 배포에 해당한다.
3B 컴파일 모델이 70배 용량 열세에도 동일 모델 오케스트레이터를 능가한 이유는 세 가지다. 가중치에 내재화된 전체 절차에 대한 총체적 추론, 결정 허브에서의 라우팅 실패 제거, 템플릿 주입을 피한 자유로운 대화 스타일이다. 저자들은 절차적 지식이 단일 대화 컨텍스트 윈도를 넘어 지속되어야 할 때 컴파일이 자연스러운 해법이 된다고 결론짓는다.