포스트

멀티 에이전트 오케스트레이션의 현실: $5,000 실험에서 배운 교훈

목차

  1. 개요
  2. 3대 구조적 병목
  3. 실험 결과
  4. 올바른 구조 설계
  5. 위임 판별 5가지 기준
  6. 성공 사례
  7. 결론
  8. Reference

개요

저자는 Gastown과 Paperclip 같은 멀티 에이전트 오케스트레이션 도구에 약 $5,000을 투자하여 직접 실험한 결과를 공유한다. 핵심 결론은 현재 단계에서 “완전 자동화된 에이전트 조직”은 작동하지 않으며, 특정 영역에만 제한적으로 적용 가능하다는 것이다. 토큰 비용이 단일 에이전트 대비 5~10배 증가하지만 생산성은 비례하지 않는 문제가 반복적으로 관찰되었다.

3대 구조적 병목

맥락 붕괴

전체 병목의 41.8%를 차지하는 가장 큰 문제이다. 에이전트들이 전체 목표를 잃어버리고 각자의 작업 설명만 보게 된다. “왜 이 일을 하는가”를 모르면 의도와 다른 방향으로 흘러간다. DeepMind/MIT 연구에 따르면 체계 없는 멀티에이전트는 오류가 최대 17.2배 증폭된다.

유령 위임

전체 병목의 36.9%를 차지한다. 에이전트 A가 작업을 완료했지만 다음 에이전트로 트리거가 전달되지 않거나, 리뷰 상태에서 무한 대기하는 상황이 발생한다. 사람은 “그거 어떻게 됐지?”라고 자연스럽게 팔로우업하지만, 에이전트는 이런 복구 로직이 불완전하다.

검증 오류

전체 병목의 21.3%를 차지한다. LLM은 “그럴듯한 응답”을 쉽게 완료로 처리한다. 해결책은 실행-검증-판정(Executor-Validator-Critic) 3단 구조이지만, 이 경우 토큰 비용이 추가로 배로 증가한다.

실험 결과

Gastown 시도

단일 에이전트 대비 토큰 소비가 최소 10배 증가했지만 생산성은 오히려 감소했다. 각 에이전트가 “현재 상황이 뭐지?”부터 파악해야 하면서 비용이 누적되었다. 맥락이 끊어지는 문제가 반복되었다.

Paperclip 운영

미디어 에이전시(9개 에이전트, 주간 콘텐츠 15편 목표)로 운영했다. 초기 1주일은 자동화 이득보다 문제 해결이 더 많았지만, 이후 유의미한 성과를 내기 시작했다. 다만 토큰 비용은 동일 아웃풋 대비 최소 5배 이상 소비되었다.

올바른 구조 설계

총괄-워커 패턴

에이전트 수가 아니라 오케스트레이터 설계가 핵심이다. DeepMind 연구에서 “에이전트 4개를 넘으면 조율 이득이 더 이상 늘지 않는” 현상이 확인되었다. 총괄 에이전트가 전체 목표를 끝까지 유지하면서 작업을 점진적으로 구체화하는 것이 다단계 위임보다 강건하다.

블랙보드 패턴

에이전트 간 직접 소통보다 공유 환경(이슈 트래커, Git, 메시지 큐)을 통한 간접 소통이 안정적이다. 개미가 페로몬을 통해 소통하는 것처럼, 에이전트도 직접 메시지를 주고받기보다 공유 상태를 읽고 쓰는 구조가 효과적이다.

위임 판별 5가지 기준

각 항목을 1점(에이전트 유리)~5점(인간 유리)으로 채점하여 위임 여부를 판단한다.

기준에이전트 적합 (1점)인간 적합 (5점)
오류 비용SEO 글 초안, 테스트 데이터고객 대면 소통, 법률 계약
검증 용이성테스트 통과, 빌드 성공브랜드 톤, UX 직관성
암묵지 의존도API 연동, 정형 보고서팀 문화, 정치적 판단
컨텍스트 범위단일 파일/모듈전체 아키텍처 결정
피드백 루프 길이초~분 단위주~월 단위

합산 점수별 권장 사항이다.

점수 범위권장 방식예시
5~10점에이전트 주도리서치, 코드 리뷰, 테스트 생성
11~18점하이브리드콘텐츠 개선, 프로토타입
19~25점인간 주도전략 수립, 관계자 관리

성공 사례

성공적인 멀티 에이전트 적용 사례도 존재한다.

Anthropic의 멀티에이전트 리서치 시스템은 리드 에이전트가 전략을 세우면 서브에이전트들이 독립적으로 다양한 측면을 동시 탐색한다. 결과적으로 90.2% 성능 향상과 리서치 시간 최대 90% 단축을 달성했다. 토큰은 15배 소모되지만 모두 실제 탐색에 사용되므로 효율적이다.

Spotify의 광고 미디어 플래닝은 기존 15~30분 걸리던 작업을 3~5초로 단축했다. 라우터 에이전트가 목표/예산/오디언스/스케줄 담당 에이전트들에게 병렬로 작업을 분배하고, 미디어 플래너가 결과를 통합하는 구조이다.

결론

“에이전트 여러 개를 띄워서 회사처럼 돌리면 된다”는 가정은 현재 작동하지 않는다. 자율주행 L5를 L2/L3 기술로 한번에 구현하려는 것과 같은 문제이다. 현실적 접근은 오류 비용이 낮고 검증이 쉬운 도메인부터 에이전트 위임을 시작하는 것이다. 5가지 기준으로 자기 팀의 업무를 채점하여 낮은 부분을 찾는 것이 지금 할 수 있는 현실적 한 걸음이다. “아직 타이밍이 되지 않았다”는 판단 자체도 중요한 엔지니어링 의사결정이다.

Reference