포스트

Anthropic 하네스 설계 - 장기 실행 앱 개발을 위한 멀티 에이전트 아키텍처

목차

  1. 개요
  2. 배경
  3. 핵심 내용
  4. 의미와 시사점
  5. 결론
  6. Reference

개요

Anthropic 연구원 Prithvi Rajasekaran이 복잡한 소프트웨어 개발을 위한 멀티 에이전트 AI 시스템을 문서화했다. 이 연구는 GAN(Generative Adversarial Networks)에서 영감을 받아 생성(Generation)과 평가(Evaluation)를 분리하는 접근법을 사용했다. 이를 통해 장기 실행 애플리케이션 개발에서 상당한 품질 개선을 달성했다.

배경

핵심 문제: 컨텍스트 열화와 자기 평가 편향

AI 에이전트를 활용한 장기 실행 소프트웨어 개발에는 두 가지 근본적인 문제가 존재한다.

첫 번째는 컨텍스트 열화(Context Degradation) 문제다. 모델은 컨텍스트 윈도우가 채워질수록 일관성을 잃어간다. 일부 모델은 “컨텍스트 불안(Context Anxiety)” 현상을 보이는데, 이는 작업을 조기에 마무리하려는 경향이다. 연구 결과, 컨텍스트를 압축(Compaction)하는 것보다 리셋(Reset)하는 것이 더 효과적인 것으로 나타났다.

두 번째는 자기 평가 편향(Self-Evaluation Bias) 문제다. 에이전트는 자신이 생성한 결과물을 일관되게 과대 평가하는 경향이 있다. 생성과 평가를 분리하는 것이 이 문제를 해결하는 데 더 다루기 쉬운 접근법으로 입증되었다.

핵심 내용

프론트엔드 디자인 접근법: 생성자-평가자 루프

Anthropic은 프론트엔드 디자인 품질 향상을 위해 생성자-평가자(Generator-Evaluator) 루프를 도입했다. 이 루프는 4가지 채점 기준을 사용한다.

채점 기준설명
디자인 품질전반적인 디자인의 완성도
독창성기존 템플릿에서 벗어난 창의적 표현
장인 정신(Craft)세부적인 마감 품질
기능성실제 동작 여부 및 사용성

평가자(Evaluator)에게는 Playwright 접근 권한이 부여되어 라이브 인터랙션 테스트가 가능했다. 각 생성 사이클에서 5~15회의 반복이 이루어졌으며, 반복이 진행될수록 점점 더 독특한 결과물이 만들어졌다. 흥미로운 발견은 “museum quality”와 같은 표현 선택이 명시적 점수 기준을 넘어 미적 방향성에까지 영향을 미쳤다는 점이다.

3-에이전트 풀스택 아키텍처

본격적인 풀스택 애플리케이션 개발을 위해 Anthropic은 세 개의 에이전트로 구성된 아키텍처를 설계했다.

에이전트역할세부 사항
Planner기획자1~4문장의 프롬프트를 포괄적인 제품 사양으로 변환하고, AI 기능 통합 기회를 식별
Generator구현자React, Vite, FastAPI, SQLite/PostgreSQL을 사용하여 기능을 반복적으로 구현하며, QA에 넘기기 전 자체 평가를 수행하고 git 버전 관리를 활용
Evaluator평가자Playwright를 사용하여 최종 사용자처럼 테스트하고, 성공 기준을 정의하는 “스프린트 계약(Sprint Contracts)”을 협상

세 에이전트 간의 통신은 직접 대화가 아닌 구조화된 파일을 통해 이루어진다. 이 방식은 에이전트 간 정보 전달의 일관성을 보장하고, 컨텍스트 윈도우 소모를 최소화하는 데 기여한다.

비교 실험 결과: 레트로 게임 메이커

레트로 게임 메이커(Retro Game Maker)를 대상으로 단일 에이전트와 3-에이전트 하네스의 성능을 비교했다.

항목단일 에이전트3-에이전트 하네스
소요 시간20분6시간
비용$9$200
결과물 품질비기능적 게임, 엔티티 배선 고장정상 작동하는 게임 메카닉, AI 통합, 세련된 UI

단일 에이전트는 20분 만에 $9의 비용으로 결과를 냈지만, 엔티티 배선이 고장 난 비기능적 게임을 만들었다. 반면 3-에이전트 하네스는 6시간에 $200의 비용이 들었지만, 적절한 게임 메카닉과 AI 통합, 그리고 세련된 UI를 갖춘 완성도 높은 결과물을 생산했다.

모델 진화와 Opus 4.6

Opus 4.6 모델의 등장으로 하네스 구조에 큰 변화가 생겼다. 스프린트 분해(Sprint Decomposition)가 완전히 제거되었다. 평가자의 역할이 빌드 종료 시 단 한 번의 패스로 축소되었다. 또한 적절한 에이전트 구성을 위한 프롬프팅이 추가되었다. 이는 모델 능력이 향상됨에 따라 하네스 복잡성이 감소해야 한다는 핵심 인사이트를 뒷받침한다.

디지털 오디오 워크스테이션(DAW) 결과

Opus 4.6을 활용한 간소화된 하네스로 디지털 오디오 워크스테이션을 개발한 결과는 다음과 같다.

항목수치
총 소요 시간3시간 50분
총 비용$124.70
Planner 단계4.7분 ($0.46)

이 간소화된 하네스는 작동하는 타임라인, 믹서, 트랜스포트 컨트롤을 구현했다. 자연어를 통한 에이전트 기반 작곡 기능도 포함되었다. 평가자는 미구현된 오디오 녹음 기능, 누락된 이펙트 시각화 등 핵심적인 갭을 포착하여 품질 향상에 기여했다.

의미와 시사점

핵심 인사이트

이번 연구에서 도출된 핵심 인사이트는 다음과 같다.

인사이트설명
하네스 복잡성과 모델 능력의 반비례모델 능력이 향상될수록 하네스 복잡성은 줄여야 한다
기준 언어의 영향력채점 기준의 언어 선택이 점수를 넘어 결과물의 방향성을 형성한다
평가자 튜닝의 용이성생성자를 자기 비판적으로 만드는 것보다 평가자를 조정하는 것이 훨씬 다루기 쉽다
구조화된 핸드오프에이전트 간 구조화된 파일 기반 전달이 일관성을 보장한다
관심사 분리의 효과생성과 평가를 분리하면 피드백 루프가 가능해진다

남아 있는 과제

멀티 에이전트 하네스가 큰 성과를 보였지만, 여전히 해결해야 할 과제들이 남아 있다.

첫째, 주관적 제품 직관(Product Intuition)의 부재다. 에이전트는 기술적으로 올바른 결과물을 만들 수 있지만, 사용자 경험에 대한 직관적 판단은 여전히 부족하다.

둘째, 레이아웃과 인터랙션에서 직관적이지 않은 요소들이 발생한다. 기능적으로는 동작하지만 사용자 관점에서 자연스럽지 않은 UI 요소가 포함될 수 있다.

셋째, 깊이 중첩된 기능에서 발견되지 않는 버그가 존재한다. 평가자가 포착하지 못하는 엣지 케이스가 복잡한 기능 구조에서 잠재적으로 남아 있다.

넷째, 음악 작곡 품질의 한계다. 모델은 오디오를 직접 들을 수 없기 때문에, 음악적 품질 판단에 근본적인 제약이 있다.

결론

Anthropic의 장기 실행 앱 개발 하네스 연구는 멀티 에이전트 AI 시스템의 실질적인 가능성과 한계를 모두 보여준다. GAN에서 영감을 받은 생성-평가 분리 전략은 단일 에이전트의 자기 평가 편향 문제를 효과적으로 해결했다. 3-에이전트 아키텍처(Planner-Generator-Evaluator)는 구조화된 파일 기반 통신과 스프린트 계약을 통해 복잡한 애플리케이션 개발을 가능하게 했다. 특히 Opus 4.6의 등장으로 하네스 복잡성이 크게 줄어든 것은, 모델 능력 향상에 따라 시스템 설계도 진화해야 함을 시사한다. 비용과 시간 측면에서는 단일 에이전트보다 훨씬 많은 자원이 필요하지만, 실제 동작하는 완성도 높은 결과물을 얻을 수 있다는 점에서 의미 있는 트레이드오프다. 향후 모델 능력이 계속 발전함에 따라, 하네스 설계는 더욱 간소화되면서도 더 높은 품질의 결과물을 만들어낼 것으로 기대된다.

Reference