Sakana Fugu: 프론티어 LLM을 지휘하는 학습된 오케스트레이터

게시 2026/06/24 업데이트 2026/06/24

By Juho

26 분읽는 시간

개요

Sakana AI가 2026년 6월 22일 Sakana Fugu를 공개했다. Fugu는 여러 프론티어 LLM을 하나의 모델처럼 묶어 지휘하는 오케스트레이터 모델 제품군이다.

핵심 아이디어는 단순하다. 서로 다른 공급자의 프론티어 모델은 각자 다른 영역에 특화되어 있다. GPT 계열은 수학과 물리에, Opus 계열은 소프트웨어 엔지니어링과 사이버보안에, Gemini 계열은 과학 지식 회상에 강하다. 이런 상호 보완적인 강점을 하나의 집단 지능 시스템으로 결합하면 어떤 단일 모델보다 높은 성능에 도달할 수 있다는 것이다.

Fugu 자체가 언어 모델이며, 사용자 질의를 이해하고 이를 풀기 위한 에이전트 스캐폴드(agentic scaffold)를 동적으로 설계하도록 학습되어 있다. 사용자는 단일 모델을 호출하듯 Fugu를 호출하지만, 내부적으로 시스템은 여러 전문 에이전트에 작업을 라우팅하고, 위임하고, 조율한다. Sakana AI는 이를 더 크고 비싼 모델을 만드는 것과 별개의 새로운 확장 축(scaling axis)으로 본다.

공개된 모델은 두 가지다.

모델	설계 목표	동작 방식
Fugu	성능과 지연시간의 균형	입력마다 워커 모델 1개를 선택해 직접 프론티어 호출에 가까운 지연시간 유지
Fugu-Ultra	어려운 문제에서 최대 답변 품질	입력마다 여러 에이전트로 워크플로우를 구성해 추가 지연시간을 감수

이 두 모델은 ICLR 2026에 발표된 두 편의 연구, Trinity와 Conductor를 기반으로 한다. Fugu는 Trinity를, Fugu-Ultra는 Conductor를 생산 환경에 맞게 확장한 것이다.

방법론

Sakana Fugu는 프론티어 LLM 워커 풀 위에 에이전트 스캐폴드를 구성하는 학습된 오케스트레이터다. 주어진 질의에 대해 어떤 워커를 투입할지, 어떤 지시나 역할을 부여할지, 중간 출력을 어떻게 결합하거나 검증할지, 언제 최종 답을 합성할지를 결정한다.

이는 모델 머징(model merging)의 거시적 유사물로 볼 수 있다. 가중치를 평균 내거나 레이어를 잇는 대신, 프론티어 모델을 블랙박스 에이전트로 다루며 행동 수준(behavioral level)에서 능력을 결합한다. 파라미터 접근이나 아키텍처 호환성이 필요 없으므로, 폐쇄형 프론티어 모델이나 이질적인 공급자도 풀에 포함할 수 있다.

Fugu: 성능과 지연시간의 균형

Fugu는 지연시간을 의식한 변형으로, 응답 시간이 중요한 대화형·일상 작업을 겨냥한다. Trinity를 기반으로 하되, 빠르고 신뢰할 수 있는 라우팅 결정을 내려야 하는 생산 환경에 맞게 조정했다.

핵심 설계는 경량 선택 헤드(lightweight selection head)다. 사전학습된 언어 모델을 백본으로 쓰고, 백본의 마지막 은닉층 뒤에 가벼운 예측 헤드를 붙인다. 워커 풀이 L개 모델로 구성될 때, 은닉 상태로부터 L개의 로짓을 출력해 어떤 워커를 선택할지 점수를 매긴다. Trinity와 달리 Fugu는 역할을 부여하지 않고 선택된 모델을 항상 워커로 디스패치한다. 역할 할당을 없애면 조율 공간이 모델 선택만으로 좁아져 오케스트레이션 지연이 줄어든다.

중요한 점은 Fugu가 생성 텍스트가 아니라 오케스트레이터의 로짓을 사용한다는 것이다. 프롬프트 작성과 작업 실행은 선택된 워커에게 위임되므로, 오케스트레이터는 워커 선택 결정만 내리면 된다. 덕분에 이른 토큰 위치에서 은닉 상태를 계산해 선택 헤드를 적용하고 곧바로 워커에 디스패치할 수 있어, 비싼 자기회귀 디코딩 과정을 거치지 않는다.

학습은 두 단계로 이뤄진다.

첫째, 단일 스텝 작업에 대한 대규모 지도 미세조정(SFT)이다. 코딩, 수학, 추론, 언어 이해, 다양한 에이전트 시나리오를 아우르는 검증 가능한 단일 스텝 작업을 모은다. 각 질문에 대해 풀의 모든 워커 모델을 n회 실행해 정답과 비교하고, 모델별 평균 보상을 구한다. 이 점수를 소프트맥스로 변환해 워커에 대한 소프트 타깃 분포를 만들고, 이를 지도 신호로 삼아 KL 발산을 최소화한다. 단일 최선 라벨로 분류하는 대신 소프트 성능 분포를 학습하면 여러 워커가 비슷하게 유능할 때 선택이 더 견고해진다. 백본 적응은 특이값 미세조정(singular-value fine-tuning)을 써서, 선택된 가중치 행렬을 분해한 뒤 특이값 스케일만 학습하고 직교 성분은 고정한다.

둘째, 종단간(end-to-end) 작업에 진화 전략(evolutionary strategies)을 적용한다. Claude Code, Codex, OpenCode 같은 실제 코딩 어시스턴트 환경에서 멀티턴 궤적을 수집해, 저장소 컨텍스트·반복 편집·툴 호출·실행 피드백·최종 완료를 포함하는 종단간 작업을 구성한다. Trinity의 최적화 방식을 따라 sep-CMA-ES로 오케스트레이터의 기대 종단 보상을 직접 최대화한다. 이 단계는 단독 추론 점수만으로는 보이지 않는 차이를 드러낸다. 어떤 모델은 고수준 추론에 강하지만 툴 조작이나 환경 피드백 대응에는 덜 안정적이고, 반대인 모델도 있다.

Fugu-Ultra: 성능 우선

Fugu-Ultra는 LLM 에이전트 팀에서 최대 역량을 끌어내는 데 집중하며, 절대적 답변 품질이 우선인 가장 복잡한 작업을 위해 설계됐다. Conductor를 기반으로, 적응형 에이전트 메모리를 통한 장기 함수 호출과 멀티 에이전트 워크플로우를 수용하도록 확장했다.

Conductor 프레임워크는 강화학습으로 언어 모델이 강력한 LLM 에이전트들을 프롬프트 엔지니어링하고 조율하도록 학습시킨다. Conductor는 입력 작업을 분할하고, 임의의 하위 작업을 할당하며, 표적화된 커뮤니케이션 전략을 정의하는 전체 에이전트 워크플로우를 자연어로 출력한다. 각 워크플로우 스텝은 자연어 하위 작업 문자열, 담당 워커 에이전트의 정수 id, 이전 스텝의 어떤 하위 작업 해를 워커 컨텍스트에 포함할지 지정하는 접근 리스트(access list)로 정의된다. 이 설계로 best-of-N이나 순차 체인 같은 단순한 위상부터 임의의 병렬화 가능한 트리 구조까지 표현할 수 있다.

보상은 두 가지 점진적 조건으로 결정된다.

조건	보상
Conductor 형식 조건	하위 작업·워커·접근 리스트를 파싱할 수 없으면 0
Conductor 정답 조건	잘 형식화된 워크플로우의 최종 출력이 정답과 일치하면 1, 아니면 0.5

학습은 GRPO로 진행하며, 그룹화된 완성으로 몬테카를로 어드밴티지를 계산한다. 훈련 과정에서 각 에이전트의 강점을 활용하는 문제 분해와 프롬프트 엔지니어링된 하위 작업, 독립 작업과 에이전트 간 협업을 결합하는 커뮤니케이션 위상이 자연스럽게 창발한다.

멀티 에이전트 함수 호출은 고유한 메모리 과제를 던진다. Fugu-Ultra에서는 어떤 에이전트든 언제든 함수 호출을 할 수 있으므로, 시스템은 어떤 에이전트가 각 호출을 발생시켰는지와 그 에이전트가 전체 워크플로우에서 어디에 위치하는지를 추적해야 한다. 이를 위해 두 가지 메커니즘을 둔다.

워크플로우 내 에이전트 격리(intra-workflow agent isolation): 각 에이전트의 함수 호출 궤적을 서로 분리한다. 첫 에이전트가 환경과 상호작용한 궤적이 이후 모든 에이전트를 따라가게 만드는 오케스트레이션 붕괴(orchestration collapse)를 막는다. 에이전트는 접근 리스트를 통해서만 다른 에이전트의 행동과 출력을 관찰한다.
지속적 공유 메모리(persistent shared memory): 완전한 격리 또한 비효율적이다. 에이전트가 동일 산출물을 다시 발견하느라 중복된 툴 호출을 하지 않도록, 워크플로우 간 공유 메모리를 허용해 멀티턴 대화의 진행 상태에 대한 배경 컨텍스트를 제공한다.

학습 설정에서 Ultra는 Gemini-3.1-Pro, Claude-Opus-4.8, GPT-5.5를 포함한 다양한 프론티어 LLM 풀을 사용해 최대 5스텝의 에이전트 워크플로우를 설계하도록 지시받는다. 멀티턴 작업에서는 어떤 에이전트든 사용자 환경과 무제한 상호작용이 허용되며, KL 발산 패널티 없이 Conductor 보상과 GRPO로 학습한다.

주요 결과

벤치마크 성능

Fugu 모델은 학습 중 보지 않은 최신 벤치마크로 평가됐다. 워커 풀의 SOTA 프론티어 모델(Gemini-3.1-Pro, Claude-Opus-4.8, GPT-5.5)과 동일한 최대 추론 설정으로 직접 비교했다. 다음은 모델 카드의 핵심 수치다.

벤치마크	Fugu-Ultra	Fugu	Claude Opus 4.8	Gemini 3.1	GPT-5.5
SWE Bench Pro	73.7	59.0	69.2	54.2	58.6
Terminal Bench 2.1	82.1	80.2	74.6	70.3	78.2
LiveCodeBench	93.2	92.9	87.8	88.5	85.3
LiveCodeBench Pro	90.8	87.8	84.8	82.9	88.4
Humanity’s Last Exam	50.0	47.2	49.8	44.4	41.4
CharXiv Reasoning	86.6	85.1	84.2	83.3	84.1
GPQA Diamond	95.5	95.5	92.0	94.3	93.6
SciCode	58.7	60.1	53.5	58.9	56.1
Long Context Reasoning	73.3	74.7	67.7	72.7	74.3
MRCRv2	93.6	86.6	87.9	84.9	94.8

에이전트 코딩에서 Fugu-Ultra는 SWE Bench Pro와 Terminal Bench 2.1 모두에서 SOTA를 달성했다. 두 벤치마크 모두 차순위 대비 5~6% 향상으로, 이는 프론티어 공급자들의 세대 전체 개선폭에 맞먹는다. 또한 SWE Bench Pro에서는 Claude-Opus를, Terminal Bench에서는 GPT를 각각 능가하며, 에이전트 팀의 세밀한 능력 차이를 학습했음을 보여줬다. 흥미롭게도 입력마다 모델 하나만 선택하는 Fugu조차 Terminal Bench에서 GPT-5.5를 크게 앞섰는데, 궤적 분석 결과 Fugu는 풀이 진행 중 GPT-5.5와 Claude-Opus-4.8을 번갈아 호출하며 특정 결정적 디버깅 시점에 Opus를 투입했다.

과학적 추론에서도 두 모델 모두 GPQA-Diamond에서 SOTA를 기록했다. 수학·물리는 GPT에, 화학·생물은 Gemini에 라우팅하는 식으로 도메인별 전문성을 반영한 결과다. 특히 공개되지 않은 Mythos Preview·Fable 5 모델 클래스마저 일부 과학 추론 벤치마크에서 능가했는데, 이는 지능적 오케스트레이션이 학습 컴퓨트를 늘리지 않고도 성능을 확장하는 축이 될 수 있다는 핵심 주장을 뒷받침한다.

도메인 적응성 분석에서 Fugu 모델의 라우팅 분포는 SOTA 능력 사전 정보와 일치했다. Terminal Bench에서는 GPT-5.5에, GPQA-Diamond에서는 Gemini-3.1-Pro에 분포가 집중됐고, 본질적으로 다학제적인 Humanity’s Last Exam에서는 세 에이전트에 균형 잡힌 분포를 보였다.

벤치마크 너머의 성능

집계 점수를 보완하기 위해, 장기 연구·프로그램 합성·최적화·CAD 생성 등 실제 에이전트 행동을 스트레스 테스트하는 정성적 종단간 작업도 평가했다. 이때 베이스라인은 Gemini 3.1 Pro(high), Opus 4.8(max), GPT 5.5(xhigh)이며, Model A/B/C로 익명화했다.

AutoResearch 자율 LLM 학습 최적화에서, 에이전트는 작은 GPT 학습 파이프라인을 반복 편집하며 검증 BPB(bits-per-byte, 낮을수록 좋음)를 줄인다. 단일 H100에서 시드당 123회 자율 실험(약 14시간)을 수행했다.

에이전트	평균 최선 검증 BPB	최선 단일 시드
Fugu-Ultra	0.9774 ± 0.0019	0.9748
Model C	0.9781 ± 0.0011	0.9766
Model B	0.9793 ± 0.0025	0.9758
Model A	0.9822 ± 0.0017	0.9799

Fugu-Ultra는 가장 낮은 평균 검증 BPB를 달성했다. 절대 차이는 크지 않지만 평균과 최선 양쪽에서 일관됐으며, 초반에는 경쟁하다 중반 이후 앞서가는 패턴을 보였다. 이는 탐색 공간이 거친 설정 변경에서 미세한 옵티마이저·스케줄 튜닝으로 옮겨갈 때 오케스트레이션이 가장 유용함을 시사한다.

부록 실험도 주목할 만하다. 원샷 루빅스 큐브 솔버 합성에서, 300개의 고정 스크램블에 대해 Python 표준 라이브러리만으로 솔버를 작성하게 했다.

모델	해결률	평균 HTM	평균 시간
Fugu-Ultra	300/300	19.72	72.6초
Model A	300/300	19.76	67.2초
Fugu	300/300	21.15	1.9초
Model B	0/300	—	—
Model C	0/300	—	—

두 Fugu 모델과 프론티어 베이스라인 하나만 모든 큐브를 풀었고, 나머지 둘은 한 개도 풀기 전에 크래시했다. Fugu-Ultra는 신의 수(God’s number)인 20에 한 수 차로 근접한 평균 19.72 HTM의 최단 해를 만들었고, 어떤 큐브에서도 Model A보다 긴 해를 내지 않았다(7승 293무 0패). Fugu는 한 수를 더 쓰는 대신 큐브당 1.9초로 깊은 솔버보다 약 35배 빠른 속도를 택했다.

이 밖에도 고전 일본어 가나 편지(kana-shosoku)의 읽기 순서 복원, 카메라 조리개용 기계식 아이리스 CAD 생성, 블라인드폴드 체스, 온라인 순차 주식 거래 등에서 Fugu-Ultra가 프론티어 베이스라인을 앞섰다. 온라인 주식 거래에서는 50주 파이프라인을 5회 반복해 포트폴리오를 평균 19.43% 성장시켰고, 다른 프론티어 모델은 모두 15% 미만에 그쳤다.

최적 전략 분석에서 드러난 행동도 흥미롭다. 지식 집약 작업에서는 트리 위상으로 두 독립 시도를 합성하되, 트리비아 중심 작업은 Gemini를, 수학 중심 작업은 GPT를 합성자(aggregator)로 동적 배치했다. 멀티턴 코딩에서는 GPT를 빌더로 두고 Opus를 결정적 시점에 투입해 취약점을 노출시키는 빌드 앤 디버그 전략이 관찰됐다.

한계와 주의사항

벤치마크 너머 실험들은 정성적이며 익명화된 베이스라인과의 선택적 사례 비교다. 저자들도 프롬프트와 시행에 따라 결과가 달라질 수 있다고 명시한다. 블라인드폴드 체스와 주식 거래는 집계 승률이나 일반화 가능한 성능이 아니라, 능력을 격리해 보여주는 예시로 제시됐다. 주식 거래는 단일 익명 종목의 50주 구간 하나만 사용하므로 다른 자산·기간·실거래로 전이된다는 보장이 없다.

서비스 측면의 제약도 있다.

라우팅 투명성 없음: 각 질의에 어떤 기본 모델이 사용됐는지 공개하지 않는다(독점 기술).
지역 제한: GDPR 준수를 위해 현재 EU/EEA에서는 제공하지 않는다.
비공개 모델 미포함: Fable 5, Mythos Preview는 공개되어 있지 않으므로 Fugu의 에이전트 풀에 포함되지 않는다. 비교 그래프의 해당 점수는 공급자 보고치다.

가용성은 단일 OpenAI 호환 API를 통해 제공된다. 구독 플랜은 Standard 월 20달러, Pro 월 100달러, Max 월 200달러이며, 종량제도 별도로 운영된다. 주목할 점은 모델 요금을 적층하지 않고 최상위 모델 요금만 적용한다는 것이다. 또한 사용자는 데이터·프라이버시·규정 요구에 맞춰 특정 모델을 풀에서 제외할 수 있다(다만 Fugu-Ultra는 성능을 위해 전체 풀을 사용한다).

결론

Sakana Fugu는 멀티 에이전트 지능을 단일 모델 인터페이스로 노출하는 학습된 LLM 오케스트레이터 제품군이다. Trinity와 Conductor를 생산 지향 설계로 확장해, 모델 오케스트레이션이 프론티어 AI 능력의 실용적 확장 축이 될 수 있음을 보였다.

핵심은 능력을 파라미터 수준이 아닌 행동 수준에서 결합한다는 점이다. 덕분에 새 모델이 출시되면 워커 풀에 편입할 수 있고, 사용자별 제약과 다양한 배포·프라이버시 요구를 수용하며, 수출 통제 위험 없이 프론티어 수준 역량을 제공한다. AI 진보가 개별 모델을 키우는 것만이 아니라 특화된 모델들이 협업하는 법을 학습하는 데서도 나올 수 있다는 관점을 제시한다.

Reference

LLM