SIA: 하네스와 가중치를 동시에 업데이트하는 자기 개선 AI 시스템

게시 2026/06/15 업데이트 2026/06/21

By Juho

12 분읽는 시간

개요

SIA(Self-Improving AI)는 언어 모델 에이전트인 Feedback-Agent가 태스크별 에이전트의 하네스(scaffold)와 가중치(weights)를 동시에 업데이트하는 자기 개선 시스템이다. 기존 연구는 스캐폴드를 개선하는 방향과 모델 가중치를 업데이트하는 방향으로 분리되어 있었으며, 두 접근법을 통합한 사례가 없었다. SIA는 이 두 레버를 단일 피드백 루프 안에서 결합하여 법률 분류, GPU 커널 최적화, 단일세포 RNA 노이즈 제거의 세 도메인에서 기존 최고 성능을 모두 초과하였다.

논문 저자는 Prannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran이다.

방법론

시스템 아키텍처

SIA는 세 가지 주요 컴포넌트로 구성된다.

Meta-Agent(ℳ): 태스크 명세로부터 초기 스캐폴드를 생성한다.
Feedback-Agent(ℱ): 실행 궤적(trajectory)을 분석하여 개선 방향을 결정한다.
Task-Specific Agent: 평가 데이터셋에 대해 실제 태스크를 수행한다.

각 생성 주기(generation)는 실행(Execution) → 분석(Analysis) → 개선(Improvement)의 세 단계로 진행된다. Feedback-Agent는 집계된 메트릭이 아닌 전체 실행 궤적(τ_g)을 수신하여, 하네스 업데이트와 가중치 업데이트 중 어느 레버를 사용할지 동적으로 결정한다.

태스크별 에이전트는 다음 요소로 분해된다.

가중치 θ를 가진 언어 모델
시스템 프롬프트
도구 디스패치 로직(Python 코드)
답변 추출 코드
결정론적 채점기/검증기

가중치를 제외한 나머지 요소들이 “스캐폴드” 또는 “하네스”를 구성한다.

하네스 업데이트 메커니즘

하네스 업데이트는 다음 수식으로 표현된다.

A_{g+1} = ℱ(A_g, τ_g(π_θ), ℰ_g, 𝒰)

여기서 A_g는 g세대의 스캐폴드, τ_g는 실행 궤적, ℰ_g는 평가 메트릭, 𝒰는 태스크 명세다. 가중치는 고정된 상태에서 스캐폴드가 진화하며, 하네스 업데이트는 새로운 도구 추가, 파서 개선, 재시도 정책 변경, 프롬프트 구조 변경 등 외부화된 인프라 개선을 생성한다. 샘플-태스크 정규화(sample-task regularization)가 초기 스캐폴드가 단일 벤치마크 인스턴스에 과적합되는 것을 방지한다.

가중치 업데이트 메커니즘

Feedback-Agent는 태스크 특성과 보상 분포에 따라 다음 여섯 가지 알고리즘 중 하나를 선택한다.

알고리즘	적용 조건
PPO with GAE	밀집 단계별 보상, 학습된 가치 헤드가 토큰별 이점 생성
GRPO	저렴한 롤아웃과 에피소드 말단 채점, 롤아웃 그룹 내 이점 정규화
Entropic Advantage Weighting	우편향 보상 히스토그램, 적응형 온도의 소프트맥스 재분배
REINFORCE + KL-to-base	밀집 보상 + 회귀 위험, 몬테카를로 반환 + KL 패널티
Best-of-NN Behavioral Cloning	경사 신호가 0에 가까울 때 콜드 스타트
DPO	순서형이지만 기수형이 아닌 보상 신호

LoRA 어댑터(rank 32)가 선택된 RL 알고리즘으로 학습되며, 학습률은 4×10⁻⁵이다. 기반 모델은 gpt-oss-120b이고, Meta-Agent와 Feedback-Agent는 Claude Sonnet 4.6을 사용하였다. 학습 인프라는 H100 GPU를 사용하는 Modal 플랫폼이다.

주요 결과

LawBench 법률 분류

LawBench 태스크는 사건 요약으로부터 191개 형사 혐의를 분류하는 작업이다. 학습/테스트 분할은 5,332/913 샘플이며, 메트릭은 Top-1 정확도다.

시스템	성능
이전 최고 성능(SOTA)	0.450
기준선(초기)	13.5%
SIA-H (하네스만)	50.0%
SIA-W+H (하네스+가중치)	70.1%

하네스 반복을 통해 TF-IDF + LinearSVC 분류 파이프라인과 문자 n-gram 튜닝이 구축되었다. 이후 PPO with GAE를 통한 가중치 업데이트로 191개 카테고리에서 절도, 폭행, 사기의 세부 변형을 구별하는 능력이 향상되었다. 최종 성능 70.1%는 이전 SOTA 대비 25.1%p 향상된 수치다.

GPU 커널 최적화

AlphaEvolve TriMul 태스크는 H100에서 삼각 행렬 연산을 위한 커스텀 CUDA 커널을 작성하는 작업이다. 메트릭은 Score = 1500/runtime으로 낮은 실행 시간이 높은 점수를 의미한다.

시스템	점수	실행 시간
이전 최고 성능(SOTA)	1.292	-
기준선(초기)	0.105	-
SIA-H (하네스만)	0.120	12,483 μs
SIA-W+H (하네스+가중치)	1.475	1,017 μs

하네스 업데이트는 컴파일 오류 파서와 타이밍 하네스를 도입하였다. Entropic Advantage Weighting을 통한 가중치 업데이트로 H100 특화 패턴이 인코딩되었으며, 공유 메모리 타일링, fp32 레지스터 누적, 블록 크기 선택 등이 포함된다. SIA-W+H의 실행 시간 1,017 μs는 하네스만 사용한 경우 대비 91.9% 단축된 결과다.

scRNA-seq 노이즈 제거

MAGIC scRNA-seq 노이즈 제거 태스크는 단일세포 RNA 임퓨테이션을 위한 하이퍼파라미터 튜닝 작업이다. 메트릭은 mse_norm ∈ [0,1]이며 높을수록 좋다.

시스템	mse_norm
이전 최고 성능(SOTA)	0.240
기준선(초기)	0.048
SIA-H (하네스만)	0.241
SIA-W+H (하네스+가중치)	0.289

하네스 반복을 통해 이웃 수 k, 확산 단계 t, 대역폭 α 등 MAGIC 하이퍼파라미터가 탐색되었다. GRPO를 통한 가중치 업데이트로 “np.clip + np.rint” 반올림을 사용해 임퓨팅된 카운트를 비음수 정수로 강제하는 구조적 후처리 단계가 도입되었다. 이 생물학적 제약 조건은 하네스 반복만으로는 발견되지 않은 것으로, 정책 내재화를 통해 발현된 점이 주목할 만하다.

한계와 주의사항

SIA의 핵심 한계는 결합된 공진화 굿하트(Coupled Co-evolutionary Goodhart) 문제다. 시스템은 두 레버 모두를 고정된 검증기 V에 대해 최적화한다. 하네스 탐색은 현재 정책이 활용하기 쉬운 스캐폴드를 찾고, 가중치 업데이트는 이후 변경될 스캐폴드에서 생성된 데이터로 학습된다.

이 결합 구조에서 두 최적화기의 공동 고정점은 검증기 V를 분포 외(out-of-distribution) 스캐폴드나 새로운 정책에 대해 최대화하는 점이 아니라, 서로의 업데이트 이력에 대해 무지한 두 최적화기 간의 내시 균형이다. 컴포넌트 교란에 대한 견고성은 아직 검증되지 않았다.

향후 과제로는 레버 선택을 태스크 분포에 걸친 외부 MDP로 최적화하는 메타-RL 접근법과, 현재 이산적인 라운드 방식을 중간 단계 전환으로 대체하는 세밀한 인터리빙이 제안되었다.

결론

SIA는 하네스와 가중치 업데이트를 결합하는 것이 두 접근법 중 하나만 사용하는 것보다 일관되게 우수함을 세 가지 이질적 도메인에서 실증하였다. 법률 분류에서 SOTA 대비 25.1%p, GPU 커널 최적화에서 12.4% 더 빠른 실행 시간, 단일세포 RNA 노이즈 제거에서 SOTA 대비 20.4% 향상이라는 결과를 달성하였다. 두 레버는 서로 겹치지 않는 변화 공간에서 작동한다는 점이 핵심 인사이트다. 하네스는 외부 스캐폴딩을 통해 모델을 에이전틱하게 만들고, 가중치는 내부 파라미터 적응을 통해 도메인 직관을 구축한다. 이는 AI 시스템이 인간의 개입 없이 스스로 개선될 수 있는 방향에 대한 구체적인 프레임워크를 제시한다.

Reference

SIA: Self Improving AI with Harness & Weight Updates

AI LLM Agent