AgingBench: 배포된 AI 에이전트는 시간이 지나면 늙는다
목차
개요
AgingBench는 배포된 AI 에이전트의 “시간 경과에 따른 종단(longitudinal) 신뢰성”을 측정하는 벤치마크다. 대부분의 평가가 정적 시스템을 한 시점에서 측정하는 것과 달리, AgingBench는 다른 질문을 던진다. 즉 “배포 후 에이전트가 얼마나 오래 신뢰성을 유지하는가”라는 근본 질문을 다룬다. 초점은 베이스 모델 자체가 아니라 에이전트의 전체 운영 하네스(operational harness)에 맞춰져 있다.
AgingBench는 에이전트가 시간이 지나며 “늙는” 네 가지 노화(aging) 메커니즘을 정의한다.
첫째, Compression aging이다. write 시점의 요약이 미래 질의를 알기 전에 저빈도 디테일(숫자, 이름, 제약)을 폐기하면서 발생한다.
둘째, Interference aging이다. 유사한 기억이 누적되어 검색 시 관련 사실이 묻히는 현상으로, 정보 손실이 없어도 발생한다.
셋째, Revision aging이다. 변하는 진실을 추적하는 데 실패하는 것으로, 특히 예산이나 카운터 같은 파생 상태(derived state)에서 심각하다.
넷째, Maintenance aging이다. flushing, recompaction, 모델 교체, 로그 정리 같은 라이프사이클 이벤트가 성능 절벽을 유발한다.
방법론
AgingBench는 실패를 진단하기 위해 시간적 의존성 그래프(temporal dependency graphs)와 쌍 반사실 프로브(paired counterfactual probes)를 사용한다.
핵심은 4단계 기억 파이프라인을 계측하는 것이다. W(Write)는 압축과 추상화 단계다. S(Store)는 기억 저장소 단계다. R(Retrieve)는 사실 복구 단계다. U(Utilize)는 답변 생성 단계다.
각 단계를 오라클(oracle)로 대체하는 반사실 스왑(counterfactual swap)을 통해 실패 원인을 W, S, R, U 중 어느 단계로 국소화할 수 있다. 이를 통해 단순히 “에이전트가 틀렸다”가 아니라 “어느 단계에서 신뢰성이 무너졌는가”를 진단한다.
평가 규모는 다음과 같다.
| 항목 | 규모 |
|---|---|
| 시나리오 | 7개 (여러 복잡도) |
| 모델 | 14개 |
| 실행 횟수 | 약 400회 |
| 배포당 세션 | 8 ~ 200 세션 |
| 구성 | 다양한 기억 정책 및 통제/자율 에이전트 |
주요 결과
핵심 정량 결과는 노화가 단순한 이론이 아니라 측정 가능한 현상임을 보여준다.
가중치를 고정한 상태에서도 10세션에 걸쳐 최대 85%의 recall 하락이 관측되었다. 모델을 전혀 바꾸지 않아도 운영 과정에서 신뢰성이 급격히 떨어진다는 의미다.
기억 정책만으로 4.5배의 half-life(반감기) 격차가 발생했으며, 이는 어떤 모델 변형보다도 큰 격차였다. 즉 기억 정책 변경이 모델 교체보다 더 큰 효과 크기(effect size)를 보였다.
단일 maintenance 이벤트, 예를 들어 history flush 한 번만으로 67%의 성능 절벽이 발생했고 회복되지 않았다.
또한 행동 순응(behavioral compliance)이 “깨끗하게” 유지되더라도 사실 정밀도는 크게 저하될 수 있었다. 에이전트가 규칙을 잘 따르는 것처럼 보여도 사실 정확도는 무너질 수 있다는 점을 시사한다.
리더보드는 여러 트랙으로 결과를 정리한다. 모델 변형, 커스텀 기억 정책, 런타임 컨트롤러, 자율 에이전트별로 결과를 구분해 제공한다.
한계와 주의사항
AgingBench는 베이스 모델 단독 성능이 아니라 에이전트의 전체 운영 하네스를 평가 대상으로 삼는다. 따라서 결과는 모델 자체의 우열보다 기억 정책과 라이프사이클 관리의 영향을 더 크게 반영한다.
특히 행동 순응 지표만으로 에이전트의 신뢰성을 판단하면 안 된다는 점이 중요하다. 행동이 깨끗해 보여도 사실 정밀도가 크게 저하될 수 있기 때문이다.
또한 maintenance 이벤트로 인한 67% 성능 절벽이 회복되지 않았다는 점은 운영 중 라이프사이클 이벤트가 비가역적 손상을 남길 수 있음을 보여준다.
결론
AgingBench는 배포된 AI 에이전트가 시간이 지나면서 신뢰성을 잃는, 즉 “늙는” 현상을 종단적으로 측정한 벤치마크다. 가중치 고정 상태에서도 10세션 만에 최대 85% recall 하락이 나타났고, 기억 정책만으로 4.5배 half-life 격차가 발생했으며, 단일 history flush가 67% 성능 절벽을 유발했다. 이는 에이전트 신뢰성이 모델 선택만의 문제가 아니라 기억 정책, 런타임 컨트롤러, 라이프사이클 관리의 문제임을 보여준다.