포스트

LLM 평가의 맹점: Test-Time Compute를 측정에 포함해야 하는 이유

목차

  1. 개요
  2. 벤치마크 단일 숫자의 한계
  3. 올바른 평가 방법: 성능 대 Test-Time Compute 그래프
  4. AI Preparedness 함의
  5. 구체적 권고
  6. 결론

개요

OpenAI의 연구원 Noam Brown은 Noam Brown의 X 글에서 LLM 평가 방식의 근본적인 문제를 지적했다. LLM이 강력해질수록 벤치마크 성능은 점점 더 test-time compute의 함수가 된다. 현대 LLM의 실제 능력 상한이 어디인지는 측정 비용이 너무 크기 때문에 알기 어려운 상태다. 결론적으로 LLM 평가 방식은 토큰, 비용, 시간 대비 성능 형태로 바뀌어야 한다.

벤치마크 단일 숫자의 한계

GPT-5.5 출시 사례

GPT-5.5 출시 당일 초기 반응은 회의적이었다. 벤치마크 숫자는 더 좋았지만 크게 향상된 것처럼 보이지 않았다. 그러나 몇 시간 만에 사람들이 모델을 직접 사용해보면서 GPT-5.4 대비 단계적 도약임이 분명해졌다. 고전적인 “벤치마크 격자” 방식은 전체 그림을 보여주지 못했다.

토큰을 x축에 두고 두 모델을 비교하면 이유가 명확해진다. 어떤 사이버 평가에서는 각자의 최대 test-time compute를 사용했을 때 두 모델의 차이가 크지 않아 보인다. 그러나 다른 사이버 평가에서는 토큰, 비용, 지연을 통제하면 GPT-5.5가 훨씬 더 뛰어남이 분명해진다. GPT-5.5는 GPT-5.4와 같은 토큰(또는 달러) 예산에서 평가된 것이 아니었으며, test-time compute를 통제하면 GPT-5.5가 실질적으로 더 강하다.

정체점은 생각보다 멀다

“성능이 정체될 때까지 test-time compute를 밀어붙이는 방식으로 평가하면 되지 않냐”는 질문이 자주 제기된다. 문제는 경험적으로 정체점이 매우 멀리 있다는 것이다. 실용적인 예산 안에서 정체를 전혀 관측하지 못하는 경우도 있다.

Karpathy의 autoresearch 실험에서는 수백 번의 실험 후에도 성능이 계속 향상된다. AISI의 사이버 평가에서는 Mythos와 GPT-5.5의 성능이 1억 토큰 이후에도 빠르게 향상된다. 더 강한 모델일수록 시간에 따른 성능 향상이 더 강하게 나타난다. 모델이 강해질수록 더 긴 호라이즌에서 효과적으로 작동하게 되는 경향이 있으며, 정체점은 더 멀리 밀려나고 사라질 수도 있다.

올바른 평가 방법: 성능 대 Test-Time Compute 그래프

모델 평가의 올바른 방법은 토큰, 비용, 실측 시간을 x축으로 하는 성능 대 test-time compute 그래프다. 일부 벤치마크는 이미 이 방향으로 전환했다. 예를 들어 ARC-AGI는 점수 대 비용을 측정한다. 또 다른 합리적인 방법은 명시적 토큰, 시간, 비용 예산을 정해 모델에 알려주는 것으로, 이는 SAT나 IMO에서 인간을 평가하는 방식과 유사하다.

X축 선택지와 트레이드오프

각 x축 선택에는 트레이드오프가 존재한다.

X축장점단점
토큰직관적토크나이저, 속도, 단가가 달라 모델 간 직접 비교가 어려움
달러(비용)경제적 관점배칭, 하드웨어 활용 같은 구현 세부사항에 의존
실측 시간사용자 경험 반영best-of-N 같은 멀티 에이전트 기법이 지연을 크게 늘리지 않고도 test-time compute를 키울 수 있어 불완전

어떤 x축을 선택하든 단일 스칼라보다 정보량이 많다는 점이 핵심이다.

AI Preparedness 함의

프런티어 모델 출시 전에는 보통 사이버, 바이오 등 오용 위험을 평가한다. 능력이 추론 컴퓨트의 함수라면, 어느 추론 예산에서 안전 평가를 수행해야 하는지가 중요한 문제가 된다. 실제로는 대부분의 안전 평가가 사용된 추론량을 고려하지 않는다.

Gemini 3 Deep Think 사례

Gemini 3 Deep Think 출시와 그에 따른 반발이 이 문제를 잘 보여준다. Deep Think는 벤치마크 점수가 훨씬 높았지만 위험 평가 모델 카드가 함께 공개되지 않았고, 일부 AI 안전 커뮤니티의 비판을 받았다. 그러나 그 비판은 더 깊은 문제를 놓쳤다. AI 연구소와 안전 기관이 모델 평가 시 test-time compute를 일관되게 고려하지 않는다는 점이 핵심 문제다. Deep Think는 시스템 카드가 있는 다른 모델들의 스캐폴드일 가능성이 높고, 외부인이 재현 가능하다. 즉, Deep Think의 능력은 충분한 추론 비용을 지불할 의향이 있는 누구에게나 이미 접근 가능했던 셈이다.

장기 호라이즌 평가의 어려움

국가 행위자는 단일 작업에 1천만 달러 이상의 추론을 사용할 수 있다. 모든 롤아웃을 그런 예산으로 평가하는 것은 비현실적이지만, 성능이 추론 컴퓨트에 따라 어느 정도 예측 가능하게 스케일하므로 낮은 예산에서 평가 후 높은 예산을 불확실성과 함께 외삽하는 방법이 있다. 장기 호라이즌 평가는 외삽만으로 다룰 수 없는 복잡성이 있다. 예를 들어 1년 호라이즌의 정렬 문제(misalignment)를 확신 있게 평가하는 유일한 방법이 실제로 1년 동안 운영해보는 것일 수도 있다. 에이전트의 작동 호라이즌이 신모델 개발 주기를 넘어서면, 출시 전에 최대 작동 수명에 대한 평가를 완료하는 것이 불가능해질 수 있다.

구체적 권고

o1 발표(2024년 9월) 이후 추론 모델 성능이 추론 컴퓨트로 스케일함이 알려졌다. 그런데 2년이 다 되도록 프런티어 연구소는 여전히 단일 숫자 벤치마크를 보고하고, 안전 기관은 스캐폴드가 100배 추론으로 더 나은 성능을 내면 놀라며, Preparedness Framework와 RSP는 임계 능력 도달 판단에서 추론 컴퓨트를 무시하고 있다.

Noam Brown은 세 가지 구체적 권고를 제시한다.

첫째, AI 연구소는 신규 모델의 벤치마크 성능을 토큰, 비용, 시간 x축과 함께 공개해야 한다. 최소한 스칼라 결과를 낸 추론 예산을 보고해야 한다.

둘째, 벤치마크는 리더보드에 추론 사용량을 추적하거나 명시적 토큰, 비용, 시간 예산을 설정해야 한다.

셋째, Preparedness Framework와 RSP는 모델이 안전 임계치를 넘는지 판단할 때 추론 컴퓨트를 명시적으로 고려해야 하며, 여러 추론 예산에서 능력을 추정(소예산 실행으로부터의 외삽, 불확실성 명시)해야 한다.

결론

최신 LLM은 그 어느 때보다 test-time compute를 효율적으로 활용해 정체점을 더 멀리 밀어낸다. 이 추세가 계속되면 추론 예산을 고려하지 않는 벤치마크 점수는 출시 주기마다 정보량이 줄어들 것이다. 추론 예산을 능력 측정과 안전 정책 모두에서 일급(first-class) 요소로 다루는 방향으로의 전환이 필요하다. 단일 스칼라 숫자에서 성능 대 컴퓨트 곡선으로의 이동은 모델 비교와 안전 평가 모두를 더 정확하게 만들 것이다.