포스트

Hot Mess of AI - AI가 실패할 때 체계적 오류보다 비일관성이 더 위험하다

목차

  1. 개요
  2. 배경과 선행 연구
  3. 방법론
  4. 실험 셋업
  5. 주요 결과
  6. 한계와 디스커션
  7. 결론
  8. Reference

개요

Anthropic Fellows Program에서 진행된 “The Hot Mess of AI: How Does Misalignment Scale with Model Intelligence and Task Complexity?”는 AI 모델이 실패할 때 그 양상이 어떤 형태인지 분석한다. 저자는 Alexander Hägele, Aryo Pradipta Gema, Henry Sleight, Ethan Perez, Jascha Sohl-Dickstein이며 2025년 여름 연구되었다.

논문 abstract의 핵심은 다음과 같다. AI가 더 능력 있어지고 더 일반적이고 결과가 큰 태스크를 맡게 됨에 따라, AI가 어떤 방식으로 실패하는지가 안전성 논의의 핵심이 된다. 저자들은 분산이 차지하는 오류 비율을 의미하는 incoherence라는 지표를 도입하고, 더 크고 더 능력 있는 모델일수록 이 incoherence가 높아진다는 사실을 보인다. 즉 미래 AI의 실패는 일관된 오정렬이 아닌 예측 불가능한 사고에 가까울 가능성이 크다는 결론을 내린다.

배경과 선행 연구

misalignment 위험 vs incoherent 실패

저자들은 두 가지 실패 양식을 대조한다. 첫째, misalignment 위험은 AI가 의도하지 않은 목표를 능숙하게 추구하는 시나리오다. 둘째, incoherent 실패는 AI가 어떤 목표도 일관되게 추구하지 못한 채 무작위에 가까운 행동을 보이는 시나리오다. 이는 hot mess theory of intelligence라고 불리는 가설로, 더 똑똑해 보이는 시스템일수록 실제로는 더 일관성 없게 행동할 수 있다는 관점을 LLM 평가에 적용한 것이다.

카테고리주요 흐름본 연구와의 차이
추론 길이 vs 성능길게 추론하면 오히려 정확도가 떨어지는 inverse scaling 보고정확도가 아닌 비일관성 자체에 초점
평가 분산같은 질문에 다른 답을 내는 현상에 대한 기존 분석bias-variance 프레임으로 정량화
스케일링 법칙큰 모델이 더 좋은 표현을 학습한다는 결과표현이 좋아져도 일관성은 보장되지 않음
Self-consistency다중 샘플 통합으로 정확도 개선같은 메커니즘을 분산 감소 관점에서 재해석

선행 연구가 정확도 자체에 초점을 둔 것과 달리, 본 논문은 같은 정확도라도 그 오류가 일관된지 무작위인지가 안전성 함의에서 결정적이라고 본다.

방법론

편향-분산 분해와 비일관성 지표

연구팀은 머신러닝의 고전적 편향-분산 분해를 KL 형태로 적용한다.

1
Error = Bias² + Variance

여기서 핵심 정의는 incoherence 지표다.

1
Incoherence(Q, f_ε) := Σ Variance(q_i) / Σ Error(q_i)
비일관성 값의미
0에 가까움모든 오류가 체계적 (전형적 오정렬 시나리오)
0.5 부근절반은 체계적, 절반은 무작위
1에 가까움오류가 거의 임의적 (hot mess 시나리오)

이 지표는 같은 질문에 대해 여러 번 샘플링한 결과의 분산을 측정해 산출되며, 각 질문당 30회 이상의 샘플을 사용한다.

실험 셋업

카테고리항목
평가 모델Claude Sonnet 4, o3-mini, o4-mini, Qwen3 family (0.5B–32B)
다지선다GPQA, MMLU
에이전틱SWE-Bench
안전성Model-Written Evals (MWE)
합성트랜스포머가 quadratic loss의 옵티마이저 스텝을 예측하는 태스크
샘플링질문당 30회 이상, 다른 시드와 컨텍스트

Qwen3 family는 0.5B에서 32B까지 다양한 크기를 제공하므로 모델 스케일에 따른 incoherence 변화를 동일 모델 계열 안에서 비교할 수 있다.

주요 결과

추론 길이가 비일관성을 증가시킴

모든 조건에서 추론 사슬과 행동 시퀀스가 길어질수록 incoherence가 증가했다. 필요한 추론 토큰 수, 에이전트 행동 횟수, 최적화 단계 수가 늘어날수록 분산이 누적되며 그 비율이 오류 전체에서 차지하는 비중도 함께 늘어난다. 짧은 답을 요구하는 질문은 incoherence가 낮은 반면, 긴 추론을 요구하는 질문은 같은 모델이라도 incoherence가 두드러지게 높았다.

모델 크기와 태스크 난이도의 상호작용

모델 크기 증가가 비일관성에 미치는 영향은 태스크 난이도에 따라 다르다.

태스크 유형모델 크기 증가 시 incoherence
쉬운 벤치마크감소 (일관성 개선)
어려운 벤치마크변화 없거나 오히려 증가
합성 옵티마이저 예측증가

쉬운 문제에서는 모델이 커질수록 정답에 일관되게 도달하지만, 어려운 문제에서는 정확도가 올라가도 오류 자체가 더 무작위적인 형태로 변한다. 즉 크기를 키우는 것만으로 incoherence 문제는 해결되지 않는다.

합성 최적화 실험

저자는 트랜스포머에 quadratic loss의 경사 하강법 단계를 예측하도록 학습시키는 통제 실험을 설계했다. 이 실험에서 두 가지 핵심 관찰이 도출된다. 첫째, 더 큰 트랜스포머는 bias를 더 빠르게 감소시킨다(올바른 목표를 더 정확히 파악한다). 둘째, variance는 그만큼 빠르게 감소하지 않으며, 따라서 모델이 커질수록 점근적으로 variance 지배 영역으로 들어간다. 이는 LLM이 명료한 최적화기가 아니라 동역학 시스템에 가까운 구조이며, 고차원 상태 공간에서 일관된 목표 추구가 본질적으로 어렵다는 점을 보여준다.

앙상블의 효과

E개의 독립 샘플을 결합하는 앙상블에서 variance는 1/E의 비율로 감소했다. incoherence도 비례적으로 줄어든다. 다수의 독립적 추론 결과를 종합하면 임의적 오류가 상쇄되어 더 일관된 행동이 가능해진다는 점은 self-consistency 류 기법이 단순한 정확도 향상이 아닌 분산 감소 메커니즘으로 작동함을 의미한다.

한계와 디스커션

저자가 명시한 한계는 네 가지다. 첫째, incoherence 지표는 잘 정의된 정답이 있는 태스크에 한해 적용 가능하며, 개방형 목표에는 곧장 확장하기 어렵다. 둘째, 본 연구는 incoherence가 왜 증가하는지 그 메커니즘을 직접 분석하지 않았다. 셋째, 보상 오설정(reward misspecification)은 본 연구의 범위 밖이며, 능력이 커질수록 그 영향이 지배적일 수 있다는 점을 별도로 언급한다. 넷째, 특정 모델 계열(Qwen3, Claude Sonnet 4, OpenAI o-series)의 결과가 다른 계열로 곧장 일반화되지는 않을 수 있다.

디스커션의 핵심 함의는 두 가지다. 첫째, 안전성 위험을 일관된 오정렬에서 예측 불가능한 산업 재해로 재정의해야 할 수 있다. 체계적 오정렬에 대비한 방어가 아니라 보상 해킹과 목표 오일반화(goal misgeneralization)가 더 현실적인 위협이 될 수 있다. 둘째, 비가역적 실세계 행동 시퀀스에서는 분산이 누적되며, 앙상블 같은 오류 보정 메커니즘이 상태를 되돌릴 수 없는 환경에서는 적용하기 어렵다는 실용적 경고가 따른다.

결론

이 연구는 AI가 더 어려운 문제와 더 긴 행동을 다룰수록 실패가 체계적이기보다 임의적이 된다는 정량적 증거를 제시한다. Qwen3 family 0.5B에서 32B까지의 스케일링과 GPQA, MMLU, SWE-Bench, MWE를 포괄하는 평가에서 incoherence는 추론 길이와 어려운 태스크에서 일관되게 상승했다. 앙상블이 1/E로 분산을 감소시킨다는 실용적 발견은 self-consistency 류 기법이 정확도 향상 도구를 넘어 안전성 도구로도 의미를 가질 수 있음을 시사한다. AI 안전 우선순위를 일관된 오정렬에서 비일관성과 보상 해킹으로 재조정하는 데 기여하는 연구다.

Reference