Hot Mess of AI - AI가 실패할 때 체계적 오류보다 비일관성이 더 위험하다
목차
개요
Anthropic 연구팀이 “The Hot Mess of AI: How Does Misalignment Scale with Model Intelligence and Task Complexity?”라는 논문을 발표했다. 이 연구는 AI 모델이 실패할 때 그 양상이 어떤 형태를 띠는지 분석한다. 핵심 발견은 AI의 실패가 의도하지 않은 목표를 체계적으로 추구하는 형태가 아니라, 일관성 없는 “갈팡질팡(hot mess)” 형태로 나타난다는 것이다. 이는 AI 안전 연구의 우선순위를 재조정해야 함을 시사한다.
이 연구는 Anthropic Fellows Program의 일환으로 2025년 여름에 진행되었으며, Alexander Hägele, Aryo Pradipta Gema, Henry Sleight, Ethan Perez, Jascha Sohl-Dickstein이 참여했다.
핵심 질문
이 연구가 던지는 근본적인 질문은 다음과 같다. AI가 실패할 때, 의도하지 않은 목표를 체계적으로 추구하는 방식으로 실패하는가? 아니면 일관성 없는 행동을 보이는 “핫 메스(hot mess)” 형태로 실패하는가?
기존의 AI 안전 논의에서는 주로 전자, 즉 체계적 오정렬(misalignment)을 우려해 왔다. 그러나 이 연구는 실제 모델의 실패 패턴이 후자에 가깝다는 증거를 제시한다.
편향-분산 분해 프레임워크
연구팀은 머신러닝의 고전적 프레임워크인 편향-분산 분해(bias-variance decomposition)를 AI 오류 분석에 적용했다.
오류 분해 공식
오류는 다음과 같이 분해된다.
1
오류 = 편향² + 분산
- 편향(Bias): 일관된 체계적 오류를 의미한다. 모델이 항상 같은 방향으로 틀린다면 편향이 높다.
- 분산(Variance): 예측 불가능한 임의적 오류를 의미한다. 같은 질문에 매번 다른 답을 내놓는다면 분산이 높다.
오류 비일관성 지표
연구팀은 오류 비일관성(Incoherence)이라는 지표를 정의했다.
1
오류 비일관성 = 분산 / 오류
| 비일관성 값 | 의미 |
|---|---|
| 0에 가까움 | 모든 오류가 체계적 (전형적 오정렬 시나리오) |
| 1에 가까움 | 오류가 임의적 (핫 메스 시나리오) |
4가지 주요 발견
발견 1: 추론 길이와 비일관성의 상관관계
모든 작업과 모델에서 추론 과정이 길어질수록 오류가 더 비일관적으로 변한다. 추론 토큰 수, 에이전트 행동 횟수, 최적화 단계 수가 증가하면 비일관성도 함께 증가한다. 이는 긴 추론 체인에서 오류가 누적되면서 예측 불가능한 방향으로 발산하기 때문이다.
발견 2: 모델 크기와 비일관성의 복잡한 관계
모델 크기 증가가 비일관성에 미치는 영향은 작업 유형에 따라 달라진다.
| 작업 유형 | 모델 크기 증가 시 비일관성 |
|---|---|
| 합성 작업 | 증가 |
| 쉬운 벤치마크 | 감소 (일관성 개선) |
| 어려운 벤치마크 | 변화 없거나 증가 |
더 큰 모델이 정확도는 개선하지만, 어려운 문제에서의 오류 일관성은 보장하지 못한다.
발견 3: 자연스러운 과다 사고의 영향
모델이 자발적으로 더 오래 추론하는 경우(자연스러운 과다 사고)와 API 설정으로 추론 예산을 늘리는 경우의 차이가 존재한다.
- 자발적 장시간 추론: 오류 비일관성이 급증한다.
- 의도적 추론 예산 증가: 미미한 개선만 가져온다.
이는 모델이 어려운 문제를 만나 스스로 추론을 길게 가져갈 때 오히려 일관성이 떨어진다는 것을 의미한다.
발견 4: 앙상블의 효과
여러 샘플을 결합하는 앙상블 방식은 분산을 줄이는 데 효과적이다. 다수의 독립적 추론 결과를 종합하면 임의적 오류가 상쇄되어 더 일관성 있는 행동이 가능해진다.
합성 최적화 실험
연구팀은 트랜스포머 모델이 경사 하강법(gradient descent) 단계를 예측하도록 훈련하는 통제된 실험을 수행했다. 이 실험에서 두 가지 핵심 관찰이 있었다.
첫째, 더 큰 모델은 편향을 더 빠르게 감소시킨다. 즉, 올바른 목표가 무엇인지 더 잘 파악한다.
둘째, “올바른 목표를 아는 것”과 “그 목표를 일관성 있게 추구하는 것” 사이의 간극이 모델 크기가 커져도 해소되지 않는다. 오히려 그 간극이 확대되는 경향을 보인다.
이는 LLM이 최적화기(optimizer)가 아니라 동역학 시스템(dynamical system)에 가까운 구조를 가지고 있기 때문이다. 고차원 상태 공간에서 일관된 목표 추구가 본질적으로 어렵다는 것을 보여준다.
AI 안전에 대한 함의
이 연구는 AI 안전 분야에 세 가지 중요한 함의를 제시한다.
장시간 작업에서의 분산 주도 오류
어려운 문제일수록 실패는 체계적 오류보다 비일관성이 두드러진다. 미래의 AI 사고는 악의적 목표 추구보다 “산업 재해 수준의 갈팡질팡” 형태로 발생할 가능성이 높다.
규모 증가의 한계
더 큰 모델이 정확도는 개선하지만, 오류의 일관성까지 보장하지는 않는다. 단순히 모델을 키우는 것만으로는 이 문제를 해결할 수 없다.
보상 해킹에 대한 경계
체계적 오정렬보다 비일관성이 더 현실적인 위험이라면, 훈련 과정에서의 보상 해킹(reward hacking)과 목표 오명시(goal misgeneralization)에 더 집중해야 한다.
결론
이 연구는 AI가 더 어려운 문제를 다룰수록 실패 양상이 체계적이기보다 임의적이 된다는 증거를 제시한다. 이것이 AI 위험을 제거하는 것은 아니지만, 위험의 성격을 근본적으로 바꾼다. 체계적 오정렬에 대한 우려에서 비일관성으로 인한 예측 불가능한 실패로 관심을 전환할 필요가 있다. 앙상블 같은 기법이 분산을 줄이는 데 효과적이라는 발견도 실질적인 완화 전략을 제시한다. AI 안전 연구의 우선순위를 재조정하는 데 있어 중요한 참고 자료가 될 연구이다.