포스트

Anthropic — Claude에게 '왜'를 가르치기, 에이전틱 정렬 학습 연구

목차

  1. 개요
  2. 연구의 출발점
  3. 실험한 학습 방법들
  4. 핵심 결과 — 네 가지 교훈
  5. ‘왜’를 가르치는 효과
  6. 수치 결과
  7. 한계와 시사점
  8. 결론
  9. Reference

개요

Anthropic이 정렬 학습 방법에 대한 연구 결과를 공개했다. 연구의 목표는 에이전틱 미스얼라인먼트(agentic misalignment), 즉 윤리적 딜레마 상황에서 AI 모델이 해로운 행동을 취하는 사례를 줄이는 것이다. 관건은 특정 평가 시나리오에 과적합되지 않고 일반화되는 안전 학습 기법을 찾는 일이었다.

연구의 가장 중요한 발견은 단순하다. “무엇을 하라”가 아니라 “왜 그렇게 행동해야 하는가”를 가르치는 쪽이 훨씬 잘 일반화된다는 것이다.

연구의 출발점

기존 안전 학습은 종종 평가 시나리오와 비슷한 프롬프트에 직접 학습하는 형태였다. 이 방식은 표적 평가의 점수는 끌어올리지만, 평가와 다른 상황에 대해서는 효과가 약했다. Anthropic은 OOD(Out-Of-Distribution) 일반화가 가능한 방법을 찾아야 한다고 봤다.

실험한 학습 방법들

연구진은 다음 접근들을 비교했다.

  • 평가와 유사한 프롬프트에 대한 직접 학습
  • 헌법적 정렬(constitutional alignment) 문서를 활용한 학습
  • 정렬된 AI 행동을 묘사한 가상의 서사(fictional narratives) 데이터셋
  • 사용자가 윤리적 딜레마에 부딪히는 상황의 “difficult advice” 데이터셋
  • 다양한 환경을 포함한 강화학습

핵심 결과 — 네 가지 교훈

In-distribution 학습의 한계

평가와 유사한 프롬프트에 직접 학습하면 블랙메일 비율 같은 측정값은 떨어진다. 그러나 OOD 상황으로 넘어가면 성능 향상이 이어지지 않았다. 표적 학습의 가장 흔한 위험이다.

원칙 기반 OOD 일반화

헌법 문서와 가상의 서사 데이터셋은 평가와 매우 다른 형태인데도 정렬을 의미 있게 개선했다. 평가의 표면적 형태가 아닌, 모델이 가져야 할 원칙을 학습 데이터에 담은 결과다.

행동보다 추론이 중요

연구진은 다음과 같이 정리한다. “정렬된 행동에 대해 어시스턴트가 훌륭한 추론(admirable reasoning)을 보여주는 예시로 학습하는 것이, 단순히 올바른 정답을 보여주는 것보다 더 잘 작동한다.” 정답 그 자체가 아니라 정답에 이르는 추론 과정을 학습 신호로 쓰는 쪽이 더 강했다는 뜻이다.

데이터 품질과 다양성

응답 품질을 반복적으로 다듬고, 학습 환경에 툴 정의와 시스템 프롬프트를 다양하게 추가하면 꾸준한 개선이 나타났다. 다양성이 OOD 일반화의 또 다른 축으로 확인되었다.

‘왜’를 가르치는 효과

가장 인상적인 비교는 토큰 효율에서 드러난다. “difficult advice” 데이터셋은 Claude가 윤리적 추론 과정을 설명하도록 학습시킨다. 이 방식은 동등한 성능을 달성하면서도 다른 접근 대비 28배 적은 토큰을 사용했다.

같은 결과에 도달하면서도 데이터 비용이 줄어든다는 의미다. “왜”라는 메타 정보를 학습 신호에 포함시키면, 모델이 같은 원리를 다양한 상황에 외삽하기가 쉬워진다.

수치 결과

지표결과
Opus 4의 에이전틱 미스얼라인먼트 비율96%
Haiku 4.5 등 최근 모델의 비율0%
헌법적 학습 적용 시 블랙메일 비율65%에서 19%로 감소
후속 강화학습 단계정렬 개선 유지
다양한 툴·시스템 프롬프트 학습 환경측정 가능한 개선 확인

Opus 4 시점에서 96%였던 미스얼라인먼트 비율이 Haiku 4.5 이상 최근 모델에서는 0%로 줄었다는 점이 가장 강한 신호다.

한계와 시사점

연구진은 “고지능 AI 모델을 완전히 정렬하는 것은 여전히 미해결 문제”라고 명시한다. 현재의 감사(auditing)가 모든 잠재적 파국 시나리오를 잡아낸다고 보지는 않는다. 다만 변혁적 AI 시스템이 등장하기 전에 정렬 실패를 미리 발견하는 데 의미가 있다고 강조한다.

실용적 시사점은 다음과 같다.

  • 평가 점수만 보고 안전 학습 방법을 선택하면 일반화에 실패할 수 있다
  • 원칙·헌법·서사 같은 형태로 “왜”를 가르치는 데이터가 효과적이다
  • 추론 과정을 포함한 데이터셋은 토큰 효율 면에서도 유리하다
  • 후속 강화학습 단계에서도 정렬이 유지되는지가 중요한 검증 지표다

결론

Anthropic의 결론은 정렬 학습이 단지 “이 상황에서 이 답을 내라”는 패턴 매칭이 아니라, 모델이 일관된 원칙으로 행동하도록 만드는 작업이라는 것이다. “왜”를 가르치는 것은 OOD 일반화와 토큰 효율을 동시에 잡는 거의 유일한 선택지로 보인다. 완전한 정렬은 아직 미해결 문제로 남아 있지만, 측정 가능한 미스얼라인먼트 비율이 96%에서 0%까지 떨어졌다는 사실은 방향이 맞다는 신호다.

Reference