Anthropic, 핵심 AI 안전 서약 RSP 철회
목차
개요
Anthropic이 2023년 발표한 핵심 안전 서약인 Responsible Scaling Policy(RSP)의 중심 약속을 철회했습니다. 안전 조치가 충분하지 않으면 AI 모델 훈련을 중단하겠다는 약속을 포기한 것입니다. 이번 결정은 AI 업계의 경쟁 심화와 규제 부재 속에서 이루어졌습니다.
배경: RSP란 무엇인가
RSP(Responsible Scaling Policy)는 Anthropic이 2023년 발표한 자율 안전 규약입니다. 핵심 내용은 “AI 모델이 충분한 안전 조치 없이 개발될 경우 훈련을 중단한다”는 것이었습니다. 당시 Anthropic은 AI 안전을 최우선 가치로 내세우며 업계에서 차별화된 입지를 구축했습니다.
핵심 내용
변경된 내용
기존 RSP의 핵심 조항인 “안전 조치 미흡 시 훈련 중단” 약속이 새 정책에서 삭제되었습니다. 이진적 중단 기준 대신, 재앙적 위험이 크다고 판단될 때 개발을 “지연”할 수 있다는 완화된 표현으로 바뀌었습니다.
철회 이유
Anthropic의 최고 과학 담당자 Jared Kaplan은 다음과 같이 설명했습니다. “경쟁사들이 앞서 나갈 때 AI 연구에서 손을 떼면 아무도 도움이 안 된다.”
구체적인 이유는 세 가지입니다. 첫째, 예상했던 국가 또는 국제 규제가 실현되지 않았습니다. 둘째, AI 위험 평가가 생각보다 복잡하고 모호하여 사전 안전 보장이 불가능합니다. 셋째, 기업 간, 국가 간 AI 우위 경쟁이 가속화되고 있습니다.
새로운 약속
RSP를 대신하는 새로운 정책의 내용은 다음과 같습니다.
| 항목 | 내용 |
|---|---|
| 투명성 강화 | 3~6개월마다 위험 보고서 공개 |
| 경쟁사 기준 | 경쟁사 수준 이상의 안전 노력 유지 |
| 개발 조건 | 재앙적 위험 시 훈련 중단이 아닌 지연 가능 |
의미와 시사점
전문가들의 평가는 엇갈립니다. METR의 정책담당자는 이를 “사회가 AI 재앙 위험에 대비하지 못했다”는 증거로 해석합니다. 가장 큰 우려는 이진적 중단 기준이 사라지면서 위험이 서서히 증가하는 “개구리 삶는” 효과가 발생할 수 있다는 것입니다.
커뮤니티의 부정적 평가도 주목할 만합니다. “Google의 ‘Don’t be evil’은 15년 만에 사라졌고, Anthropic의 RSP는 겨우 2년 반”이라는 지적은 AI 이상주의의 반감기가 단축되고 있음을 시사합니다. 반면 소수의 긍정적 평가도 있습니다. 최소한 투명성과 책임감을 유지하려는 시도이며, OpenAI보다는 여전히 신뢰할 여지가 있다는 시각입니다.
결론
Anthropic의 이번 결정은 AI 업계의 현실적 압박을 보여줍니다. 안전을 최우선으로 내세우던 기업조차 경쟁의 논리 앞에 핵심 약속을 철회해야 하는 상황입니다. 이는 자율 규제만으로는 AI 안전을 담보할 수 없으며, 국제적 규제 체계 마련이 시급함을 다시 한번 상기시켜 줍니다.