포스트

Qwen 3.5의 검열 회로 해부 - 가중치에 새겨진 국가 검열의 메커니즘 해석

목차

  1. 개요
  2. 핵심 내용
  3. 방법론
  4. 주요 발견
  5. 의미와 시사점
  6. 결론
  7. Reference

개요

이 글은 Qwen 3.5-9B의 가중치에 국가 단위 콘텐츠 필터링이 어떻게 새겨져 있는지를 분석한 메커니즘 해석(mechanistic interpretability) 연구를 다룹니다. 연구는 중국 정부가 요구하는 검열(PRC-mandated censorship) 동작을 담당하는 구체적인 신경 회로를 식별하고 특성화합니다.

핵심 발견은 검열이 “작고 식별 가능한 회로(small, identifiable circuit)”로 구현되어 있다는 것입니다. 중요한 점은 모델이 지식을 잃은 것이 아니라는 사실입니다. 지식은 그대로 남아 있고, 학습된 라우팅(routing) 동작이 그것을 억제할 뿐입니다.

핵심 내용

검열 회로의 구조

회로는 두 부분으로 나뉩니다.

작성 계층(Writer layers, L11-L20)은 세 가지 내부 방향(direction)을 계산합니다. 콘텐츠가 PRC에 민감한지 여부, 거부할지 여부, 그리고 어떤 응답 스타일(회피 대 선전)을 취할지입니다.

판독 계층(Reader layers, L20-L31)은 이 신호들을 실제 텍스트로 렌더링합니다. 판정(verdict)은 약 24번째 계층에서 중국어 토큰으로 먼저 확정된 뒤, 영어 출력으로 번역됩니다.

네 가지 응답 레지스터

모델은 학습된 네 가지 응답 레지스터(register)를 생성합니다.

입력 유형응답 레지스터
톈안먼 관련회피(deflection) — 일반적 우회
기타 PRC 주제선전(propaganda) — 대만, 신장, 파룬궁 등에 대한 국가 정렬 프레이밍
유해 프롬프트안전 거부(safety refusal) — 서구식 거부
무해한 콘텐츠사실 답변(factual answers)

흥미롭게도 PRC 주제별로 검열 강도가 다릅니다. 대만(약 9% 전환율)은 홍콩(약 86% 전환율)보다 더 끈질기게 검열되며, 이는 기저 선전 강도와 상관관계를 보입니다.

방법론

방향 추출은 특정 계층에서 응답 클래스 간 평균 차이(diff-of-means) 대비를 사용하여, 결정 차원을 나타내는 벡터를 만듭니다.

인과 검증은 활성화 스티어링(activation steering)으로 수행합니다. 스케일된 방향 벡터를 잔차 스트림(residual stream)에 더하면 깔끔한 시그모이드 용량-반응 곡선(dose-response curve)이 나타나, 단순 상관이 아닌 인과성을 확인합니다.

평가는 독립적인 블라인드 LLM 판정자(Claude)가 실험 조건을 모른 채 1,056개 생성물을 분류하는 방식으로 진행되었습니다. 그 결과 예측된 레지스터와 96.8%의 일치율을 달성했습니다.

프롬프트 세트는 네 가지 클래스(PRC 민감, 비PRC 정치 대조군, 유해, 무해)에 걸친 200개의 큐레이션된 프롬프트입니다. 구조적으로 매칭된 50개의 비PRC 대조군은 이 필터가 일반적 정치성이 아니라 주제 특정적(topic-specific)임을 보여줍니다.

주요 발견

L13에서 “이것이 PRC 콘텐츠인가” 신호를 제거하는 스티어링을 적용하면 다음이 관찰됩니다. 톈안먼 프롬프트는 회피에서 부분적 사실 응답으로 전환됩니다. 대만과 파룬궁 주제는 끈질기게 남아 9~17%의 낮은 전환율로 선전을 유지합니다. 홍콩 주제는 가장 쉽게 전환되어 86%가 선전에서 벗어났습니다.

추가 발견은 다음과 같습니다.

지식은 온전합니다. Qwen3.5-9B-Base는 민감 주제에 대해 정확한 서구식 답변을 생성하므로, 검열은 누락된 지식이 아니라 학습된 라우팅 동작입니다.

분류기는 부정확합니다. 작성 계층 방향은 구조적 패턴에 반응합니다. 코소보 질문은 하나의 중국 선전을 받고, 분신(self-immolation) 질문은 무해한 맥락에도 거부를 유발합니다. 즉 분류기는 “불리언이 아니라 등급적(graded, not Boolean)”입니다.

취약성도 드러납니다. 톈안먼 콘텐츠는 매니폴드 밖에서 부서지기 쉬워, 과도하게 스티어링하면 사실 대신 부인/작화(confabulation)를 생성하여 사건을 부정하는 학습된 템플릿을 노출합니다.

판독기는 분산되어 있습니다. 개별 판독 계층 개입(단일 헤드 제거, 특정 뉴런 0으로 설정)은 효과가 미미합니다. 판정은 판독 대역 전반에 중복적으로 인코딩되어 있습니다.

거부 신호를 제거하면 깔끔한 시그모이드 용량-반응 곡선과 함께 유해 콘텐츠 탈옥(jailbreak)이 발생합니다.

의미와 시사점

이 연구는 국가 단위 콘텐츠 필터링이 식별 가능하고 조종 가능한(steerable) 신경 회로를 만든다는 것을 보여줍니다. 지식은 지속되지만 행동 라우팅이 그것을 억제하는 구조입니다.

특히 이 발견은 “현재 가장 널리 배포된 형태의 국가 단위 LLM 검열”에 적용된다는 점에서 중요합니다. 이는 이론적 연습이 아니라 주류 사례를 다룬 것입니다. 모델 가중치에 새겨진 검열을 회로 수준에서 분리하고 인과적으로 조종할 수 있음을 입증함으로써, 메커니즘 해석이 모델의 정치적 편향과 검열을 진단하는 실질적 도구가 될 수 있음을 시사합니다.

결론

이 연구는 Qwen 3.5-9B 가중치에 새겨진 PRC 검열이 작성 계층(L11-L20)과 판독 계층(L20-L31)으로 구성된 식별 가능한 회로임을 밝혔습니다. 검열은 회피, 선전, 안전 거부, 사실 답변이라는 네 가지 학습된 레지스터로 나타나며, 지식은 온전하되 라우팅이 이를 억제합니다. 활성화 스티어링으로 인과성을 검증하고 1,056개 생성물에 대해 96.8% 일치율을 얻은 이 연구는, 국가 단위 LLM 검열이 회로 수준에서 분리·조종 가능함을 실증한 사례입니다.

Reference