포스트

LLM 신경해부학: 가중치 변경 없이 중간 레이어 복제로 리더보드 1위 달성

목차

  1. 개요
  2. 배경: 두 가지 이상한 관찰
  3. 실험 방법
  4. 주요 결과
  5. 신경해부학 이론
  6. 의미와 시사점
  7. 결론
  8. Reference

개요

David Noel Ng가 Qwen2-72B 모델의 중간 레이어 7개를 단순 복제하여 HuggingFace Open LLM 리더보드 1위를 달성했습니다. 가중치 수정이나 그래디언트 계산 없이 아키텍처만 변경한 획기적인 방법입니다. 파라미터는 72B에서 약 78B로 증가했지만 신규 가중치는 0개이며, MATH 레벨 5에서 8.16%, MuSR 벤치마크에서 17.72% 성능이 향상되었습니다.

배경: 두 가지 이상한 관찰

Base64를 통한 채팅

모델이 Base64로 인코딩된 질문을 이해하고 답변을 Base64로 재인코딩하는 능력이 발견되었습니다. 이는 초기 레이어가 입력을 “추상적 표현”으로 번역하고, 후기 레이어가 이를 다시 번역한다는 것을 시사합니다. 즉, 모델 내부에서 인코딩과 디코딩이 분리되어 작동하고 있었습니다.

Goliath 모델의 이상 현상

기존 70B 모델 두 개의 레이어를 교대로 배치한 Goliath-120B 모델이 정상적으로 작동한다는 사실이 발견되었습니다. 이는 레이어들이 예상보다 훨씬 더 상호 호환 가능하다는 것을 의미합니다. 이 두 관찰에서 “초반 레이어는 인코딩, 후반 레이어는 디코딩, 중간은 순수 추론”이라는 가설이 도출되었습니다.

실험 방법

뇌 스캔 시스템 구축

RTX 4090 2장으로 80개 레이어 중 특정 구간(i, j)을 두 번 통과하도록 하는 방식으로 3,241가지 조합을 전수 조사했습니다.

구성 (i, j)는 레이어 0부터 j-1을 실행한 후, 레이어 i부터 j-1을 다시 한 번 실행하는 방식입니다.

1
2
3
4
예: (2, 7)일 때 9개 레이어 모델
0 → 1 → 2 → 3 → 4 → 5 → 6 ─┐
                  ┌─────────┘
                  └→ 2 → 3 → 4 → 5 → 6 → 7 → 8

평가 지표 개발

두 가지 탐사 도구를 개발하여 성능을 측정했습니다.

수학 문제 탐사기는 “74,088,893,247의 세제곱근은?”과 같은 어려운 산술 문제로 직관적 사고를 측정했습니다. 부분 점수 시스템으로 거의 맞은 답변도 인정하는 방식입니다.

감정지능(EQ) 탐사기는 “주어진 상황에서 이 사람이 얼마나 화날까(0-100)?”와 같은 사회적 추론 문제를 사용했습니다.

주요 결과

회로 구조의 발견

실험에서 세 가지 중요한 패턴이 발견되었습니다.

단일 레이어 반복은 비효과적이었습니다. 오히려 성능이 저하되는 결과를 보였습니다.

반면 여러 레이어 묶음 반복은 효과적이었습니다. 특정 구간에서 유의미한 성능 향상이 관찰되었습니다.

또한 기능별 분화가 확인되었습니다. 수학 회로와 EQ 회로가 서로 다른 레이어 위치에 존재하며, 각각 독립적으로 작동합니다.

RYS-XLarge 성능

Qwen2-72B에 대한 최적 구성은 (45, 52)로, 7개 레이어를 복제했습니다.

지표개선도
MATH Lvl 5+8.16%
MuSR+17.72%
평균+2.61%
리더보드 순위1위

6개 주요 벤치마크 중 5개에서 개선을 달성했습니다.

후속으로 MaziyarPanahi와 dfurman이 RYS 기반으로 미세 조정하여 더 높은 점수를 기록했습니다. calme-3.2-instruct-78b는 52.08점, calme-3.1-instruct-78b는 51.29점을 달성했습니다.

신경해부학 이론

David은 이를 “LLM Neuroanatomy”라 명명했습니다. 트랜스포머가 학습 과정에서 기능적으로 분화된 내부 구조를 자동으로 형성한다는 증거입니다.

발견된 패턴은 다음과 같은 기능적 회로 구조를 시사합니다.

초기 레이어는 입력 인코딩을 담당합니다. 중간 레이어는 다중 단계 추론 회로로, 분해 불가능한 단위입니다. 후기 레이어는 출력 디코딩을 수행합니다.

단일 레이어 복제는 효과가 없었지만, 완전한 회로 블록 복제는 효과적이었다는 점이 이 이론의 핵심 근거입니다.

의미와 시사점

이 방법의 핵심 통찰은 “모델이 무엇을 알고 있는지가 아니라 어떻게 생각하는지를 변경한다”는 것입니다. 새로운 정보를 추가하지 않고 내부 추론 공간의 반복을 증가시키는 방식입니다.

모델 크기에 따른 기능 분화 정도에도 차이가 있습니다. 소규모 모델에서는 기능이 복잡하게 얽혀 있지만, 대규모 모델은 더 명확한 구조를 가집니다. 이는 대규모 모델일수록 이 기법의 효과가 더 클 수 있음을 시사합니다.

결론

RYS 기법은 기존 LLM의 성능을 가중치 변경 없이 향상시킬 수 있는 혁신적인 접근법입니다. 트랜스포머 내부의 기능적 회로 구조를 이해하고 활용함으로써, 추가 학습 없이도 추론 능력을 강화할 수 있음을 증명했습니다. 이는 향후 LLM 아키텍처 설계와 최적화에 새로운 방향을 제시합니다.

Reference