포스트

심층 신경망 지속 학습의 순서 변수와 상전이 - 망각을 예측하는 통계역학 이론

목차

  1. 개요
  2. 방법론
  3. 주요 결과
  4. 한계와 주의사항
  5. 결론
  6. Reference

개요

이 논문은 Harvard University의 Haozhe Shan, Qianyi Li, Haim Sompolinsky가 PNAS 2026년 2월 6일자에 발표한 지속 학습(Continual Learning, CL) 이론 연구입니다. 지속 학습은 기존 지식을 지우지 않고 새 태스크를 학습하는 능력으로, AI의 가장 큰 난제 중 하나입니다.

인공 신경망은 파국적 망각(catastrophic forgetting) 때문에 CL에 취약합니다. 새 태스크를 학습하면 기존 정보가 덮어써져 이전 태스크 성능이 급격히 떨어지기 때문입니다. 망각을 완화하는 다양한 기법이 있지만, 신경망에서 CL이 언제 왜 실패하는지에 대한 이론적 통찰은 부족했습니다.

저자들은 깊고 넓은 신경망에서 CL의 통계역학(statistical-mechanics) 이론을 제시합니다. 이 이론은 태스크 관계와 신경망 구조가 망각과 순행 간섭(anterograde interference)에 미치는 영향을 포착하는 순서 변수(Order Parameters, OPs)를 도출합니다. 가장 인상적인 발견은 순서 변수에 따라 망각 능력이 급격히 변하는 일련의 상전이(phase transition)를 식별했다는 점입니다.

방법론

CL의 깁스 프레임워크

연구는 태스크 기반 CL 설정을 다룹니다. 신경망이 동일한 크기의 학습 데이터셋 D_1, …, D_T로 표현되는 T개의 태스크를 순차적으로 학습합니다. 태스크 t를 학습할 때는 D_t에만 접근하고 다른 데이터셋에는 접근하지 않습니다.

비용 함수는 세 항으로 구성됩니다.

1
2
3
E(Θt | Θt-1, Dt) = (1/2) Σ ( ft(x^μ_t) - y^μ_t )^2
                 + (1/2) β^(-1) σ^(-2) ||Θt||^2
                 + (1/2) β^(-1) λ ||Θt - Θt-1||^2

첫째 항은 데이터셋에 대한 오차, 둘째 항은 작은 가중치를 선호하는 L2 정규화, 셋째 항은 이전 가중치 Θt-1로부터의 변화를 억제하는 섭동 페널티(perturbation penalty)입니다. 이 섭동 페널티가 망각을 완화하는 자연스러운 전략입니다. λ는 섭동 페널티의 강도를 조절하며, λ → ∞이면 데이터를 보간하기 위한 최소한의 가중치 변화만 허용합니다.

학습은 각 단계에서 Θt-1에 조건화된 Θt의 사후 분포로 모델링됩니다. 연구는 과매개화된 신경망의 β → ∞ 극한에 집중합니다.

태스크 관계 순서 변수

단일 헤드(single-head) CL은 모든 태스크가 readout을 공유하는 구조입니다. 두 태스크를 학습한 뒤 첫 태스크 학습 데이터에 대한 단기 망각 F_2,1은 단순한 형태를 가집니다.

1
F_2,1 = 2 ( γ_RF - γ_rule )

여기서 세 가지 순서 변수가 정의됩니다.

순서 변수의미
γ_feature입력 특징 부분공간 간 중첩 정도, 목표 출력과 무관
γ_RF관련 특징 유사도(relevant-feature similarity), 규칙 벡터가 공유 특징 부분공간에 투영되는 정도
γ_rule규칙 유사도(rule similarity), 두 태스크 규칙 벡터 간 유사도

핵심 통찰은 γ_RF - γ_rule이 두 태스크 사이의 “갈등(conflict)”으로서 단기 망각을 직접 측정한다는 것입니다. 갈등이 작아지는 두 가지 경우가 있습니다. 첫째는 γ_RF와 γ_rule이 모두 크고 값이 가까울 때로, 태스크들이 비슷한 관련 특징과 비슷한 규칙을 가진 경우입니다. 둘째는 두 순서 변수가 모두 작을 때로, 태스크들이 다른 관련 특징과 다른 규칙을 가진 경우입니다. 반대로 관련 특징은 많이 공유하지만(높은 γ_RF) 규칙이 다르면(낮은 γ_rule) 갈등이 큽니다.

주요 결과

단일 헤드 CL과 깊이의 효과

저자들은 CIFAR-100 등에서 입력 분포와 규칙을 매개변수로 제어하는 “타깃-디스트랙터(target-distractor)” 태스크 시퀀스를 구성했습니다. ρ_shared, ρ_target, ρ_flip 세 매개변수를 변화시켜 세 순서 변수의 전 범위를 탐색했습니다.

결과는 다음을 보였습니다. 단기 망각 F_2,1은 갈등으로 정확히 예측되며 γ_feature와 무관합니다. 장기 망각은 지수 완화 과정 F_t,1 ≈ F_max(1 - e^(-(t-1)/τ_F))으로 근사되며, 시간상수 τ_F와 점근값 F_max로 특성화됩니다. τ_F는 주로 γ_RF에 의존하며, 비슷한 태스크(높은 γ_RF, γ_rule)일수록 망각이 빨리 누적되어 정체됩니다. 이는 입력 특징만 포함하는 태스크 관계 지표(γ_feature)는 CL 성능 예측에 유용하지 않음을 시사합니다.

깊이 L의 효과는 흥미롭습니다. MNIST, EMNIST, Fashion-MNIST, CIFAR-100 벤치마크에서 깊이가 깊어질수록 단기 망각 F_2,1은 단조 감소합니다. 하지만 동시에 τ_F가 증가하여 장기적으로는 망각이 더 오래 누적됩니다. 이 상반된 효과 때문에 F_max는 깊이에 따라 크게 변하지 않으며, F_max가 최소가 되는 최적 깊이가 존재할 수 있습니다.

멀티 헤드 CL의 상전이

멀티 헤드(multihead) CL은 태스크별 전용 readout을 사용하는 구조입니다. 공유 은닉층 가중치를 수정하면서 새 태스크별 readout을 추가하고, 이전 readout은 그대로 둡니다. 연구는 P, N → ∞이고 부하 α ≡ P/N ~ O(1)인 열역학 극한에서 분석했습니다.

이 구조에서 세 가지 뚜렷한 영역(regime)이 나타납니다.

영역조건특징
고정 표현(FR)α 1 미만F_2,1 = 0, 태스크 관계와 무관하게 망각 없음
과적합(OF)1과 α_c 사이F_2,1 = 0이지만 G_2,2 발산, 새 태스크 일반화 실패
일반화(G)α_c 초과F_2,1과 G_2,2 모두 적당히 유한

가장 놀라운 발견은 과적합 영역에서 일어나는 “파국적 순행 간섭(catastrophic anterograde interference)”입니다. 이 영역에서 신경망은 이전 태스크를 완벽히 유지하고 새 학습 데이터를 완벽히 보간하지만, 새 학습을 전혀 일반화하지 못합니다.

과적합 영역과 일반화 영역의 경계 α_c는 새로운 태스크 유사도 순서 변수 γ_sim으로 결정됩니다.

1
2
γ_sim = γ_feature + cos(V1, V2) - V1^T P2 V1 / ||V1||^2
α_c = γ_sim^(-2)

γ_sim은 [-1, 1] 범위이며, 동일한 태스크는 1, 입력 특징은 같지만 규칙이 반대인 갈등 태스크는 -1입니다. 태스크가 비슷할수록(높은 γ_sim) α_c가 작아 일반화 영역이 넓고, 다를수록 일반화 영역이 좁아집니다. γ_sim이 0 미만이면 α_c = ∞로 항상 과적합 영역에 머뭅니다. 이 예측은 permuted MNIST와 split MNIST 벤치마크에서 정확히 검증되었습니다(예: γ_sim = 0.81일 때 α_c = 1.51, γ_sim = 0.56일 때 α_c = 3.19).

유한한 λ로 이 trade-off를 조절할 수 있습니다. λ를 낮추면 첫 태스크를 더 망각하지만 새 태스크 간섭이 약해집니다. 두 태스크의 정규화 테스트 손실 최댓값 max(G_2,1, G_2,2)을 최소화하는 유한한 최적 λ가 존재합니다.

한계와 주의사항

저자들은 여러 확장 방향과 한계를 인정합니다. 깁스 프레임워크는 모든 가중치에 균일한 섭동 페널티를 가정하지만, 실제 정규화 기반 CL 기법은 가중치별 중요도에 따라 다른 페널티를 적용합니다. 또한 태스크가 대칭적이고 긴 시퀀스에서 유사한 쌍별 관계를 가진다고 가정하여, 태스크 순서(ordering) 효과는 포착하지 못합니다. 멀티 헤드 방식은 뇌의 CL로는 덜 현실적이며, 게이팅(gating)이나 태스크 정체성 임베딩 같은 다른 메커니즘으로의 확장이 향후 과제입니다.

결론

이 연구는 깊고 넓은 신경망의 지속 학습을 통계역학으로 분석하여, 망각을 예측하는 스칼라 순서 변수들을 식별했습니다. 단일 헤드 CL에서는 갈등 γ_RF - γ_rule이 단기 망각을 직접 결정하며, γ_feature는 망각과 약하게만 관련됩니다. 멀티 헤드 CL에서는 태스크 유사도 γ_sim과 부하 α가 만드는 상전이가 존재하며, 충분히 다른 태스크는 망각은 없지만 일반화에 실패하는 파국적 순행 간섭에 빠집니다. 깊이와 너비 증가가 망각을 완화한다는 발견은 더 큰 신경망에서 망각이 덜하다는 경험적 보고와 일치하며, 뇌의 지속 학습 메커니즘에 대한 이론적 통찰도 제공합니다.

Reference