포스트

Model Merging Scaling Laws — 10,506개 병합 실험으로 도출한 LLM 병합 스케일링 법칙

목차

  1. 개요
  2. 통합된 스케일링 법칙
  3. 실험 설계
  4. 핵심 결과
  5. 이론적 기여
  6. 실용 응용
  7. 멀티태스크 학습과의 비교
  8. 한계와 결론
  9. Reference

개요

논문 “Model Merging Scaling Laws in Large Language Models”는 LLM 모델 병합(merging)에 대한 경험적 스케일링 법칙을 제안한다. 저자는 The Hong Kong Polytechnic University, InfiX.ai, Amazon 소속의 Yuanyi Wang 외 8인이다. 연구는 모델 크기 N과 병합되는 전문가 모델 수 k 사이의 관계를 cross-entropy 손실로 측정하고, 이를 하나의 닫힌 식으로 묶어낸다.

핵심 메시지는 단순하다. 큰 기본 모델은 병합이 더 쉽고, 전문가 수는 늘려봐야 k≈5~6 근처에서 대부분 이득이 끝난다. 병합 방법(Average, TA, TIES, DARE) 사이의 차이는 k가 커질수록 사라진다.

통합된 스케일링 법칙

논문이 제안하는 통합 법칙은 다음 형태다.

E[LN,k] = L∞(N) + A(N) / (k+b)

여기서

  • L∞(N) = L* + B · N^(-β) — 모델 크기에 따른 손실의 바닥값
  • A(N) = A₀ · N^(-γ) — 꼬리의 진폭
  • N: 모델 크기, k: 전문가 수
  • β, γ > 0; b ≥ 0

법칙은 두 개의 요소로 나뉜다. 모델 크기에 따라 결정되는 “floor”는 모델이 커질수록 낮아진다. 그리고 전문가 수에 따라 결정되는 “tail”은 한계효용이 빠르게 떨어진다.

실험 설계

항목
병합 실험 수10,506개
모델 크기 범위0.5B에서 72B
평가 도메인 수9개
비교 병합 방법Average, Task Arithmetic, TIES, DARE

도메인은 Algebra, Analysis, Discrete Math, Geometry, Number Theory, Code, Chemistry, Physics, Biology의 9개로 구성된다. 이렇게 큰 실험 표본은 결론에 통계적 무게를 더한다.

핵심 결과

모델 크기 효과

큰 모델일수록 두 가지 측면에서 유리하다. 첫째, 손실의 바닥값 자체가 더 낮다. 둘째, 그 바닥값에 도달하는 속도도 더 빠르다. 같은 전문가 수를 병합해도 더 낮은 손실을 얻고, 목표 수준에 가까워지는 데 필요한 전문가 수도 줄어든다.

모델 크기k=9에서 도메인 평균 cross-entropy
0.5B0.739
32B0.430
감소율약 41.9%

전문가 수의 한계효용

전문가 수 k에 따른 이득은 1/(k+b) 형태의 한계효용 곡선을 그린다. 실제 측정에서 median 곡선은 k=5에서 개선의 85%, k=6에서 90%에 도달한다. 즉 9명짜리 전문가 풀의 약 60%만 사용해도 가능한 개선의 90% 이상을 확보할 수 있다는 의미다. 도메인별 차이도 있다. 수학 계열은 더 일찍 포화하고, 과학 계열은 좀 더 늦게 포화한다.

병합 방법 간 차이의 소멸

전문가 수가 적을 때는 TIES와 Task Arithmetic이 Average보다 1~2% 정도 앞선다. 하지만 k≥8, N=32B 구간에서는 네 방법 사이의 차이가 약 2% 수준으로 좁혀진다. 분산은 약 1/k 비율로 줄어들고, 표준편차는 1/√k 비율로 감소한다. 즉 결국 어떤 병합 규칙을 쓰느냐보다, 전문가 수가 늘어날 때 손실이 어떤 곡선으로 줄어드는지가 더 큰 영향을 준다.

이론적 기여

논문의 Theorem 1은 동일 가중치(equal-weight) 결합 가정 아래에서 평균 손실의 결합 법칙을 유도한다.

E[LN,k] = L(θ₀) + c · gᵀ μ + ½ c² μᵀ H μ + ½ c² Tr(H Σ) · (1/k) + O(k^(-3/2))

여기서 H는 기본 모델의 곡률(curvature)이고, μ와 Σ는 태스크 벡터의 통계량이다. Corollary 1은 Var(L) = Θ(1/k) 형태의 분산 축소를 보이며, 실험에서 관찰되는 분산 감소율과 부합한다.

실용 응용

세 점만으로 곡선 예측

k ∈ {1, 2, 4}만 측정해도 k=1부터 k=9까지의 곡선을 꽤 정확히 예측할 수 있다. 중앙값 기준 절대 백분율 오차가 약 5~6% 수준으로 보고된다. 실험 예산을 잡거나, 어느 시점에서 병합을 멈출지 결정할 때 유용하다.

Merge 순서 민감도

병합 순서에 따른 영향은 k가 커질수록 빠르게 사라진다. k=1에서 k=8로 갈 때 순서별 손실의 박스플롯 휘스커 길이가 약 83% 감소한다. k≥6 구간에서 순서 변동은 방법 차이와 floor에 비해 무시 가능한 수준이 된다.

Cross-Backbone 전이

LLaMA-3.2 (3B)와 LLaMA-3 (8B)는 같은 스케일링 법칙 형태와 같은 한계효용 곡선을 따른다. 즉 백본 아키텍처가 달라도 법칙의 형태는 유지된다는 일반성을 보인다.

또 후보 풀 크기를 M=9에서 M=7로 줄여도 법칙은 안정적으로 유지된다. 변화의 영향은 주로 tail의 진폭에 나타나고, floor 자체는 거의 이동하지 않는다.

멀티태스크 학습과의 비교

병합은 multitask SFT의 성능에 근접하면서도 GPU 시간을 거의 쓰지 않는다는 점이 강점이다. k와 N이 함께 커질수록 방법 간 격차가 좁혀지므로, 결국 좋은 전문가 모델 몇 개를 확보하는 것이 핵심이 된다. “포괄적인 공동 학습에 대한 계산 효율적 대안”이라는 위치가 이 논문이 제안하는 병합의 자리다.

한계와 결론

논문은 다음 한계를 명시한다.

  • 분석은 cross-entropy와 동일 가중치 결합에 집중되어 있으며, 다른 목적함수나 적응적 가중치는 후속 과제
  • 다양한 데이터셋, 방법, 백본에서 견고하지만, 극단적 스케일, 다른 모달리티, 다운스트림 지표(견고성, 안전성, 보정 등)에 대한 추가 연구가 필요
  • floor와 tail 파라미터를 도메인 속성과 연결하는 이론적 정교화는 향후 강화 여지

결론적으로 이 논문은 모델 병합을 “주로 경험적”인 영역에서 “계산 효율적이고 계획 가능한 대안”으로 옮긴다. 실무자에게는 예산 기반 의사결정 레시피가 손에 잡힌다. 목표 손실에 도달하기 위해 몇 명의 전문가가 필요한지 추정하고, 어디서 전문가 추가를 멈출지 결정하며, 기본 모델 스케일링과 전문가 결합 중 어느 쪽에 자원을 더 쓸지 비교할 수 있게 된다.

다만 이 법칙이 예측하는 대상은 다운스트림 벤치마크 정확도가 아니라 cross-entropy 손실 곡선이라는 점을 잊지 말아야 한다. 다운스트림 성능은 cross-entropy보다 더 빨리 정체될 수 있다는 점이 논문 안에서도 명시되어 있다.

Reference