Instruction Residuals: 지속 사전학습과 명령어 파인튜닝의 균형

게시 2026/06/29 업데이트 2026/07/01

By Juho

12 분읽는 시간

개요

LLM은 두 가지 상충하는 요구를 동시에 만족해야 한다. 하나는 최신 정보를 반영하기 위한 지속 사전학습(continuous pre-training)이고, 다른 하나는 사람의 의도에 맞춰 응답하도록 만드는 명령어 파인튜닝(instruction fine-tuning)이다. 삼성 연구진이 발표한 이 논문은 새로운 지식을 모델에 주입할 때 명령어 수행 능력을 어떻게 보존할 것인가라는 실무적 문제를 다룬다.

논문은 세 가지 핵심 질문을 던진다. 지속 사전학습 과정에서 명령어 수행 능력은 어떻게 변하는가. 손실된 능력은 어떻게 회복할 수 있는가. 그리고 지식 업데이트 이후에 자원 소모가 큰 명령어 파인튜닝을 반드시 다시 수행해야 하는가.

핵심 발견은 “명령어 수행 능력이 동일한 조상(ancestor) 모델 사이에서 이식 가능하다”는 점이다. 이를 통해 비용이 큰 재파인튜닝 없이도 지식 업데이트가 가능하다는 것을 보였다.

방법론

두 가지 업데이트 설정

논문은 모델에 새 지식을 주입하는 두 가지 경로를 비교한다.

설정	절차	특징
Setting 1 (S1)	명령어 튜닝된 모델을 직접 지속 사전학습	비용은 낮지만 명령어 능력 손상 발생
Setting 2 (S2)	베이스 모델을 먼저 지속 사전학습한 뒤 다시 명령어 파인튜닝	지식과 명령어 능력을 모두 보존

S1은 저렴하지만 명령어 수행 능력의 망각(catastrophic forgetting)이 발생한다. S2는 두 능력을 모두 지킬 수 있으나, 매 지식 업데이트마다 명령어 파인튜닝을 반복해야 하는 비용 문제가 있다.

Instruction Residuals 기법

이 논문의 핵심 기여는 두 모델의 가중치 차이를 이용해 명령어 능력만 추출하는 기법이다. 명령어 튜닝된 모델의 가중치에서 베이스 모델의 가중치를 빼면, 명령어 수행 능력에 해당하는 성분(residual)을 얻을 수 있다.

수식 개념으로는 다음과 같이 표현된다. Θr(v1) = θid1(v1) − θbd1, 즉 명령어 모델 가중치에서 베이스 모델 가중치를 빼서 instruction residual을 구한다. 이렇게 얻은 residual은 새 지식으로 지속 사전학습된 베이스 모델에 다시 더할 수 있다. θid1d2(v1) = θbd1d2 ⊕ Θr(v1) 형태로, 지속 사전학습된 베이스 모델에 residual을 더해 명령어 능력을 복원한다.

이 접근은 LoRA와 같은 파라미터 효율적 파인튜닝(parameter efficient fine-tuning)에서 영감을 받았다. 가중치 산술 연산만으로 명령어 능력을 옮기기 때문에 값비싼 재학습을 피할 수 있다.

실험 셋업

실험에 사용한 모델과 데이터는 다음과 같다.

항목	내용
모델	LLaMa 3, LLaMa 3.1 (8B), Qwen 2 및 Qwen 2.5 (0.5B, 1.5B, 7B)
사전학습 데이터	2023년 12월부터 2024년 9월까지 수집한 뉴스 기사 200만 건
데이터 특성	기사 평균 길이 약 650 토큰, 4096 시퀀스 길이로 패킹
토큰 규모	100M, 500M, 1B 토큰 세 가지 변형

평가 벤치마크는 능력 범주별로 다음과 같이 구성했다.

범주	벤치마크
명령어 수행	IFEval, MMLU, MMLU-Pro
추론	GSM8K, Winogrande, Hellaswag
지식	ARC-easy, Piqa
진실성	TruthfulQA-mc2

주요 결과

지속 사전학습의 영향

명령어 튜닝된 모델을 직접 지속 사전학습하면(S1) 명령어 수행 능력이 뚜렷하게 저하된다. LLaMa 3 베이스(L3b) 모델은 새 토큰을 학습해도 성능 저하가 미미했다. 반면 LLaMa 3 Instruct(L3i) 모델은 IFEval에서 큰 폭의 하락을 보였다.

조건	IFEval 변화
L3i + 100M 토큰	약 5.7 포인트 하락
L3i + 1B 토큰	약 10 포인트 하락

학습 토큰이 많아질수록 명령어 수행 능력의 손실이 커진다는 점이 확인된다. 이는 지식 업데이트를 명령어 모델에 직접 적용하는 방식이 위험하다는 것을 보여준다.

Residual 적용 효과와 이식성

지속 사전학습된 베이스 모델에 instruction residual을 더했을 때(L3b + 3Lr) 원래 명령어 모델보다 오히려 성능이 향상되었다.

조건	성능 변화
500M 토큰 + residual	원본 명령어 모델 대비 약 4 포인트 향상
1B 토큰 + residual	전 과제 평균 약 5 포인트 향상

더 흥미로운 결과는 서로 다른 버전 사이의 이식성이다. LLaMa 3.1의 residual을 LLaMa 3 베이스에 적용하자 원본 명령어 모델을 능가했다.

모델	평균 점수
LLaMa 3 Base	51.64
LLaMa 3 Instruct	62.94
LLaMa 3 Base + 3.1 Residuals	64.25

LLaMa 3.1의 더 높은 품질의 명령어 능력이 LLaMa 3 베이스로 옮겨가면서, 원본 명령어 모델 대비 약 1 포인트의 향상(62.94에서 64.25)이 나타났다. 즉 동일 조상을 공유하는 모델 사이에서는 더 우수한 명령어 능력을 가중치 연산만으로 가져올 수 있다.

파생 모델과 연산 효율

파생 모델인 Cerebras-DocChat(LLaMa 3 기반)에 residual을 적용한 결과도 일관되게 향상되었다.

조건	평균 점수
원본 DocChat	57.47
LLaMa 3 Residual 적용	62.14
LLaMa 3.1 Residual 적용	63.80

LLaMa 3 residual 적용 시 4.67 포인트, LLaMa 3.1 residual 적용 시 6.33 포인트의 절대 향상이 관찰되었다.

연산 효율 측면의 비교도 인상적이다. 100M 토큰 기준으로, 명령어 파인튜닝은 지속 사전학습 대비 약 2048배 더 많은 연산을 요구한다. 이는 여러 에폭에 걸친 2048억 토큰 대비 1억 토큰 수준의 차이에서 비롯된다. residual 기법은 이 막대한 명령어 파인튜닝 비용을 가중치 산술 연산으로 대체한다.

종합하면 주요 발견은 다음과 같다. 명령어 모델을 직접 지속 사전학습하면 망각이 발생하므로 피해야 한다. 베이스 모델을 지속 사전학습한 뒤 명령어 튜닝하는 방식은 두 능력을 모두 보존한다. 명령어 능력은 동일 조상 모델 사이에서 가중치 뺄셈과 덧셈으로 이식 가능하다. residual이 준비되어 있다면 지속 사전학습된 베이스 모델에 별도의 전통적 명령어 튜닝이 필요 없다.

한계와 주의사항

이 기법은 주로 8B 규모 모델에서 검증되었다. 1.5B 모델에서는 “성능에 눈에 띄는 변동(noticeable variation)”이 관찰되었다. 1.5B 미만의 소형 모델로의 확장성은 아직 불확실하다.

또한 이 방법은 베이스 모델과 명령어 튜닝 모델이 모두 확보되어 있어야 적용할 수 있다. 두 모델이 동일한 조상에서 파생되었다는 전제가 필요하므로, 이 조건을 만족하지 않는 경우에는 직접 적용이 어렵다.

결론

이 연구는 명령어 수행 능력을 가중치 차이의 형태로 추출하여 모델 사이에서 옮길 수 있음을 실증했다. 조직은 베이스 모델에 최신 지식을 주입한 뒤, 미리 계산해 둔 residual을 더하는 것만으로 빠르게 명령어 튜닝된 변형을 만들 수 있다. 이를 통해 매번 반복되는 비싼 재학습 사이클을 제거하면서도, 명령어 수행과 추론, 지식 과제 전반에서 성능을 유지하거나 오히려 개선할 수 있다. 지속 사전학습과 명령어 파인튜닝의 균형을 가중치 산술로 풀어낸 실용적인 접근이라는 점에서 의미가 크다.

Reference

Balancing Continuous Pre-Training and Instruction Fine-Tuning (arXiv:2410.10739)

LLM