포스트

TTL Tech Note — 지식 증류와 LLM 사이즈 선택, 14B/32B/70B의 실전 기준

목차

  1. 개요
  2. 네 가지 지식 증류 방법
  3. VRAM 현실 점검
  4. TTL 맞고 사례 — 14B로 충분한 이유
  5. 하이브리드 아키텍처
  6. 결론
  7. Reference

개요

TTL Tech Note No. 001은 지식 증류 기법과 LLM 크기 선택을 다룬다. 저자가 풀고자 하는 질문은 단순하다. 도메인 특화 응용에서 14B, 32B, 70B 중 어디까지 가야 충분한가. 이 글은 같은 질문을 둘러싼 흔한 오해를 정리하고, “TTL 맞고”라는 한국식 화투 코칭 AI를 실험 대상으로 삼아 결론을 짓는다.

네 가지 지식 증류 방법

증류는 큰 교사 모델의 능력을 작은 학생 모델로 옮기는 작업이다. TTL Tech Note는 이를 네 가지로 분류한다.

Logit Distillation

학생이 교사의 토큰 확률 분포를 그대로 흉내내는 방식이다. 가장 전통적인 형태이며, 어휘별 확률 차이를 손실로 사용한다.

Sequence-Level

교사가 만들어낸 문장 자체를 학생의 학습 데이터로 사용한다. 확률 분포 대신 생성된 텍스트를 그대로 따라 학습한다.

Reasoning / CoT

교사의 사고 과정을 학습 신호로 활용한다. DeepSeek-R1이 이 방식을 두드러지게 사용한 사례로 거론된다. 정답뿐 아니라 정답에 이르는 추론 경로를 학생에게 옮기는 형태다.

Reinforcement Learning

교사가 학생의 응답을 평가하고 교정한다. 정적 데이터셋이 아니라 교사-학생 상호작용을 통한 학습으로, 학생의 약점을 표적화해서 보완한다.

VRAM 현실 점검

모델 크기 선택을 좌우하는 가장 강한 제약은 하드웨어다. 저자는 단일 카드 운용 기준으로 다음과 같이 정리한다.

모델 크기단일 카드 운용
14BRTX 4090(24GB)에서 무리 없이 동작
32B양자화 적용 필요
70B단일 카드 배포가 비용적으로 부담스러움

여기서 도출되는 결론은 직접적이다. 70B 모델의 학습/추론 비용을 정당화하려면, 그 비용을 상쇄할 만한 도메인 성능 격차가 있어야 한다.

TTL 맞고 사례 — 14B로 충분한 이유

화투 코칭은 정답 자체가 규칙 기반 솔버(MCTS 등)로 결정될 수 있는 문제다. 즉 “어떤 패가 최선인가”는 LLM이 추론할 필요가 없다. LLM의 역할은 그 결정을 자연어로 설명하고 사용자와 상호작용하는 것이다.

이런 구조에서 모델 크기 확장은 빠르게 한계 효용에 부딪힌다. 14B로도 자연어 설명 품질은 충분하고, 32B에서 70B로 확장하는 데 드는 비용은 코칭 시나리오의 실제 사용자 경험 향상으로 거의 이어지지 않는다. 결과적으로 도메인 응용에서는 70B 스케일링이 “diminishing returns”에 빠진다.

하이브리드 아키텍처

저자가 제안하는 구조는 단순하다. “MCTS 솔버가 최적 수를 결정하고, LLM은 이를 자연어로 설명한다.”

컴포넌트역할
MCTS 솔버최적의 수 결정
LLM결정에 대한 자연어 설명, 사용자 인터랙션

이 구조의 함의는 도메인 일반으로 확장 가능하다. 정답이 규칙 기반으로 정해질 수 있는 영역에서는 작은 LLM과 외부 솔버의 결합이 거대 모델 단일 사용보다 효율적이다.

결론

이 글은 두 가지를 동시에 정리한다. 첫째, 지식 증류에는 logit, sequence-level, reasoning/CoT, RL이라는 네 가지 방향이 존재한다. 둘째, 도메인 응용에서 LLM 크기를 결정할 때는 하드웨어 비용과 한계 효용을 같이 봐야 한다.

화투 코칭 같은 영역에서는 14B로도 사용자 경험이 충분하며, MCTS 같은 외부 솔버와의 하이브리드 구조가 70B 단일 모델보다 더 합리적인 선택지일 수 있다. 모델 크기가 아니라 문제 분해 방식이 답을 정한다는 점이 이 글의 본질이다.

Reference