포스트

vLLM Recipes 개편: 모델과 하드웨어 조합을 한 줄 명령어로

목차

  1. 개요
  2. 배경
  3. 핵심 내용
  4. 의미와 시사점
  5. 결론
  6. Reference

개요

vLLM 프로젝트가 공식 레시피 사이트인 recipes.vllm.ai를 대대적으로 개편했습니다. 핵심은 “모델과 하드웨어 조합을 선택하면 바로 복사해서 실행할 수 있는 vllm serve 명령어를 얻는다”는 단순한 원칙입니다. 기존에는 문서를 뒤져 가며 양자화, 병렬화, 컨텍스트 길이 같은 플래그를 직접 맞춰야 했지만, 개편 이후에는 드롭다운 한 번으로 하드웨어별 설정을 즉시 받아올 수 있습니다.

배경

대규모 언어 모델의 추론 배포는 모델 크기, 하드웨어 세대, 메모리, 병렬화 전략, 양자화 포맷 등 변수가 복잡하게 얽혀 있습니다. 특히 DeepSeek-V4-Pro나 GLM-5.1처럼 수백 B 파라미터에 MoE 구조가 섞인 모델은 tensor-parallel, pipeline-parallel, expert-parallel 같은 옵션을 하드웨어 레이아웃에 맞게 세심하게 조합해야 제대로 동작합니다. vLLM Recipes는 이 조합 문제를 커뮤니티가 검증한 “레시피”로 정리하여, 시행착오 없이 프로덕션에 가까운 설정을 빠르게 재현할 수 있도록 만든 저장소입니다.

핵심 내용

지원 하드웨어와 모델

vLLM Recipes는 NVIDIA와 AMD의 최신 데이터센터 GPU를 폭넓게 지원합니다. 각 레시피는 특정 하드웨어에서 검증된 파라미터를 기준으로 작성되며, 동일 모델이라도 칩이 바뀌면 별도의 레시피로 분리되어 있습니다.

구분지원 하드웨어
NVIDIAH100, H200, H20-3e, B200, B300, Grace-Blackwell
AMDMI300X, MI325X, MI355X

대표 모델 레시피는 최신 공개 모델을 중심으로 빠르게 확장되고 있습니다. 1M 토큰 장문맥을 다루는 대형 MoE부터 단일 GPU에서 FP8로 돌릴 수 있는 멀티모달 모델까지 범위가 넓습니다.

모델파라미터 규모주요 특성
DeepSeek-V4-Pro1600B / 49B active1M 토큰 효율 장문맥 어텐션
Qwen3.6-27B27B멀티모달, 단일 GPU FP8 지원
Hy3-preview295B / 21B activeMoE, 8×H200 배포
GLM-5.1744B / 40B active추론 및 에이전트 워크로드 강화

개편된 주요 기능

개편된 사이트는 단순한 문서가 아니라, 설정 조립을 자동화하는 도구에 가깝습니다. 핵심 변화는 다음과 같습니다.

  • HuggingFace 미러 URL 선택 지원으로 지역별 다운로드 속도 문제를 회피할 수 있습니다.
  • 하드웨어와 병렬화 전략을 고르면 그 조합에 맞는 vllm serve 명령어가 즉시 생성됩니다.
  • NVIDIA와 AMD 레시피를 원클릭으로 전환하여 동일 모델을 서로 다른 칩에서 어떻게 돌리는지 비교할 수 있습니다.
  • 전체 레시피 데이터를 제공하는 JSON API가 함께 열려 자동화 파이프라인에서 프로그램적으로 조회할 수 있습니다.
  • 30개 이상의 모델 제공자를 다루며, FP8/BF16/Int4 양자화와 장문맥 윈도우 옵션이 모델별로 정리되어 있습니다.

사용 흐름

레시피 사이트의 설계 의도는 “모델을 선택하고, GPU에 맞게 조정한 뒤, vllm serve 명령어를 복사해 실행한다”는 3단계 흐름입니다. 실제 사용 흐름은 대략 다음과 같이 단순해집니다.

1
2
3
4
5
6
7
8
# 1. 레시피 사이트에서 모델과 하드웨어 조합을 고른다
#    예: DeepSeek-V4-Pro on 8xH200, tensor-parallel=8
# 2. 생성된 명령어를 복사해 서버에서 그대로 실행한다
vllm serve deepseek-ai/DeepSeek-V4-Pro \
    --tensor-parallel-size 8 \
    --max-model-len 1048576 \
    --quantization fp8 \
    --enable-expert-parallel

커뮤니티는 새로운 모델이 공개될 때마다 에이전트 스킬을 활용해 레시피를 기여할 수 있으며, 이를 통해 신규 모델이 사이트에 반영되는 속도가 빨라지고 있습니다.

의미와 시사점

레시피 사이트 개편의 본질은 “배포 지식의 표준화”입니다. 같은 모델이라도 엔지니어마다 서로 다른 플래그 조합으로 돌리던 관행에서 벗어나, 공개된 레시피를 기준점으로 삼고 거기서 벗어나는 차이만 자기 환경에 맞게 튜닝하는 흐름으로 이동하게 됩니다.

JSON API가 열렸다는 점도 실무적으로 중요합니다. Kubernetes 오퍼레이터, Terraform 모듈, 사내 모델 카탈로그 같은 자동화 도구에서 레시피를 프로그램적으로 소비할 수 있게 되면서, 배포 파이프라인에 최신 vLLM 권장 설정을 자동으로 반영할 수 있는 길이 열립니다.

다만 현재 레시피가 커버하지 못하는 모델이 여전히 많다는 점은 한계입니다. 커뮤니티 기여 모델이기 때문에 최신 모델이 들어오기까지 시차가 존재하고, 특수한 워크로드(초저지연, 멀티테넌시, 긴 출력 생성)에는 여전히 레시피를 기반으로 추가 튜닝이 필요합니다.

결론

vLLM Recipes 개편은 “모델을 돌릴 수 있다”와 “모델을 잘 돌릴 수 있다” 사이의 거리를 줄여 주는 업데이트입니다. 최신 대형 모델과 최신 GPU를 다루는 팀이라면 자체 문서를 만들기 전에 공식 레시피를 기준선으로 먼저 확인하는 것이 합리적인 시작점이 됩니다. JSON API와 커뮤니티 기여 구조가 자리를 잡으면, 앞으로 vLLM 배포의 기본 출발점은 레시피 사이트가 될 가능성이 높습니다.

Reference