vLLM 5 Qwen3-Coder-Next - 80B 파라미터 중 3B만 활성화하는 초희소 코딩 에이전트 모델 2026/02/06 vLLM Sleep Mode - 단일 GPU에서 다중 모델 전환을 위한 제로 리로드 솔루션 2026/01/30 Inferact - vLLM 상용화 스타트업, 1.5억 달러 시드 투자 유치 2026/01/29 vLLM Custom Logits Processors로 특정 언어 토큰 차단하기 2026/01/11 LLM 서빙 환경 구축하기 + 모니터링 2025/10/04