vLLM 10
- Cohere Command A+ 공개: W4A4 양자화로 단일 GPU에서 돌아가는 218B MoE 모델
- TokenSpeed: 에이전트 워크로드를 위한 빛의 속도 LLM 추론 엔진
- DGX Spark에서 Qwen3.5-122B-A10B 추론 80% 가속: INT4+FP8 하이브리드와 MTP-2 투기적 디코딩
- vLLM Recipes 개편: 모델과 하드웨어 조합을 한 줄 명령어로
- LG EXAONE 4.5 33B: 한국어 특화 첫 오픈 비전-언어 모델
- Qwen3-Coder-Next - 80B 파라미터 중 3B만 활성화하는 초희소 코딩 에이전트 모델
- vLLM Sleep Mode - 단일 GPU에서 다중 모델 전환을 위한 제로 리로드 솔루션
- Inferact - vLLM 상용화 스타트업, 1.5억 달러 시드 투자 유치
- vLLM Custom Logits Processors로 특정 언어 토큰 차단하기
- LLM 서빙 환경 구축하기 + 모니터링