GPU 13
- GLM-5 Scaling Pain: PD 분리 KV 캐시 race, HiCache 동기화 누락, LayerSplit가 풀어낸 코딩 에이전트 서빙의 진짜 병목
- vLLM Recipes 개편: 모델과 하드웨어 조합을 한 줄 명령어로
- DeepSeek-V4-Pro 공개 - 1.6T MoE, 49B 활성 파라미터, 1M 컨텍스트, FP4/FP8 혼합 정밀도
- Google LiteRT-LM: 엣지 디바이스용 고성능 온디바이스 LLM 추론 프레임워크
- NVIDIA·MIT TriAttention, KV 캐시 메모리를 10배 줄이다
- LM Studio CLI로 Google Gemma 4 로컬 실행: M4 Pro에서 51 tok/s 달성
- Ollama, Apple Silicon에서 MLX 기반 구동 프리뷰 - 최대 2배 성능 향상
- Google TurboQuant - 극한 압축으로 AI 효율성을 재정의하는 양자화 알고리듬
- llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아주는 터미널 도구
- CanIRun.ai - 내 컴퓨터에서 실행 가능한 AI 모델을 확인하는 도구
- vLLM Sleep Mode - 단일 GPU에서 다중 모델 전환을 위한 제로 리로드 솔루션
- NVIDIA Driver 및 Container Toolkit 설치 가이드
- Pytorch GPU를 설정하는 방법