GPU 24
- Qwen-VLA: 작업·환경·로봇 형태를 통합하는 비전-언어-행동 모델
- Earth2Studio: NVIDIA의 AI 기반 날씨·기후 모델링 통합 프레임워크
- TurboQuant 완전 정리 - 이론 최적에 근접한 KV 캐시·벡터 검색 양자화와 vLLM 실측
- Lance - 다중 태스크 시너지로 만든 ByteDance의 경량 통합 멀티모달 모델
- Slot-MPC - 객체 중심 표현과 그래디언트 기반 MPC로 푸는 시각 계획
- TTL Tech Note — 지식 증류와 LLM 사이즈 선택, 14B/32B/70B의 실전 기준
- NVIDIA AnyFlow - 추론 단계 수에 자유로운 14B 비디오 디퓨전 모델
- TokenSpeed: 에이전트 워크로드를 위한 빛의 속도 LLM 추론 엔진
- DGX Spark에서 Qwen3.5-122B-A10B 추론 80% 가속: INT4+FP8 하이브리드와 MTP-2 투기적 디코딩
- Gemma 4 Multi-Token Prediction - 품질 손실 없이 최대 3배 추론 가속
- ECE7115, 인하대 Multimodal VLM 강의가 Stanford CS336을 따라가는 법
- GLM-5 Scaling Pain: PD 분리 KV 캐시 race, HiCache 동기화 누락, LayerSplit가 풀어낸 코딩 에이전트 서빙의 진짜 병목
- vLLM Recipes 개편: 모델과 하드웨어 조합을 한 줄 명령어로
- DeepSeek-V4-Pro 공개 - 1.6T MoE, 49B 활성 파라미터, 1M 컨텍스트, FP4/FP8 혼합 정밀도
- Google LiteRT-LM: 엣지 디바이스용 고성능 온디바이스 LLM 추론 프레임워크
- NVIDIA·MIT TriAttention, KV 캐시 메모리를 10배 줄이다
- LM Studio CLI로 Google Gemma 4 로컬 실행: M4 Pro에서 51 tok/s 달성
- Ollama, Apple Silicon에서 MLX 기반 구동 프리뷰 - 최대 2배 성능 향상
- Google TurboQuant - 극한 압축으로 AI 효율성을 재정의하는 양자화 알고리듬
- llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아주는 터미널 도구
- CanIRun.ai - 내 컴퓨터에서 실행 가능한 AI 모델을 확인하는 도구
- vLLM Sleep Mode - 단일 GPU에서 다중 모델 전환을 위한 제로 리로드 솔루션
- NVIDIA Driver 및 Container Toolkit 설치 가이드
- Pytorch GPU를 설정하는 방법