Juho's Dev Note

공부하고 기록하고

홈
카테고리
태그
아카이브
정보

홈 태그 vLLM

태그

vLLM 14

DSpark: 반자기회귀 생성과 신뢰도 기반 검증으로 speculative decoding 가속하기 2026/07/01
DeepSeek-V4-Pro-DSpark: speculative decoding을 더한 1.6T MoE 모델 2026/06/29
DNA3.0-35B-A3B: Dnotitia의 한국어 특화 MoE 비전-언어 모델 2026/06/04
TurboQuant 완전 정리 - 이론 최적에 근접한 KV 캐시·벡터 검색 양자화와 vLLM 실측 2026/05/31
Cohere Command A+ 공개: W4A4 양자화로 단일 GPU에서 돌아가는 218B MoE 모델 2026/05/21
TokenSpeed: 에이전트 워크로드를 위한 빛의 속도 LLM 추론 엔진 2026/05/16
DGX Spark에서 Qwen3.5-122B-A10B 추론 80% 가속: INT4+FP8 하이브리드와 MTP-2 투기적 디코딩 2026/05/12
vLLM Recipes 개편: 모델과 하드웨어 조합을 한 줄 명령어로 2026/05/02
LG EXAONE 4.5 33B: 한국어 특화 첫 오픈 비전-언어 모델 2026/04/16
Qwen3-Coder-Next - 80B 파라미터 중 3B만 활성화하는 초희소 코딩 에이전트 모델 2026/02/06
vLLM Sleep Mode - 단일 GPU에서 다중 모델 전환을 위한 제로 리로드 솔루션 2026/01/30
Inferact - vLLM 상용화 스타트업, 1.5억 달러 시드 투자 유치 2026/01/29
vLLM Custom Logits Processors로 특정 언어 토큰 차단하기 2026/01/11
LLM 서빙 환경 구축하기 + 모니터링 2025/10/04

최근 업데이트

다가오는 AI 마진 붕괴: GLM 5.2와 추론 경제학
Anthropic이 개발자 신뢰를 잃는 방법: 과금과 벤더 락인 비판
대부분이 모르는 Claude 기능 총정리: 17가지 활용 가이드
Microsoft AI Agents for Beginners: AI 에이전트 입문 12강 무료 코스
pxpipe: 텍스트 컨텍스트를 PNG 이미지로 변환해 Claude Code 토큰을 줄이는 프록시

인기 태그

AI LLM Agent Benchmark Python Dev Security Evaluation Skill OpenAI

© 2026 juho park. 일부 권리 보유

Powered by Jekyll with Chirpy theme

인기 태그

AI LLM Agent Benchmark Python Dev Security Evaluation Skill OpenAI