Juho's Dev Note

공부하고 기록하고

홈
카테고리
태그
아카이브
정보

홈 태그 vLLM

태그

vLLM 5

Qwen3-Coder-Next - 80B 파라미터 중 3B만 활성화하는 초희소 코딩 에이전트 모델 2026/02/06
vLLM Sleep Mode - 단일 GPU에서 다중 모델 전환을 위한 제로 리로드 솔루션 2026/01/30
Inferact - vLLM 상용화 스타트업, 1.5억 달러 시드 투자 유치 2026/01/29
vLLM Custom Logits Processors로 특정 언어 토큰 차단하기 2026/01/11
LLM 서빙 환경 구축하기 + 모니터링 2025/10/04

최근 업데이트

RTK: AI 코딩 도구의 토큰 소비를 60~90% 줄이는 Rust CLI 프록시
LM Studio CLI로 Google Gemma 4 로컬 실행: M4 Pro에서 51 tok/s 달성
코딩 에이전트의 6가지 핵심 구성 요소: 모델보다 하니스가 중요하다
PyPI 공급망 공격 사고 보고서: LiteLLM과 Telnyx 패키지 악성코드 주입 사건
Claude Code 성능 저하 논란: Adaptive Thinking 도입 후 68% 불만 증가

인기 태그

AI LLM Agent Python Dev LangChain Chatbot MCP OpenAI PDF

© 2026 juho park. 일부 권리 보유

Powered by Jekyll with Chirpy theme

인기 태그

AI LLM Agent Python Dev LangChain Chatbot MCP OpenAI PDF