Juho's Dev Note

공부하고 기록하고

홈
카테고리
태그
아카이브
정보

태그

GPU 13

GLM-5 Scaling Pain: PD 분리 KV 캐시 race, HiCache 동기화 누락, LayerSplit가 풀어낸 코딩 에이전트 서빙의 진짜 병목 2026/05/05
vLLM Recipes 개편: 모델과 하드웨어 조합을 한 줄 명령어로 2026/05/02
DeepSeek-V4-Pro 공개 - 1.6T MoE, 49B 활성 파라미터, 1M 컨텍스트, FP4/FP8 혼합 정밀도 2026/04/30
Google LiteRT-LM: 엣지 디바이스용 고성능 온디바이스 LLM 추론 프레임워크 2026/04/28
NVIDIA·MIT TriAttention, KV 캐시 메모리를 10배 줄이다 2026/04/16
LM Studio CLI로 Google Gemma 4 로컬 실행: M4 Pro에서 51 tok/s 달성 2026/04/09
Ollama, Apple Silicon에서 MLX 기반 구동 프리뷰 - 최대 2배 성능 향상 2026/04/05
Google TurboQuant - 극한 압축으로 AI 효율성을 재정의하는 양자화 알고리듬 2026/03/29
llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아주는 터미널 도구 2026/03/21
CanIRun.ai - 내 컴퓨터에서 실행 가능한 AI 모델을 확인하는 도구 2026/03/16
vLLM Sleep Mode - 단일 GPU에서 다중 모델 전환을 위한 제로 리로드 솔루션 2026/01/30
NVIDIA Driver 및 Container Toolkit 설치 가이드 2025/12/13
Pytorch GPU를 설정하는 방법 2024/08/25

최근 업데이트

DeepSeek-V4 패밀리 공개, Flash와 Pro 그리고 1.6T 베이스 모델
바이브 코딩의 환상 - AI가 만드는 실행되는 코드와 사람이 원하는 제품의 간극
Vision Banana, 이미지 생성 모델이 범용 비전 학습자가 된다
Agent Harness Engineering: 모델보다 그 주변이 더 결정적이라는 Addy Osmani의 정리
Ouroboros - 한국 개발자가 만든 Specification-First AI 코딩 Agent OS

인기 태그

AI LLM Agent Python Dev Benchmark LangChain OpenAI Security Prompt

© 2026 juho park. 일부 권리 보유

Powered by Jekyll with Chirpy theme

인기 태그

AI LLM Agent Python Dev Benchmark LangChain OpenAI Security Prompt