LLM 49
- Model Merging Scaling Laws — 10,506개 병합 실험으로 도출한 LLM 병합 스케일링 법칙
- TTL Tech Note — 지식 증류와 LLM 사이즈 선택, 14B/32B/70B의 실전 기준
- Google, I/O 2026에서 새 Gemini 공개 예정 — GPT-5.5급, Mythos에는 못 미친다는 보도
- Meta Muse Spark 공개 — Superintelligence Labs의 첫 멀티모달 추론 모델
- Qwen3.7-Max 공개: 에이전트 시대를 겨냥한 알리바바의 프런티어 모델
- Cohere Command A+ 공개: W4A4 양자화로 단일 GPU에서 돌아가는 218B MoE 모델
- Code as Agent Harness: 코드를 에이전트 실행 기반으로 보는 새로운 관점 (서베이)
- LoPE 무의미한 Lorem Ipsum이 LLM 수학 추론을 끌어올리는 메커니즘
- Claude 90% 할인 중국 암시장의 정체와 AI 데이터 탈취 위험
- Bifrost: LiteLLM보다 50배 빠르다는 Go 기반 초고속 AI 게이트웨이
- TokenSpeed: 에이전트 워크로드를 위한 빛의 속도 LLM 추론 엔진
- DGX Spark에서 Qwen3.5-122B-A10B 추론 80% 가속: INT4+FP8 하이브리드와 MTP-2 투기적 디코딩
- Multiagent Debate - 다중 에이전트 토론으로 LLM 사실성과 추론 향상
- Gemma 4 Multi-Token Prediction - 품질 손실 없이 최대 3배 추론 가속
- ECE7115, 인하대 Multimodal VLM 강의가 Stanford CS336을 따라가는 법
- DeepSeek-V4 패밀리 공개, Flash와 Pro 그리고 1.6T 베이스 모델
- GLM-5 Scaling Pain: PD 분리 KV 캐시 race, HiCache 동기화 누락, LayerSplit가 풀어낸 코딩 에이전트 서빙의 진짜 병목
- DeepSeek-V4-Pro 공개 - 1.6T MoE, 49B 활성 파라미터, 1M 컨텍스트, FP4/FP8 혼합 정밀도
- Needle In A Haystack: 장문 컨텍스트 LLM의 검색 능력을 재는 벤치마크
- Claude Opus 4.7 개발자 리뷰: 마이그레이션 체크리스트와 Breaking Changes
- Kimi K2.6 공개: 1T MoE 오픈소스 모델의 에이전틱 코딩 도약
- Qwen3.6-35B-A3B: 350억 파라미터 MoE 모델, 30억만 활성화하는 에이전틱 코딩 오픈소스
- SuperGemma4 26B Uncensored MLX 4bit v2 - Apple Silicon용 고속 로컬 에이전트 모델
- MiniMax-M2.7 자기 진화하는 오픈 웨이트 모델과 공식 CLI
- Gemma 4 로컬 모델로 Codex CLI 돌려보기 실전 테스트
- NVIDIA·MIT TriAttention, KV 캐시 메모리를 10배 줄이다
- LG EXAONE 4.5 33B: 한국어 특화 첫 오픈 비전-언어 모델
- LM Studio CLI로 Google Gemma 4 로컬 실행: M4 Pro에서 51 tok/s 달성
- LiteLLM PyPI 공급망 공격 - 악성 코드 삽입 보안 사건 분석
- LLM을 컴퓨터로 만들기 - 트랜스포머 내부에서 프로그램을 실행하는 방법
- Trie 기반 빔 서치 - LLM 디코딩의 메모리와 속도를 동시에 잡다
- llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아주는 터미널 도구
- LLM Architecture Gallery - 43개 LLM 아키텍처를 한눈에 비교하는 갤러리
- LLM으로 소프트웨어를 만드는 방법 - 아키텍트-개발자-리뷰어 다중 에이전트 워크플로우
- LLM 신경해부학: 가중치 변경 없이 중간 레이어 복제로 리더보드 1위 달성
- Claude Opus 4.6 & Sonnet 4.6 - 1M 컨텍스트 윈도우 정식 출시
- 프롬프트의 정중함이 LLM 정확도에 미치는 영향 - Mind Your Tone 논문 분석
- Deep Think with Confidence - LLM 추론의 신뢰도 평가 연구
- GPT-5.4의 1M 컨텍스트 윈도우, 기본 설정으로는 258K만 사용 가능
- Qwen3.5 - 알리바바의 새로운 대규모 언어 모델 시리즈
- YaRN - LLM 컨텍스트 윈도우를 효율적으로 확장하는 방법
- Inferact - vLLM 상용화 스타트업, 1.5억 달러 시드 투자 유치
- vLLM Custom Logits Processors로 특정 언어 토큰 차단하기
- GLM-4.7 - 코딩 전문 LLM의 새로운 강자
- DeepResearch Bench의 RACE와 FACT 평가 방법
- GPT-OSS-120B MoE 모델에서 QLoRA 튜닝이 실패하는 이유와 NeMo의 해결책
- LangSmith vs Langfuse
- LLM 서빙 환경 구축하기 + 모니터링
- AGI 직전이라더니 내가 사용하는 AI는 왜 멍청할까?