Benchmark 74
- Microsoft MAI: 언덕 오르기 기계로 만든 7개의 새 모델
- 장기 에이전트 작업의 교차 벤치마크 일반화
- VLM3: 비전 언어 모델은 태생부터 3D 학습기다
- TaskMem: 멀티모달 에이전트를 위한 작업 중심 기억 학습
- AgingBench: 배포된 AI 에이전트는 시간이 지나면 늙는다
- Gemma 4 12B: 인코더 없는 통합 멀티모달 모델
- Qwen-VLA: 작업·환경·로봇 형태를 통합하는 비전-언어-행동 모델
- 에이전트 워크플로를 LLM 가중치로 컴파일하기: 100배 저렴한 지하 에이전트
- LLM 에이전트가 직접 학습 데이터를 만든다: 자율 에이전트 데이터 엔지니어링
- When AI builds itself: 재귀적 자기개선을 향한 Anthropic의 현주소
- SMART: 단일 벡터 임베딩 모델 안에 숨어 있는 멀티 벡터 검색 능력 끌어내기
- DNA3.0-35B-A3B: Dnotitia의 한국어 특화 MoE 비전-언어 모델
- Claude Opus 4.8: 정직성, 동적 워크플로우, 노력 제어
- Native Multimodal Modeling 로드맵: 융합 아키텍처에서 평가까지의 5단계 분류
- PapersWithCode 부활 1주차 - 다중 메트릭, 논문 계보, 신규 메소드 등 6가지 신규 기능
- TurboQuant 완전 정리 - 이론 최적에 근접한 KV 캐시·벡터 검색 양자화와 vLLM 실측
- Lance - 다중 태스크 시너지로 만든 ByteDance의 경량 통합 멀티모달 모델
- Slot-MPC - 객체 중심 표현과 그래디언트 기반 MPC로 푸는 시각 계획
- ELF: 임베딩 공간 Flow Matching 으로 디스크리트 확산 모델을 추월한 연속 언어 확산
- Model Merging Scaling Laws — 10,506개 병합 실험으로 도출한 LLM 병합 스케일링 법칙
- TTL Tech Note — 지식 증류와 LLM 사이즈 선택, 14B/32B/70B의 실전 기준
- AI IQ : 17개 벤치마크로 AI 모델의 지능과 EQ, 비용을 동시에 측정하는 플랫폼
- codingplans.cc — 52개 AI 코딩 공급자의 요금제와 사양을 한 화면에서 비교
- Meta Muse Spark 공개 — Superintelligence Labs의 첫 멀티모달 추론 모델
- Qwen3.7-Max 공개: 에이전트 시대를 겨냥한 알리바바의 프런티어 모델
- Qwen-Image-2.0 텍스트 렌더링과 이미지 편집을 하나로 묶은 통합 생성 모델
- NVIDIA AnyFlow - 추론 단계 수에 자유로운 14B 비디오 디퓨전 모델
- LoPE 무의미한 Lorem Ipsum이 LLM 수학 추론을 끌어올리는 메커니즘
- TokenSpeed: 에이전트 워크로드를 위한 빛의 속도 LLM 추론 엔진
- Direct Corpus Interaction: 임베딩 없이 grep과 셸로 BRIGHT, BEIR 벤치마크 SOTA 달성
- 중국, 미국 제치고 AI 인재 경쟁 1위로: NeurIPS 최상위 연구자 통계가 보여주는 지각 변동
- AI Co-Mathematician: 수학자와 협업하는 에이전트 워크벤치, FrontierMath Tier 4에서 48% 달성
- DGX Spark에서 Qwen3.5-122B-A10B 추론 80% 가속: INT4+FP8 하이브리드와 MTP-2 투기적 디코딩
- GOAT - 학습 가능한 사전 분포로 어텐션 메커니즘을 재설계하다
- Vision Banana, 이미지 생성 모델이 범용 비전 학습자가 된다
- DeepSeek-V4 패밀리 공개, Flash와 Pro 그리고 1.6T 베이스 모델
- OpenAI GPT-5.5 공개 - 에이전틱 코딩, 지식 노동, 과학 연구의 새 기준
- DeepSeek-V4-Pro 공개 - 1.6T MoE, 49B 활성 파라미터, 1M 컨텍스트, FP4/FP8 혼합 정밀도
- Needle In A Haystack: 장문 컨텍스트 LLM의 검색 능력을 재는 벤치마크
- Claude Opus 4.7 개발자 리뷰: 마이그레이션 체크리스트와 Breaking Changes
- Kimi K2.6 공개: 1T MoE 오픈소스 모델의 에이전틱 코딩 도약
- AI 코드 리뷰, 정말 믿을 수 있을까? 자체 벤치마크로 검증한 기록
- Friends Don't Let Friends Use Ollama - llama.cpp 기반 대안 재검토
- Qwen3.6-35B-A3B: 350억 파라미터 MoE 모델, 30억만 활성화하는 에이전틱 코딩 오픈소스
- Claude Opus 4.7 출시: 셀프 검증, 3.3배 고해상도 비전, 코딩 13% 향상
- SuperGemma4 26B Uncensored MLX 4bit v2 - Apple Silicon용 고속 로컬 에이전트 모델
- Gemini Robotics-ER 1.6: 로봇을 위한 추론 우선 모델
- 단일 연산자 EML로 모든 초등 함수 표현하기
- MiniMax-M2.7 자기 진화하는 오픈 웨이트 모델과 공식 CLI
- 언어는 달라도 정보 전달 속도는 같다 초당 39비트의 보편성
- 저비트 양자화는 임베딩 모델을 '눈멀게' 만든다: jina-v5 코사인 상관 관측
- Gemma 4 로컬 모델로 Codex CLI 돌려보기 실전 테스트
- Microsoft VibeVoice: 장형식 음성 처리를 위한 오픈소스 ASR/TTS 패밀리
- NVIDIA·MIT TriAttention, KV 캐시 메모리를 10배 줄이다
- LG EXAONE 4.5 33B: 한국어 특화 첫 오픈 비전-언어 모델
- Anthropic Project Glasswing 출범, Claude Mythos Preview로 사이버보안 취약점 자동 탐지
- 감정적 프롬프트가 AI 성능을 바꿀까? EmotionRL 적응형 감정 프레이밍 연구
- Google Gemma 4: Gemini 3 기반 오픈 AI 모델, 멀티모달·에이전트·엣지 지원
- LLM 신경해부학: 가중치 변경 없이 중간 레이어 복제로 리더보드 1위 달성
- Deep Think with Confidence - LLM 추론의 신뢰도 평가 연구
- Qwen3.5 - 알리바바의 새로운 대규모 언어 모델 시리즈
- 프롬프트 반복으로 LLM 성능 향상 - Google 연구팀 논문
- Taalas - LLM 가중치를 실리콘에 새기다, 초당 17,000 토큰 ASIC 칩
- FINAL Bench - AI 메타인지를 측정하는 첫 번째 벤치마크
- METR의 AI 시간 지평 연구 - AI 자율성이 6개월마다 두 배씩 성장한다
- 에이전틱 코딩 벤치마크에서 인프라 노이즈 정량화 : Anthropic 엔지니어링 분석
- AI 창의성의 역설 - 평균은 넘었지만 천재는 못 따라간다
- YaRN - LLM 컨텍스트 윈도우를 효율적으로 확장하는 방법
- DeepPlanning - 장기 계획 수립 에이전트를 위한 벤치마크
- Kimi K2.5 - Moonshot AI의 1조 파라미터 오픈 웨이트 멀티모달 모델
- GLM-4.7 - 코딩 전문 LLM의 새로운 강자
- DeepResearch Bench의 RACE와 FACT 평가 방법
- AGI 직전이라더니 내가 사용하는 AI는 왜 멍청할까?
- PostgreSQL - Benchmark