Juho's Dev Note

공부하고 기록하고

홈
카테고리
태그
아카이브
정보

홈 태그 Benchmark

태그

Benchmark 39

Vision Banana, 이미지 생성 모델이 범용 비전 학습자가 된다 2026/05/06
DeepSeek-V4 패밀리 공개, Flash와 Pro 그리고 1.6T 베이스 모델 2026/05/06
OpenAI GPT-5.5 공개 - 에이전틱 코딩, 지식 노동, 과학 연구의 새 기준 2026/05/01
DeepSeek-V4-Pro 공개 - 1.6T MoE, 49B 활성 파라미터, 1M 컨텍스트, FP4/FP8 혼합 정밀도 2026/04/30
Needle In A Haystack: 장문 컨텍스트 LLM의 검색 능력을 재는 벤치마크 2026/04/26
Claude Opus 4.7 개발자 리뷰: 마이그레이션 체크리스트와 Breaking Changes 2026/04/26
Kimi K2.6 공개: 1T MoE 오픈소스 모델의 에이전틱 코딩 도약 2026/04/25
AI 코드 리뷰, 정말 믿을 수 있을까? 자체 벤치마크로 검증한 기록 2026/04/25
Friends Don't Let Friends Use Ollama - llama.cpp 기반 대안 재검토 2026/04/23
Qwen3.6-35B-A3B: 350억 파라미터 MoE 모델, 30억만 활성화하는 에이전틱 코딩 오픈소스 2026/04/22
Claude Opus 4.7 출시: 셀프 검증, 3.3배 고해상도 비전, 코딩 13% 향상 2026/04/22
SuperGemma4 26B Uncensored MLX 4bit v2 - Apple Silicon용 고속 로컬 에이전트 모델 2026/04/21
Gemini Robotics-ER 1.6: 로봇을 위한 추론 우선 모델 2026/04/20
단일 연산자 EML로 모든 초등 함수 표현하기 2026/04/20
MiniMax-M2.7 자기 진화하는 오픈 웨이트 모델과 공식 CLI 2026/04/19
언어는 달라도 정보 전달 속도는 같다 초당 39비트의 보편성 2026/04/19
저비트 양자화는 임베딩 모델을 '눈멀게' 만든다: jina-v5 코사인 상관 관측 2026/04/18
Gemma 4 로컬 모델로 Codex CLI 돌려보기 실전 테스트 2026/04/18
Microsoft VibeVoice: 장형식 음성 처리를 위한 오픈소스 ASR/TTS 패밀리 2026/04/17
NVIDIA·MIT TriAttention, KV 캐시 메모리를 10배 줄이다 2026/04/16
LG EXAONE 4.5 33B: 한국어 특화 첫 오픈 비전-언어 모델 2026/04/16
Anthropic Project Glasswing 출범, Claude Mythos Preview로 사이버보안 취약점 자동 탐지 2026/04/12
감정적 프롬프트가 AI 성능을 바꿀까? EmotionRL 적응형 감정 프레이밍 연구 2026/04/11
Google Gemma 4: Gemini 3 기반 오픈 AI 모델, 멀티모달·에이전트·엣지 지원 2026/04/07
LLM 신경해부학: 가중치 변경 없이 중간 레이어 복제로 리더보드 1위 달성 2026/03/18
Deep Think with Confidence - LLM 추론의 신뢰도 평가 연구 2026/03/14
Qwen3.5 - 알리바바의 새로운 대규모 언어 모델 시리즈 2026/03/07
프롬프트 반복으로 LLM 성능 향상 - Google 연구팀 논문 2026/03/01
Taalas - LLM 가중치를 실리콘에 새기다, 초당 17,000 토큰 ASIC 칩 2026/02/27
FINAL Bench - AI 메타인지를 측정하는 첫 번째 벤치마크 2026/02/25
METR의 AI 시간 지평 연구 - AI 자율성이 6개월마다 두 배씩 성장한다 2026/02/24
에이전틱 코딩 벤치마크에서 인프라 노이즈 정량화 : Anthropic 엔지니어링 분석 2026/02/13
AI 창의성의 역설 - 평균은 넘었지만 천재는 못 따라간다 2026/02/03
DeepPlanning - 장기 계획 수립 에이전트를 위한 벤치마크 2026/02/01
Kimi K2.5 - Moonshot AI의 1조 파라미터 오픈 웨이트 멀티모달 모델 2026/02/01
GLM-4.7 - 코딩 전문 LLM의 새로운 강자 2026/01/06
DeepResearch Bench의 RACE와 FACT 평가 방법 2025/12/23
AGI 직전이라더니 내가 사용하는 AI는 왜 멍청할까? 2025/04/30
PostgreSQL - Benchmark 2024/02/21

최근 업데이트

DeepSeek-V4 패밀리 공개, Flash와 Pro 그리고 1.6T 베이스 모델
바이브 코딩의 환상 - AI가 만드는 실행되는 코드와 사람이 원하는 제품의 간극
Vision Banana, 이미지 생성 모델이 범용 비전 학습자가 된다
Agent Harness Engineering: 모델보다 그 주변이 더 결정적이라는 Addy Osmani의 정리
Ouroboros - 한국 개발자가 만든 Specification-First AI 코딩 Agent OS

인기 태그

AI LLM Agent Python Dev Benchmark LangChain OpenAI Security Prompt

© 2026 juho park. 일부 권리 보유

Powered by Jekyll with Chirpy theme

인기 태그

AI LLM Agent Python Dev Benchmark LangChain OpenAI Security Prompt