Juho's Dev Note

공부하고 기록하고

홈
카테고리
태그
아카이브
정보

홈 태그 Evaluation

태그

Evaluation 27

장기 에이전트 작업의 교차 벤치마크 일반화 2026/06/08
TaskMem: 멀티모달 에이전트를 위한 작업 중심 기억 학습 2026/06/07
AgingBench: 배포된 AI 에이전트는 시간이 지나면 늙는다 2026/06/07
메타엔지니어링 하네스: 계약 기반 적대적 검증으로 만드는 AI 네이티브 소프트웨어 생산 2026/06/05
LLM 에이전트가 직접 학습 데이터를 만든다: 자율 에이전트 데이터 엔지니어링 2026/06/05
When AI builds itself: 재귀적 자기개선을 향한 Anthropic의 현주소 2026/06/05
하이퍼커넥트 LLM 설명 정책 - 정답 없는 문제를 반복적 합의로 푸는 5단계 접근법 2026/06/03
AutoResearch - 과학 연구 자동화의 5단계 자율성 스펙트럼(L0-L4) 서베이 2026/06/02
심층 신경망 지속 학습의 순서 변수와 상전이 - 망각을 예측하는 통계역학 이론 2026/05/30
Model Merging Scaling Laws — 10,506개 병합 실험으로 도출한 LLM 병합 스케일링 법칙 2026/05/25
AI IQ : 17개 벤치마크로 AI 모델의 지능과 EQ, 비용을 동시에 측정하는 플랫폼 2026/05/25
Anthropic — Claude에게 '왜'를 가르치기, 에이전틱 정렬 학습 연구 2026/05/23
Code as Agent Harness: 코드를 에이전트 실행 기반으로 보는 새로운 관점 (서베이) 2026/05/21
AI Agent Complexity Ratchet — 90% 테스트 커버리지가 AI 코딩의 새 표준이 된 이유 2026/05/20
Anthropic Teaching Claude Why: 원칙 기반 정렬로 블랙메일률 65%에서 19%로 2026/05/16
AI Co-Mathematician: 수학자와 협업하는 에이전트 워크벤치, FrontierMath Tier 4에서 48% 달성 2026/05/15
Better Harness: Evals를 학습 신호로 삼는 하네스 힐 클라이밍 2026/05/09
하네스 엔지니어링으로 Deep Agents 점수 13.7점 끌어올리기 2026/05/08
Deep Agents의 Evals 설계: 양보다 질, 행동 기반 평가 만들기 2026/05/08
바이브 코딩의 환상 - AI가 만드는 실행되는 코드와 사람이 원하는 제품의 간극 2026/05/06
Anthropic Claude Code 품질 저하 사후분석 - 한 달 동안 겹친 세 가지 버그 2026/05/01
Needle In A Haystack: 장문 컨텍스트 LLM의 검색 능력을 재는 벤치마크 2026/04/26
AI 코드 리뷰, 정말 믿을 수 있을까? 자체 벤치마크로 검증한 기록 2026/04/25
Claude Code Issue 42796, Thinking Redaction과 품질 회귀의 6852개 세션 정량 분석 2026/04/12
AI가 만든 테스트는 전부 통과했지만, 코드에는 버그가 남아있었다 2026/03/03
DeepResearch Bench의 RACE와 FACT 평가 방법 2025/12/23
LangSmith vs Langfuse 2025/12/14

최근 업데이트

장기 에이전트 작업의 교차 벤치마크 일반화
Future KRDS: 한국 정부 디자인 시스템을 에이전트 스킬로
Google DeepMind Science Skills: 과학 연구를 위한 에이전트 스킬 모음
Microsoft MAI: 언덕 오르기 기계로 만든 7개의 새 모델
OpenCut: 오픈소스 웹 비디오 에디터의 전면 재설계

인기 태그

AI LLM Agent Python Benchmark Dev OpenAI LangChain Security MCP

© 2026 juho park. 일부 권리 보유

Powered by Jekyll with Chirpy theme

인기 태그

AI LLM Agent Python Benchmark Dev OpenAI LangChain Security MCP