Evaluation 27
- 장기 에이전트 작업의 교차 벤치마크 일반화
- TaskMem: 멀티모달 에이전트를 위한 작업 중심 기억 학습
- AgingBench: 배포된 AI 에이전트는 시간이 지나면 늙는다
- 메타엔지니어링 하네스: 계약 기반 적대적 검증으로 만드는 AI 네이티브 소프트웨어 생산
- LLM 에이전트가 직접 학습 데이터를 만든다: 자율 에이전트 데이터 엔지니어링
- When AI builds itself: 재귀적 자기개선을 향한 Anthropic의 현주소
- 하이퍼커넥트 LLM 설명 정책 - 정답 없는 문제를 반복적 합의로 푸는 5단계 접근법
- AutoResearch - 과학 연구 자동화의 5단계 자율성 스펙트럼(L0-L4) 서베이
- 심층 신경망 지속 학습의 순서 변수와 상전이 - 망각을 예측하는 통계역학 이론
- Model Merging Scaling Laws — 10,506개 병합 실험으로 도출한 LLM 병합 스케일링 법칙
- AI IQ : 17개 벤치마크로 AI 모델의 지능과 EQ, 비용을 동시에 측정하는 플랫폼
- Anthropic — Claude에게 '왜'를 가르치기, 에이전틱 정렬 학습 연구
- Code as Agent Harness: 코드를 에이전트 실행 기반으로 보는 새로운 관점 (서베이)
- AI Agent Complexity Ratchet — 90% 테스트 커버리지가 AI 코딩의 새 표준이 된 이유
- Anthropic Teaching Claude Why: 원칙 기반 정렬로 블랙메일률 65%에서 19%로
- AI Co-Mathematician: 수학자와 협업하는 에이전트 워크벤치, FrontierMath Tier 4에서 48% 달성
- Better Harness: Evals를 학습 신호로 삼는 하네스 힐 클라이밍
- 하네스 엔지니어링으로 Deep Agents 점수 13.7점 끌어올리기
- Deep Agents의 Evals 설계: 양보다 질, 행동 기반 평가 만들기
- 바이브 코딩의 환상 - AI가 만드는 실행되는 코드와 사람이 원하는 제품의 간극
- Anthropic Claude Code 품질 저하 사후분석 - 한 달 동안 겹친 세 가지 버그
- Needle In A Haystack: 장문 컨텍스트 LLM의 검색 능력을 재는 벤치마크
- AI 코드 리뷰, 정말 믿을 수 있을까? 자체 벤치마크로 검증한 기록
- Claude Code Issue 42796, Thinking Redaction과 품질 회귀의 6852개 세션 정량 분석
- AI가 만든 테스트는 전부 통과했지만, 코드에는 버그가 남아있었다
- DeepResearch Bench의 RACE와 FACT 평가 방법
- LangSmith vs Langfuse