Evaluation 7
- Anthropic Claude Code 품질 저하 사후분석 - 한 달 동안 겹친 세 가지 버그
- Needle In A Haystack: 장문 컨텍스트 LLM의 검색 능력을 재는 벤치마크
- AI 코드 리뷰, 정말 믿을 수 있을까? 자체 벤치마크로 검증한 기록
- Claude Code Issue 42796, Thinking Redaction과 품질 회귀의 6852개 세션 정량 분석
- AI가 만든 테스트는 전부 통과했지만, 코드에는 버그가 남아있었다
- DeepResearch Bench의 RACE와 FACT 평가 방법
- LangSmith vs Langfuse