Benchmark 7 AI 창의성의 역설 - 평균은 넘었지만 천재는 못 따라간다 2026/02/03 DeepPlanning - 장기 계획 수립 에이전트를 위한 벤치마크 2026/02/01 Kimi K2.5 - Moonshot AI의 1조 파라미터 오픈 웨이트 멀티모달 모델 2026/02/01 GLM-4.7 - 코딩 전문 LLM의 새로운 강자 2026/01/06 DeepResearch Bench의 RACE와 FACT 평가 방법 2025/12/23 AGI 직전이라더니 내가 사용하는 AI는 왜 멍청할까? 2025/04/30 PostgreSQL - Benchmark 2024/02/21