Juho's Dev Note

공부하고 기록하고

홈
카테고리
태그
아카이브
정보

홈 태그 Benchmark

태그

Benchmark 15

LLM 신경해부학: 가중치 변경 없이 중간 레이어 복제로 리더보드 1위 달성 2026/03/18
Deep Think with Confidence - LLM 추론의 신뢰도 평가 연구 2026/03/14
Qwen3.5 - 알리바바의 새로운 대규모 언어 모델 시리즈 2026/03/07
프롬프트 반복으로 LLM 성능 향상 - Google 연구팀 논문 2026/03/01
Taalas - LLM 가중치를 실리콘에 새기다, 초당 17,000 토큰 ASIC 칩 2026/02/27
FINAL Bench - AI 메타인지를 측정하는 첫 번째 벤치마크 2026/02/25
METR의 AI 시간 지평 연구 - AI 자율성이 6개월마다 두 배씩 성장한다 2026/02/24
에이전틱 코딩 벤치마크에서 인프라 노이즈 정량화 : Anthropic 엔지니어링 분석 2026/02/13
AI 창의성의 역설 - 평균은 넘었지만 천재는 못 따라간다 2026/02/03
DeepPlanning - 장기 계획 수립 에이전트를 위한 벤치마크 2026/02/01
Kimi K2.5 - Moonshot AI의 1조 파라미터 오픈 웨이트 멀티모달 모델 2026/02/01
GLM-4.7 - 코딩 전문 LLM의 새로운 강자 2026/01/06
DeepResearch Bench의 RACE와 FACT 평가 방법 2025/12/23
AGI 직전이라더니 내가 사용하는 AI는 왜 멍청할까? 2025/04/30
PostgreSQL - Benchmark 2024/02/21

최근 업데이트

AutoBE - 자연어로 백엔드를 자동 생성하는 AI 빌더
그래프 표현 학습을 위한 Joint Embedding 예측적 자기지도 프레임워크
GLF - 자기지도 대조 학습을 위한 일반화된 학습 프레임워크
A²SL - 데이터 부족 환경에서의 환경 지식 발견을 위한 자기지도 학습 프레임워크
llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아주는 터미널 도구

인기 태그

AI LLM Python Agent Dev LangChain Chatbot PDF MCP OpenAI

© 2026 juho park. 일부 권리 보유

Powered by Jekyll with Chirpy theme

인기 태그

AI LLM Python Agent Dev LangChain Chatbot PDF MCP OpenAI