PAPO: 확산 LLM 추론을 위한 보상과 상태 정렬 강화학습
목차 개요 방법론 Step-Aware Process Rewards (SPR) Entropy-Guided Historical Re-enactment (EHR) PAPO 학습 목적함수 주요 결과 네 가지 벤치마크 성능 Ablation과 분석 ...
목차 개요 방법론 Step-Aware Process Rewards (SPR) Entropy-Guided Historical Re-enactment (EHR) PAPO 학습 목적함수 주요 결과 네 가지 벤치마크 성능 Ablation과 분석 ...
목차 개요 방법론 복잡 작업 분해와 스킬 트리 집단 스킬 노드 생성(CSN-Gen) 집단 스킬 노드 평가(CSN-Assess) 집단 스킬 강화학습(CSRL) 주요 결과 QwenClawBench 결과 PinchBench 결과 어블레...
목차 개요 방법론 MAPF-FrozenLake 테스트베드 강화학습 보상 설계 환경 엔지니어링 프레임워크 주요 결과 메인 벤치마크 성능 행동 분석 Ablation 연구 한계와 주의사항 결론 Reference 개요 ...
목차 개요 방법론 기본 표현: 원자적 사실 추출 에피소드 통합과 상태 진화 연상 기억 그래프 검색 주요 결과 LoCoMo 벤치마크 성능 어블레이션과 하이퍼파라미터 분석 한계와 주의사항 결론 Reference 개요 대형 언...
목차 개요 방법론 능동 오토마타 학습 배경 Agentic Automata Learning 정의 실험 설정 주요 결과 복잡도에 따른 성능 저하 고전 알고리즘 모방 여부 오류 분석과 비정보성 쿼리 비용 분석 한계와 ...
목차 개요 방법론 세 가지 행동 인터페이스 영속 커널 작업 공간 5단계 에이전트 루프 주요 결과 20개 벤치마크 종합 성능 행동 인터페이스 비교와 어블레이션 기여 요인 분석 한계와 주의사항 결론 Reference ...
목차 개요 방법론 문제 정의: 조합형 스킬 라우팅 SkillWeaver 3단계 파이프라인 SAD: 반복적 스킬 인지 분해 CompSkillBench 벤치마크 주요 결과 메인 결과와 병목 분석 일반화·전이·컨텍스트 절감 한계...
목차 개요 방법론 상태 머신 프로그램이라는 표현 선택-재생-폴백-검증 루프 저장 전 검증 게이트 주요 결과 반복 실행은 빨라진다 검증 게이트와 폴백의 정량 효과 결과를 바꾸지 않은 요소들 한계와 주의사항 결론 Ref...