OpenClaw-Skill: 집단 지성 기반 스킬 트리 탐색으로 에이전트 LLM 강화하기

게시 2026/06/27 업데이트 2026/06/27

By Juho

20 분읽는 시간

개요

대형 언어 모델(LLM) 에이전트는 파일, 도구, 웹 페이지, 실행 피드백, 중간 산출물을 여러 단계에 걸쳐 조율해야 하는 OpenClaw 같은 실세계 시스템에서 점차 활용되고 있다. 이런 환경의 신뢰성과 일반화를 높이기 위해, 최근 연구들은 도구 사용, 검증, 오류 복구 같은 반복적 하위 작업을 위한 재사용 가능한 절차적 전략인 “스킬(skill)” 개념을 도입했다. 그러나 기존 스킬은 대부분 수작업으로 설계되어 대규모 구축이 비싸고 노동 집약적이며, 자동 구축 방식조차 세 가지 한계를 안고 있다.

논문은 이 한계를 스킬 단편화, 제한된 다양성, 제한된 전이성으로 정리한다. 첫째 스킬 단편화는 개별 하위 작업의 국소 절차만 포착할 뿐 스킬 시퀀스를 조율하거나 장기 의존성을 다루는 메커니즘이 없는 문제다. 둘째 제한된 다양성은 단일 모델이 생성한 좁은 궤적 집합에서 스킬을 구성해 그 모델의 문제 해결 선호에 편향되는 문제다. 셋째 제한된 전이성은 한 백본 LLM에서 학습한 스킬이 다른 백본으로 옮길 때 성능이 뚜렷하게 떨어지는 문제다.

이를 해결하기 위해 저자들은 Collective Skill Tree Search(CSTS)를 제안한다. CSTS는 트리 탐색 기반 스킬 구축 프레임워크로, 집단 지성을 활용해 효과적인 스킬을 함께 탐색하고 식별하며 조합해 구조적이고 다양하며 일반화 가능한 “스킬 트리”를 만든다. 저자들은 이렇게 구성한 스킬과 스킬 증강 학습 데이터로 모델을 훈련하고, 추가로 Collective Skill Reinforcement Learning(CSRL)을 적용해 최종 모델인 OpenClaw-Skill을 얻는다.

방법론

복잡 작업 분해와 스킬 트리

CSTS는 먼저 복잡 작업 T를 순서가 있는 하위 작업 시퀀스로 분해한다. 즉 T를 (t1, t2, …, tM)으로 나누며, 이 분해는 파일 찾기, 설정 점검, 명령 구성, 도구 실행, 실패 진단, 출력 검증 같은 주요 절차 단계를 식별한다. 분해 결과는 스킬 트리의 깊이를 정의하며, m번째 층이 하위 작업 tm에 대응한다.

스킬은 트리의 노드로, 하위 작업 해결 절차는 경로로 모델링된다. 트리를 관통하는 하나의 경로는 국소 스킬들이 어떻게 선택되고 정렬되는지를 명시하는 조합형 스킬 경로가 된다. 이 구조 덕분에 고립된 국소 스킬이 의존성을 인식하는 계층 구조로 변환되어 스킬 단편화를 완화한다.

집단 스킬 노드 생성(CSN-Gen)

각 하위 작업 tm에 대해 CSTS는 여러 모델 그룹이 만든 궤적으로부터 다수의 후보 스킬 노드를 집단적으로 생성한다. 참여 모델 집합을 M = {M1, M2, …, MN}이라 하면, 각 모델 Mn은 같은 하위 작업 tm을 풀어 실행 궤적 τm,n을 만든다. 궤적은 단계별 중간 추론 상태, 에이전트 행동, 관찰 또는 실행 피드백, 그리고 최종 실행 결과를 나타내는 스칼라 보상으로 구성된다.

서로 다른 모델은 서로 다른 해결 경로를 탐색하고, 서로 다른 실패 양상을 겪으며, 서로 다른 검증 기회를 드러낸다. 이런 다양성은 계획, 실행, 진단, 복구 패턴을 폭넓게 포괄하는 후보 스킬 구성에 중요하다. CSTS는 공유 스킬 합성기 Φskill을 사용해 각 궤적을 후보 스킬 노드 sm,n으로 요약하고, 하위 작업 tm의 후보 스킬 집합 Sm = {sm,1, …, sm,N}을 얻는다.

각 스킬 sm,n은 적용 가능한 맥락, 필요한 입력, 권장 행동, 기대 출력, 검증 기준, 복구 전략을 포함하는 재사용 절차를 기술한다. 궤적 생성은 모델 간 병렬로 수행되고 스킬 합성은 각 궤적에 균일하게 적용되므로, CSN-Gen은 후보 스킬 구성의 효율성과 다양성을 함께 높인다.

집단 스킬 노드 평가(CSN-Assess)

후보 스킬을 생성한 뒤, CSTS는 각 스킬 노드를 집단 품질과 집단 전이성이라는 두 관점에서 평가한다. 집단 품질 평가에서는 여러 심판 모델이 스킬이 명확하고 실행 가능하며 완전하고 대상 하위 작업과 관련 있는지 독립적으로 평가한다. 심판 j가 매긴 점수를 모아 평균낸 집단 품질 점수가 Qm,n이며, 다음과 같이 J명의 심판 점수를 산술 평균한다.

Q(m,n) = (1/J) * sum_{j=1..J} q^j_(m,n)

집단 전이성 평가는 한 모델에서 합성한 스킬이 다른 모델에도 도움이 되는지를 측정한다. 모델 Mn의 궤적에서 추출한 스킬 sm,n을 나머지 모델들과 공유하고, 각 모델 Mk가 이 스킬을 추가 맥락으로 써서 같은 하위 작업을 풀어 스킬 조건부 롤아웃을 만든다. 원래 스킬을 만들지 않은 N-1개 모델의 검증 점수를 평균해 전이성 점수 Tran(m,n)을 계산한다.

Tran(m,n) = (1/(N-1)) * sum_{k != n} r^k_(m,n)

후보 스킬 노드의 최종 점수는 집단 품질과 전이성을 더한 Score(sm,n) = Q(m,n) + Tran(m,n)이다. 각 하위 작업 tm에 대해 CSTS는 최고 점수 스킬 노드를 선택하고, 이를 작업 분해 순서대로 묶어 복잡 작업 T의 스킬 경로 S*T = (s*1, s*2, …, s*M)을 만든다. 즉 S*T는 단일 스킬이 아니라 하위 작업 수준 스킬들의 순서 있는 조합이다.

선택된 스킬 경로 S*T는 에이전트 궤적에 구조적 스킬 지침을 덧붙여 스킬 증강 학습 데이터를 만든다. 이 데이터는 지도 미세조정(SFT)에 사용되어, 정책이 강화학습 전에 기본 절차 구조를 학습하도록 한다. 각 작업 T에 대해 작업, 선택된 스킬 경로, 시연 궤적으로 이뤄진 SFT 인스턴스를 구성한다.

집단 스킬 강화학습(CSRL)

CSTS는 구조적 스킬 경로를 제공하지만, 같은 하위 작업에 후보 스킬이 여럿일 때 어떤 스킬 조건 전략이 더 효과적인지를 정책이 명시적으로 학습하지는 않는다. 이를 보완하기 위해 저자들은 그룹 상대 정책 최적화를 스킬 조건부 롤아웃 그룹으로 확장한 CSRL을 도입한다. 각 하위 작업 tm에 대해 이전 정책이 각 스킬마다 G개의 롤아웃을 샘플링하고, 같은 하위 작업의 모든 롤아웃을 하나의 집단 스킬 조건부 그룹 Bm으로 묶는다.

핵심은 보상 정규화를 같은 스킬에서 나온 롤아웃 안으로 한정하지 않고, 그룹 Bm 전체에 걸쳐 상대 어드밴티지를 계산한다는 점이다. 그룹 평균 µm과 표준편차 σm을 사용해 어드밴티지 A^g_(m,n)을 다음과 같이 정의한다.

A^g_(m,n) = (r^g_(m,n) - mu_m) / (sigma_m + delta)

이 교차 스킬 정규화는 각 롤아웃이 같은 하위 작업의 다른 스킬로 생성된 궤적들과 경쟁하게 만들어, 정책이 더 효과적인 스킬 조건 전략을 선호하도록 유도한다. 이후 GRPO 스타일의 클립된 목적 함수로 정책을 최적화하며, 행동 수준 확률 비율과 클립 항을 결합한 CSRL 손실로 최종 모델 OpenClaw-Skill을 학습한다. 이 목적을 통해 집단 그룹 대비 어드밴티지가 양수인 고보상 롤아웃의 행동 가능도는 높이고, 비효율적인 스킬 조건 행동은 억제한다.

주요 결과

저자들은 Qwen3-4B, Qwen3-8B, Qwen3.5-4B, Qwen3.5-9B 네 가지 백본으로 실험했다. CSTS로 2K개의 고품질 SFT 예시를 수집해 각 모델을 8개의 H100 GPU에서 학습률 5e-6, 2 에폭으로 미세조정했다. 평가는 장기 에이전트 작업을 다루는 두 실세계 벤치마크 QwenClawBench와 PinchBench에서 수행했다.

QwenClawBench 결과

QwenClawBench에서 OpenClaw-Skill은 평가한 모든 Qwen 백본에서 일관된 전체 점수 향상을 보였다. 전체 점수는 Qwen3-4B에서 5.8점, Qwen3-8B에서 4.3점, Qwen3.5-4B에서 9.7점, Qwen3.5-9B에서 10.4점 올랐다. 기본 백본인 Qwen3.5 기반의 OpenClaw-Skill 4B와 9B는 각각 전체 41.2점과 44.9점에 도달했다.

향상은 장기 도구 사용과 실행 피드백이 관여하는 범주에서 가장 뚜렷했다. 예를 들어 OpenClaw-Skill 9B는 SVM 범주를 33.2에서 70.9로, CS 범주를 30.2에서 78.4로 끌어올렸고, OpenClaw-Skill 4B는 RIR 범주를 24.4에서 54.1로 높였다. 이는 CSTS가 만든 스킬과 CSRL이 절차적 지침 준수, 중간 상태 검증, 실행 오류 복구 능력을 개선함을 시사한다.

다음은 QwenClawBench 전체 점수의 일부 비교다.

모델	전체 점수	향상폭
Claude Opus 4.6 (폐쇄형)	59.5	-
GPT-5.4 (폐쇄형)	56.7	-
GLM-5.1 (오픈)	58.7	-
Qwen3.5-4B	31.5	-
OpenClaw-Skill 4B	41.2	9.7 상승
Qwen3.5-9B	34.5	-
OpenClaw-Skill 9B	44.9	10.4 상승

PinchBench 결과

PinchBench는 23개 작업의 초기 버전과 123개 작업으로 확장한 버전으로 평가한다. OpenClaw-Skill은 두 버전 모두에서 대응하는 Qwen 백본을 일관되게 개선했다. 23개 작업 설정에서 OpenClaw-Skill 9B는 Qwen3.5-9B의 최고 성공률을 67.5에서 72.8로, 평균 성공률을 53.8에서 58.9로 높였다.

123개 작업 설정에서는 향상이 더 두드러진다. OpenClaw-Skill 9B는 최고 점수를 61.1에서 68.2로, 평균 점수를 47.1에서 53.6으로 올렸다. 작은 백본에서도 평균 점수가 Qwen3-4B는 13.6에서 20.8로, Qwen3-8B는 18.3에서 22.5로 개선되어, 최고 성능과 평균 실행 견고성을 함께 높였다.

다음은 PinchBench 결과 일부다.

모델	23작업 최고	23작업 평균	123작업 최고	123작업 평균
Qwen3.5-4B	71.0	55.7	60.9	45.9
OpenClaw-Skill 4B	71.5	56.4	61.4	47.6
Qwen3.5-9B	67.5	53.8	61.1	47.1
OpenClaw-Skill 9B	72.8	58.9	68.2	53.6

어블레이션 분석

저자들은 Qwen3.5-9B를 백본으로 각 구성 요소의 기여를 분석했다. 기본 모델 점수 34.5에서 시작해 CSN-Gen을 추가하면 39.8로 올랐는데, 이는 집단 궤적에서 추출한 다양한 스킬이 유용한 절차적 지도를 제공함을 보여준다. CSN-Assess를 더하면 42.8로 올라, 다중 심판 품질 평가와 교차 모델 전이성 평가가 잡음이 많거나 재사용성이 낮은 스킬 노드를 걸러냄을 나타낸다.

마지막으로 CSRL을 추가하면 44.9로 올라, 스킬 조건부 롤아웃 그룹에 대한 강화학습이 스킬 기반 SFT를 넘어선 추가 정책 개선을 제공함을 보여준다.

설정	CSN-Gen	CSN-Assess	CSRL	전체 점수
Qwen3.5-9B	미적용	미적용	미적용	34.5
CSN-Gen 추가	적용	미적용	미적용	39.8
CSN-Assess 추가	적용	적용	미적용	42.8
OpenClaw-Skill	적용	적용	적용	44.9

한계와 주의사항

논문은 OpenClaw-Skill이 폐쇄형 프런티어 모델과의 절대 격차를 완전히 좁히지는 못함을 결과 표에서 드러낸다. QwenClawBench에서 OpenClaw-Skill 9B의 44.9점은 Claude Opus 4.6의 59.5점이나 GPT-5.4의 56.7점에 여전히 못 미친다. 또한 일부 범주에서는 향상이 균일하지 않으며, 예를 들어 OpenClaw-Skill 4B의 FQT 범주는 15.4에서 7.8로 오히려 떨어졌다.

방법론 측면에서 CSTS는 여러 이질적 모델의 궤적 생성과 다중 심판 평가에 의존하므로, 참여 모델과 심판 구성에 따라 스킬 품질이 좌우될 여지가 있다. 실험은 Qwen 계열 네 백본과 2K SFT 예시 규모로 수행되었으므로, 더 큰 데이터 규모나 다른 모델 계열로의 확장성은 본 논문 범위에서 직접 검증되지 않았다.

결론

OpenClaw-Skill은 자동 스킬 구축과 스킬 증강 학습으로 OpenClaw 같은 실세계 시스템에서 LLM 에이전트를 강화하는 프레임워크다. 핵심은 집단 지성을 활용해 구조적이고 다양하며 일반화 가능한 스킬 트리를 만드는 트리 탐색 기반 CSTS이며, 이는 집단 스킬 노드 생성과 평가라는 두 반복 단계로 작동한다. 여기에 스킬 조건부 롤아웃 그룹을 최적화하는 CSRL을 더해 모델이 더 효과적인 절차 전략을 선호하도록 유도한다.

QwenClawBench와 PinchBench 실험, 어블레이션 분석은 OpenClaw-Skill이 도구 사용, 파일 조작, 웹 상호작용, 실행 피드백을 포함한 다양한 장기 작업에서 강력한 성능을 달성함을 보여준다.

Reference

OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models (arXiv)

AI Agent Benchmark Evaluation