포스트

Anthropic Skill Creator 업데이트 - Eval 테스트와 멀티 에이전트 검증

목차

  1. 개요
  2. 배경
  3. 핵심 내용
  4. 의미와 시사점
  5. 결론

개요

Anthropic이 skill-creator에 대한 주요 업데이트를 발표했다. 이번 업데이트는 Eval(평가 테스트), 멀티 에이전트 비교, 벤치마크 모드, 트리거 최적화 등 스킬의 품질을 체계적으로 관리할 수 있는 기능들을 포함하고 있다.

배경

Agent Skills란 Claude에게 특정 작업 수행 방식을 가르치는 레시피다. 예를 들어 Word 문서 작성 형식이나 계약서 검토 기준 같은 지침을 스킬로 정의할 수 있다. 기존에는 스킬을 작성한 뒤 실제 동작을 검증하는 체계적인 방법이 부족했는데, 이번 업데이트로 테스트와 검증 도구가 추가되었다.

핵심 내용

Eval 평가 테스트

테스트용 프롬프트를 작성하고 기대하는 동작을 정의하면 자동으로 검증이 가능하다. 모델 업데이트 이후에도 스킬이 정상적으로 작동하는지 미리 확인할 수 있다. 이를 통해 모델 버전이 바뀌더라도 스킬의 안정성을 유지할 수 있다.

멀티 에이전트 지원 및 비교 기능

독립된 에이전트들이 동시에 깨끗한 환경에서 테스트를 실행한다. 비교 에이전트는 편향 없이 개선 여부를 판단한다. 이를 통해 스킬 변경 전후의 품질 차이를 객관적으로 평가할 수 있다.

벤치마크 모드

eval 통과율, 처리 시간, 토큰 사용량을 수치로 기록하고 추적할 수 있다. 정량적인 지표를 기반으로 스킬 성능을 관리할 수 있게 되었다.

트리거 최적화

스킬이 올바른 상황에서만 발동하도록 AI가 자동으로 설명을 분석한다. 분석 결과를 바탕으로 수정안을 제안하여 불필요한 스킬 발동을 줄인다.

의미와 시사점

현재 SKILL.md는 “어떻게” 수행할지를 알려주는 방식으로 동작한다. 하지만 향후 모델이 발전하면 “무엇을” 할지만 설명해도 처리가 가능해질 것으로 전망된다. 이번 업데이트는 그 과도기에서 스킬의 품질과 신뢰성을 확보하기 위한 도구를 제공한다는 점에서 의미가 있다.

결론

Anthropic의 skill-creator 업데이트는 Eval 테스트, 멀티 에이전트 비교, 벤치마크 모드, 트리거 최적화를 통해 스킬 관리의 체계성을 높였다. 특히 모델 업데이트 후에도 스킬이 의도대로 동작하는지 자동 검증할 수 있다는 점이 실무적으로 유용하다. Agent Skills 기반의 워크플로우를 운영하는 팀이라면 주목할 만한 변화다.