포스트

Claude Code 피드백 루프: 에이전트가 스스로 검증하게 만들기

목차

  1. 개요
  2. 배경
  3. 프로세스를 글로 적어라
  4. 프로세스를 스킬로 인코딩하라
  5. 머지 전 두 번째 에이전트로 코드 리뷰
  6. 종합: 두 레이어를 하나의 워크플로로
  7. 의미와 시사점
  8. 결론
  9. Reference

개요

더 야심찬 작업을 Claude에 위임할수록, Claude가 자기 작업을 스스로 검증할 수 있는지가 중요해진다. Claude가 자기 검증을 더 잘할수록 장기 작업을 더 독립적으로 수행하고, 최종 결과의 품질이 향상되며, 원하는 결과에 도달하기까지의 왕복 횟수가 줄어든다. 이 글은 Anthropic의 delba_oliveira가 정리한 “Feedback loops” 접근을 바탕으로, 사람이 수동으로 하던 점검을 어떻게 Claude의 피드백 루프 안으로 인코딩하는지 다룬다.

배경

검증이 사람에게 의존하면 코딩 세션이 턴제 게임이 된다. 그 결과 에이전트의 핵심인 자율성을 잃는다.

Claude는 이미 결정론적 신호에 대해서는 스스로 검증한다. 타입 에러, 린트 에러, 실패하는 테스트, 런타임 에러가 그 신호이며, 모델이 좋아질수록 이 능력은 더 나아진다.

Claude가 항상 추론하지 못하는 것은 사람이 응답을 받은 뒤 수동으로 하는 점검들이다. 또한 프로덕션 머지 전에 거치는 점검들도 마찬가지다. 이런 점검을 더 많이 인코딩할수록 Claude의 첫 응답이 원하던 최종 결과에 가까워진다. 사람은 베이비시팅에 쓰는 시간을 줄이고, Claude는 사용자가 다른 일을 하는 동안 계속 진행할 수 있다.

프로세스를 글로 적어라

팀이 이미 수행하는 베스트 프랙티스를 글로 적는 것에서 시작한다. 프런트엔드 작업이라면 보통 다음과 같은 흐름이 있다.

개발 서버를 실행하고, 브라우저를 열고, 콘솔 에러를 확인한다. 이어서 사용자처럼 클릭해보며 레이아웃 시프트나 느린 내비게이션을 점검한다.

각 도메인마다 자기 버전의 프로세스가 있다. 그리고 각 단계마다 Claude가 검증에 활용할 수 있는 도구가 있을 가능성이 크다.

프로세스를 스킬로 인코딩하라

프로세스가 명확해지면 가능한 만큼 스킬로 인코딩한다. skill-creator 플러그인을 설치한 뒤 Claude가 직접 인터뷰하게 만들 수 있다.

1
/skill-creator Create a skill for verifying frontend changes end-to-end. Interview me about my workflow.

말로 표현하기 어렵다면 도메인 베스트 프랙티스를 먼저 물어본 뒤, end-to-end 검증 흐름을 보여달라고 요청하면 된다.

취향이나 판단은 코드화하기 어렵다. 하지만 많은 점검은 측정 기준을 가진다. 성능 예산, 접근성 체크리스트, 디자인 시스템 규칙, 좋은 예시와 나쁜 예시가 그것이다.

예를 들어 프런트엔드 스킬은 Chrome DevTools MCP나 Agent 브라우저로 성능 트레이스를 캡처하는 지침을 포함할 수 있다.

frontend-verify 스킬은 실제 브라우저에서 2단계 검증을 수행하는 형태로 구성할 수 있다.

다음은 2단계 검증의 구성이다.

단계검증 내용
Step 1변경이 기대대로 동작하는지 확인한다. 브라우저에서 URL을 열고 새 요소와 상호작용해 렌더와 동작을 확인한다.
Step 2모바일 감사를 통과하는지 확인한다. Chrome DevTools MCP로 새 페이지를 열고 성능 트레이스와 Core Web Vitals를 감사한다.

더 정성적인 점검은 과거 norm과 데이터를 비교하는 방식으로 한다. 이때는 Claude와 함께 평가 루브릭을 정한다.

머지 전 두 번째 에이전트로 코드 리뷰

위 과정은 에이전틱 루프 안에서 일어난다. 머지 직전에는 다른 에이전트에게 리뷰를 요청하는 두 번째 검증 단계가 있다.

새 에이전트는 코드를 작성한 에이전트의 편향을 갖지 않는다. 또한 자체 컨텍스트를 가지므로 이전 대화에 영향받지 않는다. 이 격리가 리뷰를 더 정직하게 만들고, 첫 에이전트가 놓친 것을 잡아낸다.

다음은 수동에서 자동으로 가는 리뷰 옵션이다.

옵션설명
/review빌트인 스킬이다. 터미널에서 PR을 1패스로 읽는다.
/code-review설치형 플러그인이다. 여러 서브에이전트가 병렬로 다른 각도에서 diff를 읽고, 확신도를 점수화한 뒤 PR에 결과를 게시한다.
Claude Code ReviewGitHub에서 모든 PR에 자동 실행되는 매니지드 서비스다. Team과 Enterprise 플랜에서 제공된다.

종합: 두 레이어를 하나의 워크플로로

이로써 두 레이어가 생긴다. 하나는 Claude가 빌드하는 동안 도는 검증이다. 다른 하나는 코드를 작성하지 않은 에이전트의 머지 전 리뷰다.

둘 다 같은 개발 라이프사이클에 속한다. 변경, 정리, 동작 확인, 커밋, PR 열기, 리뷰 받기, CI 주시로 이어진다.

다른 스킬을 호출하는 스킬을 작성하면 이 모든 단계를 하나의 워크플로로 묶을 수 있다. 예로 Claude Code 팀은 기능 작업 시 실행하는 스킬에 여러 단계를 묶는다.

/simplify로 diff를 정리하고, 커스텀 /verify로 end-to-end 동작을 확인한다. UI 변경 시 디자인 체크를 수행하고, PR을 열고 구독한다. 그리고 CI를 주시하며 실패를 고치는 스킬을 함께 묶는다.

의미와 시사점

피드백 루프의 핵심은 검증의 주체를 사람에서 에이전트로 옮기는 데 있다. 사람의 점검 절차를 명문화하고 스킬로 인코딩할수록, 첫 응답의 품질이 올라가고 왕복 횟수가 줄어든다.

또한 검증을 단일 단계가 아닌 두 레이어로 나눈 점이 중요하다. 빌드 중 검증과 머지 전 독립 리뷰를 분리하면, 작성자 편향에서 자유로운 점검 지점이 하나 더 확보된다.

스킬이 다른 스킬을 호출하는 구조는 검증을 일회성 명령이 아니라 재사용 가능한 워크플로로 만든다. 이는 개별 점검을 개발 라이프사이클 전체에 일관되게 적용할 수 있게 한다.

결론

피드백 루프를 만들고 스킬을 묶으면 Claude가 더 많은 작업을 end-to-end로 검증하고 실행할 수 있다. 사람의 베스트 프랙티스를 글로 적고, 스킬로 인코딩하고, 머지 전 독립 에이전트 리뷰를 더하는 것이 그 출발점이다.

Reference