AI 코드 리뷰, 정말 믿을 수 있을까? 자체 벤치마크로 검증한 기록
목차
개요
Creatrip의 한 팀이 사내 AI 코드 리뷰 도구의 신뢰성을 측정하고 개선한 여정을 공개했다. AI가 생성한 코드에 대한 리뷰가 실제로 버그를 잡아내는지, 개발자들이 그 리뷰를 실제로 반영하는지를 수치로 검증한 기록이다. 단순히 “AI 리뷰를 돌렸다”에서 끝나지 않고, 벤치마크 → 실패 → 개혁 → 개선의 피드백 루프를 명확히 보여준다.
문제 인식
생산성이 올라가는 동시에 AI가 작성한 코드의 품질 문제가 드러나기 시작했다.
| 지표 | 수치 |
|---|---|
| GitHub Octoverse 2025 연간 머지 PR 증가율 | 23% |
| CodeRabbit 리포트 AI 코드 PR당 이슈 | 인간 코드 대비 1.7배 |
| AI 코드 로직 에러 증가율 | 75% 더 많음 |
Amazon, Shopify, Stripe 같은 대기업들도 AI 코드에 대한 자동 승인을 제한하기 시작했다. 결국 “AI 리뷰를 진짜로 잘 검증하고 있는가”라는 근본 질문이 남는다.
개선 과정
1단계 자체 벤치마크 구축
실제 프로덕션 버그를 역추적해 원본 PR을 찾고, 그 PR에서 AI가 해당 버그를 잡을 수 있었는지를 측정하는 벤치마크를 만들었다. 초기 측정 결과는 33점으로, 기존의 긍정적 인상이 소수의 성공 사례에서 비롯된 환상이었음이 드러났다. 외부 벤치마크에 의존하지 않고 자사 코드베이스의 실제 버그로 평가 기준을 세운 것이 핵심이다.
2단계 서브에이전트 실패
여러 전문 서브에이전트를 조합해 리뷰 품질을 올리려 했으나 오히려 탐지율이 떨어졌다. “컨텍스트 손실”과 “책임의 공백”이 원인이었으며, 비용은 3배로 뛰었다. 자동 프롬프트 튜닝도 벤치마크 과적합과 얕은 휴리스틱 학습으로 이어져 실패했다.
3단계 평가 체계 개혁
탐지율만 추적하던 방식을 버리고 새로운 핵심 지표를 도입했다.
- 반영률(Adoption Rate): 리뷰 제안이 실제 코드 변경으로 이어진 비율
- 모델 비교: GPT-5.2 Codex vs Claude Opus 4.6 → Codex가 더 정밀한 검증 제공
탐지율이 아무리 높아도 개발자가 무시하면 의미가 없다는 통찰이다.
4단계 데이터 기반 개선
리뷰 형식 자체를 재설계했다.
- PR 본문에 “Intent”와 “Decisions” 섹션 추가
- 직접 지시가 아닌 “Question” 뱃지로 양방향 소통 유도
- 자동 스레드 해결 기능 추가
질문 형태의 리뷰는 개발자의 반감을 줄이고 대화를 유도해 반영률을 크게 끌어올렸다.
최종 결과
최종적으로 월간 반영률 63%를 달성했다. 초기 33점에서 두 배 가까이 개선된 수치로, 측정 가능한 기준을 세우고 그 기준으로 반복 개선한 결과다. 한 GeekNews 커뮤니티 토론자는 “누가 검증자를 검증하는가”라는 철학적 역설을 지적하기도 했다.
결론
AI 리뷰의 신뢰성 문제는 “감”이 아닌 “측정”으로 해결된다. 외부 벤치마크에 의존하기보다 자사 코드베이스에서 실제로 발생한 버그를 기준으로 평가 체계를 세우는 것이 훨씬 유효하다. 반영률이라는 지표는 탐지 정확도만 보는 것보다 리뷰 품질을 훨씬 더 잘 반영한다는 점도 주목할 만하다.