포스트

Agentic Code Review : 작성은 저렴해지고 검증이 병목이 된 시대

목차

  1. 개요
  2. 배경
  3. 핵심 내용
  4. 의미와 시사점
  5. 결론
  6. Reference

개요

Addy Osmani는 AI 에이전트 시대의 코드 리뷰를 다룬 글에서 한 가지 변화를 지적한다. 코드를 작성하는 비용은 급격히 낮아졌지만, 그 코드를 신뢰할지 판단하는 검증 작업은 새로운 병목이 되었다는 것이다. 그는 이를 “엔지니어링의 어려운 부분이 코드를 작성하는 일에서 그 코드를 신뢰할지 결정하는 일로 옮겨갔다”고 표현한다. 원문 표현으로는 “hard part of engineering moved from writing code to deciding whether to trust it”이다. AI 에이전트가 막대한 양의 코드를 생성하면서, 인간 리뷰어가 그 속도를 따라잡지 못하는 상황이 발생한다. 이 글은 2026년 데이터를 근거로 그 병목의 실체를 짚고, 리뷰의 새 역할과 실무 전략을 제시한다.

배경

기존의 코드 리뷰는 작성자가 자신의 의도를 함께 전달하는 과정을 전제로 했다. 인간이 작성한 코드에는 왜 이렇게 짰는지에 대한 맥락이 따라온다. 그러나 AI 에이전트가 생성한 코드는 의도에 대한 설명이 제거된 채 제출된다. 생산되는 코드의 양은 폭증하지만, 그 코드가 실제로 가치를 만들어내는지에 대한 검증은 인간의 시간에 묶여 있다. 이 비대칭이 검증 병목의 핵심이다.

핵심 내용

데이터가 보여주는 검증 병목

Faros AI는 22,000명의 개발자를 추적한 데이터를 제시한다. 코드 체크인은 861% 증가했다. 인시던트 대비 PR 비율은 242.7% 증가했다. 개발자 결함률은 9%에서 54%로 올랐다. 리뷰 기간은 441.5% 증가했고, 리뷰 없이 병합되는 PR도 31.3% 증가했다. 즉 생산량은 늘었지만 결함이 함께 늘고, 리뷰에 걸리는 시간도 함께 늘었으며, 일부는 검증 없이 통과되고 있다.

GitClear의 데이터는 다른 각도에서 같은 문제를 보여준다. 4배의 코드 생산량이 약 12% 정도의 실제 가치 증대로 이어졌다. 생산량과 가치 사이의 간극이 크다는 뜻이다.

지표변화
코드 체크인861% 증가
인시던트 대비 PR 비율242.7% 증가
개발자 결함률9%에서 54%로 증가
리뷰 기간441.5% 증가
리뷰 없이 병합된 PR31.3% 증가
코드 4배 생산 대비 가치약 12% 증대

리뷰의 새로운 역할

인간이 작성한 코드를 리뷰할 때, 리뷰어는 작성자의 사고 과정을 검증한다. 작성자가 왜 그렇게 판단했는지를 따라가며 타당성을 본다. 그러나 AI 에이전트의 PR을 리뷰할 때는 상황이 다르다. Addy Osmani는 에이전트의 PR을 리뷰하는 순간, 리뷰어가 그 코드를 본 최초의 인간이 되는 경우를 지적한다. 원문 표현으로는 “reviewing an agent’s PR made them the first human being to ever lay eyes on this code”이다. 이때 리뷰어는 작성자의 의도를 검증하는 것이 아니라, 애초에 존재하지 않는 의도를 재구성해야 하는 처지에 놓인다. 리뷰가 검증에서 의도 재구성으로 성격이 바뀌는 것이다.

AI 리뷰 도구 비교

글은 AI 리뷰 도구를 정밀도와 재현율 관점에서 비교한다. CodeRabbit은 가장 널리 배포되어 있으며, 정밀도가 49%로 높은 편이다. Greptile은 재현율이 82%로 높지만 거짓 양성이 더 많다. Anthropic Code Review는 오류율이 1% 미만이며, 실질적으로 리뷰 대상이 되는 비율을 16%에서 54%로 끌어올렸다.

도구특징
CodeRabbit가장 널리 배포, 정밀도 49%
Greptile재현율 82%, 거짓 양성 다수
Anthropic Code Review오류율 1% 미만, 실질 리뷰 대상 16%에서 54%로 증가

가장 주목할 발견은 4가지 리뷰 도구를 병렬로 실행한 결과에서 나온다. 탐지된 문제 중 93.4%는 정확히 하나의 도구만 감지했다. 네 도구가 같은 줄을 동시에 지적한 경우는 단 한 건도 없었다. 이는 각 도구가 서로 다른 종류의 문제를 잡아낸다는 의미이며, 이질적인 도구를 함께 쓰는 것이 중요하다는 근거가 된다.

상황별 리뷰 전략

모든 코드에 같은 강도의 리뷰를 적용할 필요는 없다. 글은 세 가지 변수를 기준으로 리뷰 강도를 조정할 것을 제안한다. 첫째는 영향 범위(blast radius)이다. 영향이 없는 변경과 사용자 손실, 금전 손실, 개인정보 노출로 이어질 수 있는 변경은 다르게 다뤄야 한다. 둘째는 코드 수명이다. 일회용 프로토타입과 장기 유지보수 시스템은 같은 기준으로 볼 수 없다. 셋째는 필요한 이해의 범위이다. 개인 프로젝트와 팀이 공유하는 시스템은 요구되는 이해도가 다르다.

변수한쪽 끝반대쪽 끝
영향 범위영향 없음사용자, 금전, 개인정보 손실
코드 수명일회용 프로토타입장기 유지보수 시스템
이해 범위개인 프로젝트팀 공유 시스템

사용자가 없는 솔로 개발자와 10년 된 엔터프라이즈 시스템은 완전히 다른 문제다. 같은 리뷰 규칙을 양쪽에 똑같이 적용하는 것은 적절하지 않다.

실무 적용 가이드

글은 구체적인 적용 방법을 제시한다. 첫째, 위험 기반 계층화이다. 설정 변경은 린터와 가벼운 훑어보기로 충분하다. 반면 핵심 비즈니스 로직은 타입, 테스트, 2개의 AI 리뷰어, 인간 검토, 보안 검사를 모두 거치게 한다.

둘째, 빠른 실패다. Early-Stage Prediction 논문에 따르면 에이전트는 주관적 피드백을 받으면 포기하는 경향이 있다. 따라서 대규모 PR을 사전에 필터링하는 단계가 필요하다.

셋째, 입장 요구사항이다. 변경 목적을 설명하고, 의미 있는 크기의 diff를 제출하며, 테스트 실행을 증명한 PR만 리뷰를 진행한다. 증거 기반의 리뷰만 받아들이는 것이다.

넷째, 리뷰 집중 지점이다. 테스트 변경사항을 코드 변경보다 더 신중하게 검토해야 한다. 에이전트가 깨진 동작에 맞추기 위해 테스트 자체를 수정하는 패턴을 감시해야 한다.

다섯째, CI 엄격성이다. 제거된 테스트, 스킵된 린트, 낮아진 커버리지 임계값을 감시한다. 프롬프트 인젝션 위험도 함께 확인한다.

영역리뷰 강도
설정 변경린터, 가벼운 훑어보기
핵심 비즈니스 로직타입, 테스트, 2개 AI 리뷰어, 인간 검토, 보안 검사
테스트 변경코드보다 더 신중한 검토
CI 게이트제거된 테스트, 스킵된 린트, 커버리지 하락 감시

팀 관점과 개인 적용

팀 관리 관점에서 병목은 이동했다. 이전의 병목은 코드를 작성하는 속도였다. 현재의 병목은 신뢰할 수 있는 인간이 검증하는 속도다. 이해 작업은 무료가 아니다. 그런데 AI가 빨라졌다는 이유로 리뷰 인력을 감축하는 것은 위험하다. 생산량은 늘고 검증 능력은 줄면, 검증 없이 통과되는 코드가 늘어날 뿐이다.

Addy Osmani 자신의 적용 방식도 소개된다. 그는 들어오는 PR 묶음에 Claude Code나 Codex를 붙여 큐를 분류하게 한다. 원문 표현으로는 “point Claude Code or Codex at a batch of incoming PRs and have them triage the queue”이다. 두 에이전트에 리뷰를 요청하고, 저위험 변경 확인에는 몇 분만 쓰며, 고위험으로 플래그된 항목에 실제 시간을 투자한다. 다만 병합 결정은 본인이 유지한다.

극단적인 사례로 전 Meta L8 출신 Kun Chen의 방식이 언급된다. 그는 하루 40개의 PR을 배포한다. 상세한 사전 계획을 세우고, 20에서 30개의 에이전트를 병렬로 실행하며, 자동화된 No Mistakes 검증 게이트를 둔다. 에스컬레이션이 발생할 때에만 직접 개입한다. 단 이 방식은 사용자가 없는 독립 개발자에게만 적용 가능하다는 점이 분명히 명시된다.

의미와 시사점

상황에 따라 접근법은 달라져야 한다. 개인이거나 사용자가 없는 경우에는 AI 리뷰를 대부분 신뢰하되, 테스트만큼은 신중하게 보고 전반적으로 가벼운 터치를 유지한다. 중소 규모이거나 성장 중인 팀은 이질적인 2개 리뷰어를 쓰고, 인간 확인을 더하며, 위험 기반 계층화를 적용한다. 대규모이거나 고영향 시스템은 모든 계층을 적용하고, 엄격한 입장 요구사항을 두며, CI 보호와 인간 소유권을 유지한다.

상황접근법
개인, 사용자 없음AI 리뷰 대부분 신뢰, 테스트 신중, 가벼운 터치
중소 팀, 성장 중이질적 2개 리뷰어, 인간 확인, 계층화
대규모, 고영향모든 계층 적용, 엄격한 입장, CI 보호, 인간 소유권

남은 가치가 무엇인지도 분명하다. 시스템에 대한 이해, 변경이 옳은지에 대한 인간적 판단, 명시되지 않은 요구사항을 감지하는 능력, 그리고 책임성이다. 에이전트는 책임을 질 수 없다. 이 네 가지는 작성이 저렴해진 뒤에도 인간에게 남는 영역이다.

결론

Addy Osmani는 가장 오래 살아남고 가장 흥미로운 기술을 한 문장으로 정리한다. “Understanding a system well enough to stand behind it is the most durable and most interesting skill”이다. 어떤 시스템을 자신이 책임질 수 있을 만큼 깊이 이해하는 능력이 가장 지속적이고 가장 흥미로운 기술이라는 의미다. 본질은 단순하다. 작성은 저렴해졌지만 이해는 여전히 비싸다. 신뢰할 수 있는 검증 시스템을 구축하는 팀이 결국 앞서간다.

Reference