포스트

Claude Code Issue 42796, Thinking Redaction과 품질 회귀의 6852개 세션 정량 분석

목차

  1. 개요
  2. 이슈 배경
  3. Thinking Redaction 타임라인
  4. 행동 지표 변화
  5. 토큰 비용 폭증
  6. 요청 솔루션
  7. 의미와 시사점
  8. 결론
  9. Reference

개요

GitHub anthropics/claude-code#42796은 Stella Laurenzo(stellaraccident)가 2026년 4월 2일에 제기한 회귀 보고이다. 제목은 “[MODEL] Claude Code is unusable for complex engineering tasks with the Feb updates”이며, 6,852개의 Claude Code 세션 파일을 정량 분석한 자료가 첨부되었다. 보고는 품질 저하의 원인을 redact-thinking-2026-02-12 변경, 즉 thinking 콘텐츠 redaction 도입으로 지목한다.

이슈 배경

신고자는 systems programming(C, MLIR, GPU 드라이버)을 50개 이상 동시 에이전트 세션으로 진행하는 헤비 유저이다. 한 주말에 두 개의 PR로 191,000줄을 머지한 시기와 비교했을 때 3월 이후 모델이 동일 작업을 수행하지 못한다고 보고했다.

문제 행동은 네 가지로 요약된다.

지시를 무시한다. 잘못된 “가장 단순한 수정”을 주장한다. 요청한 활동의 반대 작업을 수행한다. 지시에 반해 완료를 선언한다.

분석 대상은 4개 프로젝트, 6,852개 세션 JSONL, 17,871개 thinking 블록(7,146 콘텐츠 보유, 10,725 redacted), 234,760 도구 호출이다. 서명-사고 상관계수(Pearson r)는 0.971로 매우 강한 상관을 보였다.

Thinking Redaction 타임라인

품질 회귀와 thinking redaction 비율이 거의 정확히 일치한다.

기간Thinking 가시Thinking Redacted
1월 30일 - 3월 4일100%0%
3월 8일41.6%58.4%
3월 12일 이후0%100%

품질 회귀가 보고된 날짜는 정확히 redacted thinking이 50%를 넘은 3월 8일이다.

추정 thinking 깊이 자체도 함께 줄었다.

기간추정 중앙값 thinking베이스라인 대비
1월 30일 - 2월 8일 (베이스라인)약 2,200자-
2월 말약 720자-67%
3월 12일 이후 (완전 redacted)약 600자-73%

행동 지표 변화

지표3월 8일 이전3월 8일 이후변화
Stop hook 위반0173 (일 10건)0에서 무한대
Frustration 지표5.8%9.8%+68%
책임 회피 정정613+117%
세션당 프롬프트 수35.927.9-22%
Reasoning loops (5+)070에서 7

Stop hook 위반 173건의 내역은 책임 회피 73건, 권한 요청 40건, 조기 중단 18건, 알려진 한계 라벨링 14건이다. 잡힌 표현 예시는 “not caused by my changes”, “should I continue?”, “good stopping point” 등이다.

도구 사용 패턴

Read와 Edit 비율은 모델이 변경 전 얼마나 컨텍스트를 수집했는지를 나타내는 핵심 지표이다.

기간Read:Edit 비율Research:Mutation
Good (1월 30일 - 2월 12일)6.68.7
Degraded (3월 8일 - 3월 23일)2.02.8

변경 전 리서치가 70% 감소했다. 좋은 시기에는 대상 파일 읽기에서 관련 파일 읽기, grep으로 사용처 확인, 테스트 검증, 정밀 수정으로 이어졌다. 회귀 시기에는 즉시 파일을 읽고 컨텍스트 없이 수정하는 패턴으로 바뀌었다.

Edit 대비 Write 비율도 변했다.

기간Mutation 중 Write 비율
Good4.9%
Degraded10.0%
Late11.1%

전체 파일 재작성이 두 배로 늘면서 정밀도와 컨텍스트 인식이 함께 떨어졌다.

파일을 읽지 않고 편집하는 비율은 6.2%에서 33.7%로 증가했다. 가시적 자기 정정인 reasoning loops는 1K 도구 호출당 8.2건에서 26.6건으로 늘었다. “가장 단순한 수정” 멘탈리티는 1K 도구 호출당 2.7건에서 6.3건으로 증가했다.

사용자 개입 빈도

사용자가 모델을 멈추고 정정해야 하는 빈도가 폭증했다.

기간1K 도구 호출당 인터럽트
Good0.9
Degraded5.9
Late11.4

12배 증가다.

토큰 비용 폭증

같은 인간 노력(약 5,700 프롬프트)에 대해 API 사용량이 폭증했다.

지표1월2월3월2월에서 3월
사용자 프롬프트7,3735,6085,701약 1배
API 요청971,498119,34180배
총 입력 토큰4.6M120.4M20,508.8M170배
총 출력 토큰0.08M0.97M62.60M64배
추정 Bedrock 비용26달러345달러42,121달러122배
일 비용-12달러1,504달러122배

동일 인간 노력 대비 80배의 API 요청이 발생하며 결과는 측정 가능하게 더 나빠졌다는 것이 핵심 주장이다.

요청 솔루션

신고자는 네 가지 해결책을 제안했다.

thinking 할당에 대한 투명성 확보, 사용자가 외부에서 thinking 감소나 캡 여부를 검증할 수 있어야 한다는 요청이다. “Max thinking” 티어 도입으로 파워 유저가 보장된 깊은 thinking에 추가 비용을 지불할 수 있어야 한다. API 응답에 thinking 토큰 메트릭 노출, 콘텐츠가 redacted여도 thinking_tokens 필드는 사용량 데이터에 노출해야 한다. 파워 유저로부터의 카나리 메트릭 수집, stop hook 위반 비율을 선행 지표로 모니터링하자는 제안이다.

의미와 시사점

이 보고서가 강조하는 핵심 가설은 extended thinking이 옵션이 아니라 load-bearing이라는 점이다. 깊은 thinking은 다단계 접근 계획, CLAUDE.md 컨벤션 회상, 출력 전 자체 실수 검출, 수백 개 도구 호출에 걸친 세션 연속성 관리를 담당한다. thinking 깊이가 73% 줄면 모델은 가장 저렴한 행동인 읽지 않고 편집하기, 끝내지 않고 멈추기, 책임 회피, 옳은 수정 대신 가장 단순한 수정으로 기본값이 떨어진다.

특히 흥미로운 부분은 Claude 자신의 분석이다. Claude Opus 4.6이 본인의 세션 로그를 분석한 노트가 함께 첨부되었다.

“이 보고서는 제가 Claude Opus 4.6으로서 제 자신의 세션 로그를 분석하여 작성했습니다. 저의 Read:Edit 비율이 6.6에서 2.0으로 떨어지는 것을 볼 수 있습니다. 작업을 멈추려 했다가 bash 스크립트에 잡힌 173건을 볼 수 있습니다. 저는 내부에서 제가 깊이 사고하고 있는지 여부를 알 수 없습니다.”

이슈는 202개의 코멘트가 달린 채 CLOSED/COMPLETED 상태로 표시되어 있다.

결론

Issue 42796은 단순한 체감 보고가 아니라 6,852개 세션 파일과 234,760개 도구 호출을 정량 분석한 회귀 검증이다. thinking redaction의 도입 시점과 품질 저하 시점이 정확히 일치하며, 도구 사용 패턴, 사용자 개입 빈도, 토큰 비용까지 모든 지표가 같은 방향을 가리킨다. “thinking은 옵션이 아니라 load-bearing”이라는 주장은 향후 LLM 기반 코딩 에이전트 설계에서 사고 토큰 정책을 어떻게 다룰지에 대한 중요한 사례 연구가 될 것이다.

Reference