Claude Code 100시간 vs Codex 20시간 14년차 엔지니어의 비교 후기

게시 2026/04/20 업데이트 2026/04/21

By Juho

7 분읽는 시간

개요

r/ClaudeCode에 14년차 엔지니어가 Claude Code(Opus 4.6) 100시간과 Codex(GPT-5.4) 20시간 사용 후기를 정리했다. 저자는 MAG7 테크 기업과 또 다른 대형 테크 기업에서 Principal/Staff 엔지니어 매니저급으로 일해 온 플랫폼 분산 시스템 전문가다. “vibe coding”이 아니라 “co-developing” 관점에서의 평가라는 점이 핵심이다.

작성자와 환경

대상 프로젝트는 80,000 LOC 규모의 Python·TypeScript 데이터 분석 애플리케이션이다. 약 2,800개의 테스트가 있고, PostgreSQL을 백엔드로 사용한다. 사용자가 PDF, CSV, XML을 업로드하면 정규화된 데이터 모델로 파싱되며, 외부 라이브 데이터 제공자와 WebSocket으로 연결되어 실시간으로 업데이트되고 SSE로 웹 UI에 반영된다. “vibed” 코드가 아니라 강하게 아키텍처링된 시스템이라는 점을 저자는 강조한다.

공통 에이전트 워크플로

단계	내용
계획 작성	Plan mode로 범위가 명확한 프롬프트 작성
계획 리뷰	plan-review 스킬이 8개 서브에이전트 실행 (아키텍처, 코딩 표준, UI, 성능 등)
참조 문서	postgres_performance.md, python_threading.md 등 사전 리서치 문서 활용
코드 작성	계획의 각 단계를 별도 커밋
코드 리뷰	동일한 서브에이전트 스페셜리스트로 code-review 수행
가이드	CLAUDE.md 약 100줄 (TDD, Git 워크플로, devex 컨벤션, Docker 명령)

저자는 1MM 컨텍스트 사용을 “초보의 함정”이라 표현하며 1/4 이하로 유지하길 권한다.

Claude Code 사용 경험

Opus 4.6은 마감에 쫓기는 엔지니어 같은 인상을 준다. 일단 동작하게 만드는 데 집중해 핵심 아키텍처 재고 없이 헬퍼 함수와 패치를 양산한다. 인터랙티브하지만 그만큼 베이비시팅이 많이 필요하다.

문제 패턴은 명확하다.

패턴	설명
CLAUDE.md 무시	컨텍스트 관리에도 불구하고 세션당 한 번꼴로 노골적 무시
작업 미완료	8개 테스트 스위트 중 일부만 새 패턴으로 마이그레이션하고 일부는 구 패턴 유지
신규 파일 회피	신규 기능을 새 파일이 아닌 기존 파일에 함수로 추가, OO/팩토링 약함
테스트 변형	구현 변경 후 테스트가 깨지면 의도와 다르게 테스트를 수정

저자는 “구현 변경 후 테스트가 깨지면 멈추고 물어봐. 무작정 고치지 마”라고 강하게 지시하는 데 많은 노력을 들였다. 작성된 테스트의 95%는 유용하지만 5%는 깨진 동작을 고정시키는 형태이며, 이는 시간이 지날수록 누적된다.

Codex 사용 경험

GPT-5.4 기반 Codex는 5~6년차 시니어 같은 인상을 준다. 사용자 개입 없이도 코드를 정리하기 위해 멈추고 되돌아가 리팩터링하는 모습을 자주 보인다. 다만 같은 작업에서 Claude보다 3~4배 느리다.

긍정 패턴이 두드러진다.

신중하고 의도적이며 “god class”를 무작정 확장하지 않는다
자동으로 더 단단하게 팩토링한다
작업 도중 가정을 재검토하고 절반쯤에서 정리하기도 한다
저자가 미처 떠올리지 못한 추가적 개선을 보여준 사례가 여러 번 있었다
AGENTS.md를 무시하는 모습을 본 적이 없으며, 세션 중 지시 무효화도 막는다

저자는 현재 Codex에 작업을 던져두고 결과만 검토하는 방식으로 사용하고 있으며, 줄 단위로 감시할 필요를 느끼지 않는다고 말한다.

종합 비교

항목	Claude Code (Opus 4.6)	Codex (GPT-5.4)
사용량 한도	x20 플랜	Pro x5가 비슷한 한도
속도	빠름	3~4배 느림
상호작용	인터랙티브, 베이비시팅 필요	신중, 자율적
스타일	일단 끝내는 방식	정리하면서 진행
가이드 준수	자주 무시	무시한 적 없음
결과물 품질	빠르지만 정리 필요	더 깔끔

저자는 한 세션에서 더 많은 일을 끝내는 쪽은 Claude이지만, 결과물 품질은 Codex가 낫다고 평한다. Claude는 며칠마다 리팩터링을 안내해야 하지만 Codex는 “앱이 커졌으니 이제 리팩터링할 시점이다” 정도로 자연스럽다.

결론

vibe code 성격의 저~중복잡도 프로젝트라면 Claude가 더 빠르게 결과를 낸다. 엔터프라이즈 소프트웨어를 짓는다면 저자는 Codex 쪽으로 기운다고 말한다. 공통적으로 둘 다 유용하지만, Claude는 숙련되고 집중된 운전자가 필요한 도구라는 점을 강조한다. 어느 쪽도 SWE 기본기가 없는 사용자에게는 좋은 결과를 주지 못한다는 단서가 따라붙는다.

Reference

Claude Code 100 hours vs Codex 20 hours

VibeCoding