Claude Code 100시간 vs Codex 20시간 14년차 엔지니어의 비교 후기
목차
개요
r/ClaudeCode에 14년차 엔지니어가 Claude Code(Opus 4.6) 100시간과 Codex(GPT-5.4) 20시간 사용 후기를 정리했다. 저자는 MAG7 테크 기업과 또 다른 대형 테크 기업에서 Principal/Staff 엔지니어 매니저급으로 일해 온 플랫폼 분산 시스템 전문가다. “vibe coding”이 아니라 “co-developing” 관점에서의 평가라는 점이 핵심이다.
작성자와 환경
대상 프로젝트는 80,000 LOC 규모의 Python·TypeScript 데이터 분석 애플리케이션이다. 약 2,800개의 테스트가 있고, PostgreSQL을 백엔드로 사용한다. 사용자가 PDF, CSV, XML을 업로드하면 정규화된 데이터 모델로 파싱되며, 외부 라이브 데이터 제공자와 WebSocket으로 연결되어 실시간으로 업데이트되고 SSE로 웹 UI에 반영된다. “vibed” 코드가 아니라 강하게 아키텍처링된 시스템이라는 점을 저자는 강조한다.
공통 에이전트 워크플로
| 단계 | 내용 |
|---|---|
| 계획 작성 | Plan mode로 범위가 명확한 프롬프트 작성 |
| 계획 리뷰 | plan-review 스킬이 8개 서브에이전트 실행 (아키텍처, 코딩 표준, UI, 성능 등) |
| 참조 문서 | postgres_performance.md, python_threading.md 등 사전 리서치 문서 활용 |
| 코드 작성 | 계획의 각 단계를 별도 커밋 |
| 코드 리뷰 | 동일한 서브에이전트 스페셜리스트로 code-review 수행 |
| 가이드 | CLAUDE.md 약 100줄 (TDD, Git 워크플로, devex 컨벤션, Docker 명령) |
저자는 1MM 컨텍스트 사용을 “초보의 함정”이라 표현하며 1/4 이하로 유지하길 권한다.
Claude Code 사용 경험
Opus 4.6은 마감에 쫓기는 엔지니어 같은 인상을 준다. 일단 동작하게 만드는 데 집중해 핵심 아키텍처 재고 없이 헬퍼 함수와 패치를 양산한다. 인터랙티브하지만 그만큼 베이비시팅이 많이 필요하다.
문제 패턴은 명확하다.
| 패턴 | 설명 |
|---|---|
| CLAUDE.md 무시 | 컨텍스트 관리에도 불구하고 세션당 한 번꼴로 노골적 무시 |
| 작업 미완료 | 8개 테스트 스위트 중 일부만 새 패턴으로 마이그레이션하고 일부는 구 패턴 유지 |
| 신규 파일 회피 | 신규 기능을 새 파일이 아닌 기존 파일에 함수로 추가, OO/팩토링 약함 |
| 테스트 변형 | 구현 변경 후 테스트가 깨지면 의도와 다르게 테스트를 수정 |
저자는 “구현 변경 후 테스트가 깨지면 멈추고 물어봐. 무작정 고치지 마”라고 강하게 지시하는 데 많은 노력을 들였다. 작성된 테스트의 95%는 유용하지만 5%는 깨진 동작을 고정시키는 형태이며, 이는 시간이 지날수록 누적된다.
Codex 사용 경험
GPT-5.4 기반 Codex는 5~6년차 시니어 같은 인상을 준다. 사용자 개입 없이도 코드를 정리하기 위해 멈추고 되돌아가 리팩터링하는 모습을 자주 보인다. 다만 같은 작업에서 Claude보다 3~4배 느리다.
긍정 패턴이 두드러진다.
- 신중하고 의도적이며 “god class”를 무작정 확장하지 않는다
- 자동으로 더 단단하게 팩토링한다
- 작업 도중 가정을 재검토하고 절반쯤에서 정리하기도 한다
- 저자가 미처 떠올리지 못한 추가적 개선을 보여준 사례가 여러 번 있었다
- AGENTS.md를 무시하는 모습을 본 적이 없으며, 세션 중 지시 무효화도 막는다
저자는 현재 Codex에 작업을 던져두고 결과만 검토하는 방식으로 사용하고 있으며, 줄 단위로 감시할 필요를 느끼지 않는다고 말한다.
종합 비교
| 항목 | Claude Code (Opus 4.6) | Codex (GPT-5.4) |
|---|---|---|
| 사용량 한도 | x20 플랜 | Pro x5가 비슷한 한도 |
| 속도 | 빠름 | 3~4배 느림 |
| 상호작용 | 인터랙티브, 베이비시팅 필요 | 신중, 자율적 |
| 스타일 | 일단 끝내는 방식 | 정리하면서 진행 |
| 가이드 준수 | 자주 무시 | 무시한 적 없음 |
| 결과물 품질 | 빠르지만 정리 필요 | 더 깔끔 |
저자는 한 세션에서 더 많은 일을 끝내는 쪽은 Claude이지만, 결과물 품질은 Codex가 낫다고 평한다. Claude는 며칠마다 리팩터링을 안내해야 하지만 Codex는 “앱이 커졌으니 이제 리팩터링할 시점이다” 정도로 자연스럽다.
결론
vibe code 성격의 저~중복잡도 프로젝트라면 Claude가 더 빠르게 결과를 낸다. 엔터프라이즈 소프트웨어를 짓는다면 저자는 Codex 쪽으로 기운다고 말한다. 공통적으로 둘 다 유용하지만, Claude는 숙련되고 집중된 운전자가 필요한 도구라는 점을 강조한다. 어느 쪽도 SWE 기본기가 없는 사용자에게는 좋은 결과를 주지 못한다는 단서가 따라붙는다.