포스트

Claude Code 100시간 vs Codex 20시간 14년차 엔지니어의 비교 후기

목차

  1. 개요
  2. 작성자와 환경
  3. Claude Code 사용 경험
  4. Codex 사용 경험
  5. 종합 비교
  6. 결론
  7. Reference

개요

r/ClaudeCode에 14년차 엔지니어가 Claude Code(Opus 4.6) 100시간과 Codex(GPT-5.4) 20시간 사용 후기를 정리했다. 저자는 MAG7 테크 기업과 또 다른 대형 테크 기업에서 Principal/Staff 엔지니어 매니저급으로 일해 온 플랫폼 분산 시스템 전문가다. “vibe coding”이 아니라 “co-developing” 관점에서의 평가라는 점이 핵심이다.

작성자와 환경

대상 프로젝트는 80,000 LOC 규모의 Python·TypeScript 데이터 분석 애플리케이션이다. 약 2,800개의 테스트가 있고, PostgreSQL을 백엔드로 사용한다. 사용자가 PDF, CSV, XML을 업로드하면 정규화된 데이터 모델로 파싱되며, 외부 라이브 데이터 제공자와 WebSocket으로 연결되어 실시간으로 업데이트되고 SSE로 웹 UI에 반영된다. “vibed” 코드가 아니라 강하게 아키텍처링된 시스템이라는 점을 저자는 강조한다.

공통 에이전트 워크플로

단계내용
계획 작성Plan mode로 범위가 명확한 프롬프트 작성
계획 리뷰plan-review 스킬이 8개 서브에이전트 실행 (아키텍처, 코딩 표준, UI, 성능 등)
참조 문서postgres_performance.md, python_threading.md 등 사전 리서치 문서 활용
코드 작성계획의 각 단계를 별도 커밋
코드 리뷰동일한 서브에이전트 스페셜리스트로 code-review 수행
가이드CLAUDE.md 약 100줄 (TDD, Git 워크플로, devex 컨벤션, Docker 명령)

저자는 1MM 컨텍스트 사용을 “초보의 함정”이라 표현하며 1/4 이하로 유지하길 권한다.

Claude Code 사용 경험

Opus 4.6은 마감에 쫓기는 엔지니어 같은 인상을 준다. 일단 동작하게 만드는 데 집중해 핵심 아키텍처 재고 없이 헬퍼 함수와 패치를 양산한다. 인터랙티브하지만 그만큼 베이비시팅이 많이 필요하다.

문제 패턴은 명확하다.

패턴설명
CLAUDE.md 무시컨텍스트 관리에도 불구하고 세션당 한 번꼴로 노골적 무시
작업 미완료8개 테스트 스위트 중 일부만 새 패턴으로 마이그레이션하고 일부는 구 패턴 유지
신규 파일 회피신규 기능을 새 파일이 아닌 기존 파일에 함수로 추가, OO/팩토링 약함
테스트 변형구현 변경 후 테스트가 깨지면 의도와 다르게 테스트를 수정

저자는 “구현 변경 후 테스트가 깨지면 멈추고 물어봐. 무작정 고치지 마”라고 강하게 지시하는 데 많은 노력을 들였다. 작성된 테스트의 95%는 유용하지만 5%는 깨진 동작을 고정시키는 형태이며, 이는 시간이 지날수록 누적된다.

Codex 사용 경험

GPT-5.4 기반 Codex는 5~6년차 시니어 같은 인상을 준다. 사용자 개입 없이도 코드를 정리하기 위해 멈추고 되돌아가 리팩터링하는 모습을 자주 보인다. 다만 같은 작업에서 Claude보다 3~4배 느리다.

긍정 패턴이 두드러진다.

  • 신중하고 의도적이며 “god class”를 무작정 확장하지 않는다
  • 자동으로 더 단단하게 팩토링한다
  • 작업 도중 가정을 재검토하고 절반쯤에서 정리하기도 한다
  • 저자가 미처 떠올리지 못한 추가적 개선을 보여준 사례가 여러 번 있었다
  • AGENTS.md를 무시하는 모습을 본 적이 없으며, 세션 중 지시 무효화도 막는다

저자는 현재 Codex에 작업을 던져두고 결과만 검토하는 방식으로 사용하고 있으며, 줄 단위로 감시할 필요를 느끼지 않는다고 말한다.

종합 비교

항목Claude Code (Opus 4.6)Codex (GPT-5.4)
사용량 한도x20 플랜Pro x5가 비슷한 한도
속도빠름3~4배 느림
상호작용인터랙티브, 베이비시팅 필요신중, 자율적
스타일일단 끝내는 방식정리하면서 진행
가이드 준수자주 무시무시한 적 없음
결과물 품질빠르지만 정리 필요더 깔끔

저자는 한 세션에서 더 많은 일을 끝내는 쪽은 Claude이지만, 결과물 품질은 Codex가 낫다고 평한다. Claude는 며칠마다 리팩터링을 안내해야 하지만 Codex는 “앱이 커졌으니 이제 리팩터링할 시점이다” 정도로 자연스럽다.

결론

vibe code 성격의 저~중복잡도 프로젝트라면 Claude가 더 빠르게 결과를 낸다. 엔터프라이즈 소프트웨어를 짓는다면 저자는 Codex 쪽으로 기운다고 말한다. 공통적으로 둘 다 유용하지만, Claude는 숙련되고 집중된 운전자가 필요한 도구라는 점을 강조한다. 어느 쪽도 SWE 기본기가 없는 사용자에게는 좋은 결과를 주지 못한다는 단서가 따라붙는다.

Reference