OpenAI GPT-5.5 공개 - 에이전틱 코딩, 지식 노동, 과학 연구의 새 기준
목차
개요
OpenAI가 GPT-5.5를 공개했다. 자사 역대 가장 똑똑하고 직관적인 모델이라고 설명하며, 컴퓨터에서 일을 수행하는 새로운 방식을 향한 다음 단계로 규정한다. 사용자가 의도를 더 빠르게 이해하고 스스로 더 많은 작업을 떠안는 방향으로 진화했다. 작성과 코드 디버깅, 온라인 리서치, 데이터 분석, 문서와 스프레드시트 생성, 소프트웨어 조작, 도구 간 이동 등 전체 과정을 스스로 끝까지 끌고 갈 수 있다.
배경
GPT-5.5는 에이전틱 코딩, 컴퓨터 사용, 지식 노동, 초기 과학 연구 영역에서 특히 큰 도약을 보였다. 이 영역은 컨텍스트를 가로지르는 추론과 시간에 걸친 행동 지속을 요구한다. 더 크고 유능한 모델일수록 제공이 느려지는 경향이 있지만, GPT-5.5는 실사용 서빙에서 GPT-5.4와 같은 토큰당 지연을 유지한다. 같은 Codex 과제를 훨씬 적은 토큰으로 완료해 효율도 함께 끌어올렸다.
OpenAI는 역대 가장 강력한 안전장치를 함께 공개했다. 전체 안전 및 준비(preparedness) 프레임워크로 평가했고, 내·외부 레드팀과 협력했으며, 고급 사이버보안과 생물학 역량에 대한 표적 평가를 추가했다. 출시 전 200여 개의 신뢰 초기 접근 파트너로부터 실사용 피드백을 수집했다.
핵심 내용
에이전틱 코딩
GPT-5.5는 OpenAI 역대 가장 강력한 에이전틱 코딩 모델이다. Terminal-Bench 2.0에서 82.7%를 기록해 계획, 반복, 도구 조율이 필요한 복잡한 CLI 워크플로에서 최첨단 정확도를 달성했다. SWE-Bench Pro에서는 58.6%를 기록하며 실제 GitHub 이슈를 한 번에 끝까지 해결하는 비율을 높였다. 인간 전문가의 중위 예상 완료 시간이 20시간인 Expert-SWE 평가에서도 GPT-5.4를 넘어섰다. 세 평가 모두에서 GPT-5.5는 GPT-5.4보다 더 높은 점수를 더 적은 토큰으로 달성했다.
Every의 CEO Dan Shipper는 GPT-5.5를 “개념적 명료함(conceptual clarity)을 제대로 갖춘 최초의 코딩 모델”이라고 평가했다. 앱 출시 후 수일간 디버깅하고 결국 상급 엔지니어가 재작성한 시스템 일부를, GPT-5.5는 동일한 방향으로 한 번에 재작성해냈다. MagicPath CEO Pietro Schirano는 대규모 변경이 있는 프런트엔드 브랜치를 크게 바뀐 main 브랜치에 약 20분 만에 한 번에 병합했다고 전했다.
Cursor의 공동창업자 Michael Truell는 GPT-5.5가 GPT-5.4보다 눈에 띄게 더 똑똑하고 끈질기며 코딩 성능과 도구 사용 신뢰도가 더 높다고 설명했다. 장기 실행 과제에서 조기 중단 없이 훨씬 오래 과제를 유지한다는 점이 Cursor의 사용자 과제에서 가장 중요하다고 강조했다.
지식 노동
코딩에서의 강점은 컴퓨터에서의 일상 업무 전반으로 확장된다. 모델이 의도를 더 잘 이해해 정보 탐색, 중요도 판단, 도구 사용, 결과 검증, 원자료를 유용한 결과물로 전환하는 전체 루프를 더 자연스럽게 수행한다.
Codex에서 GPT-5.5는 문서, 스프레드시트, 슬라이드 생성에서 GPT-5.4보다 우수하다. 알파 테스터들은 운영 리서치, 스프레드시트 모델링, 혼란스러운 비즈니스 입력을 계획으로 정리하는 작업에서 GPT-5.5가 이전 모델을 능가했다고 전한다. 컴퓨터 사용 스킬과 결합하면 화면을 보고 클릭하고 타이핑하고 인터페이스를 탐색하며 도구 간을 정밀하게 이동한다.
OpenAI 내부에서도 이미 활용도가 높다. 전 직원의 85% 이상이 소프트웨어 엔지니어링, 재무, 커뮤니케이션, 마케팅, 데이터 사이언스, 제품 관리 기능에서 매주 Codex를 사용한다. 재무팀은 24,771개 K-1 세금 신고서(총 71,637페이지)를 검토하는 작업을 Codex로 수행해 전년 대비 2주를 단축했다.
GDPval에서 84.9%를 기록하며 44개 직종의 잘 정의된 지식 노동 과제에서 최첨단 성능을 보였다. OSWorld-Verified에서는 78.7%, Tau2-bench Telecom에서는 프롬프트 튜닝 없이 98.0%를 달성했다.
과학 연구
GPT-5.5는 과학·기술 연구 워크플로에서도 의미 있는 개선을 보인다. 유전학과 정량생물학의 다단계 과학 데이터 분석을 평가하는 GeneBench에서 GPT-5.4 대비 뚜렷한 향상을 기록했다. 실세계 생명정보학과 데이터 분석을 다루는 BixBench에서는 80.5%로 공개된 점수들 중 선두다.
내부 버전 GPT-5.5는 커스텀 하네스와 결합해 Ramsey 수에 관한 새로운 증명을 발견했고 Lean으로 검증됐다. 조합론의 핵심 대상인 Ramsey 수의 오프-대각 성질에 관한 장기 미해결 점근적 사실에 대한 증명이다. 모델이 코드나 설명을 넘어 핵심 연구 영역에서 놀랍고 유용한 수학적 논증을 기여한 구체적 사례다.
Jackson Laboratory의 면역학자 Derya Unutmaz는 GPT-5.5 Pro로 62개 샘플, 약 28,000개 유전자의 발현 데이터셋을 분석해 몇 달 걸릴 상세 연구 보고서를 도출했다. Adam Mickiewicz 대학의 수학자 Bartosz Naskręcki는 Codex에서 GPT-5.5를 사용해 단일 프롬프트로 11분 만에 대수기하학 앱을 구축했다. 두 이차 곡면의 교차 곡선을 시각화하고, 효과적 Riemann-Roch 정리로 이를 Weierstrass 모델로 변환하는 작업이었다.
차세대 추론 효율
GPT-5.4와 동일한 지연 시간으로 GPT-5.5를 서빙하려면 추론을 개별 최적화의 합이 아닌 통합 시스템으로 다시 설계해야 했다. GPT-5.5는 NVIDIA GB200 및 GB300 NVL72 시스템과 공동 설계되어 함께 학습되고 서빙된다. Codex와 GPT-5.5는 성능 목표 달성에 핵심 역할을 했다. 모델이 자신을 서빙하는 인프라를 직접 개선한 셈이다.
가속기 내 요청을 기존에는 고정된 청크 수로 나눠 GPU 코어 간 작업을 분산했다. 정적 청크 수는 모든 트래픽 형태에 최적이 아니다. Codex가 수 주 분량의 프로덕션 트래픽 패턴을 분석해 커스텀 휴리스틱 알고리즘을 작성했다. 이 개선으로 토큰 생성 속도가 20% 이상 향상됐다.
사이버보안 안전장치
OpenAI는 사이버보안을 Preparedness Framework의 카테고리로 수년간 식별해왔다. GPT-5.5는 이 범주에서 “High”로 분류되며 Critical 수준에는 도달하지 않았다. 작년 GPT-5.2에서 처음 도입한 사이버 전용 안전장치를 확장해 위험도 높은 활동, 민감한 사이버 요청, 반복적 오용에 대한 통제를 강화했다.
Trusted Access for Cyber 프로그램을 통해 사이버 허용(cyber-permissive) 모델을 제공한다. Codex부터 시작하며, 검증된 사용자에게 GPT-5.5의 고급 사이버보안 역량을 더 적은 제한으로 제공한다. 핵심 인프라 방어 조직은 엄격한 보안 요건을 충족할 경우 GPT-5.4-Cyber 같은 사이버 허용 모델에 지원해 접근할 수 있다.
가용성과 가격
현재 GPT-5.5는 ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 배포된다. GPT-5.5 Pro는 ChatGPT에서 Pro, Business, Enterprise 사용자에게 제공된다. API 배포는 곧 제공될 예정이다.
Codex에서 GPT-5.5는 Plus, Pro, Business, Enterprise, Edu, Go 플랜에서 400K 컨텍스트 윈도우로 제공된다. Fast 모드도 지원하며 토큰 생성 속도가 1.5배 빠르지만 비용이 2.5배 든다.
API 가격은 다음과 같다.
| 모델 | 입력(1M 토큰) | 출력(1M 토큰) | 컨텍스트 |
|---|---|---|---|
| gpt-5.5 | $5 | $30 | 1M |
| gpt-5.5-pro | $30 | $180 | 1M |
Batch와 Flex 가격은 표준 API 요율의 절반이다. Priority 처리는 표준 요율의 2.5배다.
주요 벤치마크
코딩 평가다.
| 평가 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 58.6% | 57.7% | 64.3% | 54.2% |
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE (Internal) | 73.1% | 68.5% | - | - |
전문 업무 평가다.
| 평가 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| GDPval (wins or ties) | 84.9% | 83.0% | 80.3% | 67.3% |
| FinanceAgent v1.1 | 60.0% | 56.0% | 64.4% | 59.7% |
| OfficeQA Pro | 54.1% | 53.2% | 43.6% | 18.1% |
학술 평가다.
| 평가 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| GeneBench | 25.0% | 19.0% | 33.2% | - | - |
| FrontierMath Tier 1-3 | 51.7% | 47.6% | 52.4% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 22.9% | 16.7% |
| BixBench | 80.5% | 74.0% | - | - | - |
| GPQA Diamond | 93.6% | 92.8% | - | 94.2% | 94.3% |
롱 컨텍스트 평가에서 특히 두드러진다.
| 평가 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Graphwalks BFS 1mil f1 | 45.4% | 9.4% | 41.2% (Opus 4.6) |
| MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | - |
| MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | 32.2% |
사이버보안 평가다.
| 평가 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Capture-the-Flags (Internal) | 88.1% | 83.7% | - |
| CyberGym | 81.8% | 79.0% | 73.1% |
결론
GPT-5.5는 에이전틱 코딩, 지식 노동, 과학 연구 세 축에서 동시에 실질적 향상을 보여준 모델이다. 특히 더 높은 지능과 동일한 지연을 공존시키고 토큰 효율을 함께 끌어올린 점이 주목된다. NVIDIA GB200·GB300 NVL72와의 공동 설계, Codex와의 자기 개선 루프는 모델과 인프라의 경계를 점점 흐리게 만든다. Trusted Access for Cyber를 중심으로 한 접근 통제는 강력한 사이버 역량을 공익 목적으로 개방하려는 OpenAI의 전략이 가시화된 사례다.