OpenAI GPT-5.5 공개 - 에이전틱 코딩, 지식 노동, 과학 연구의 새 기준

게시 2026/05/01 업데이트 2026/05/03

By Juho

14 분읽는 시간

개요

OpenAI가 GPT-5.5를 공개했다. 자사 역대 가장 똑똑하고 직관적인 모델이라고 설명하며, 컴퓨터에서 일을 수행하는 새로운 방식을 향한 다음 단계로 규정한다. 사용자가 의도를 더 빠르게 이해하고 스스로 더 많은 작업을 떠안는 방향으로 진화했다. 작성과 코드 디버깅, 온라인 리서치, 데이터 분석, 문서와 스프레드시트 생성, 소프트웨어 조작, 도구 간 이동 등 전체 과정을 스스로 끝까지 끌고 갈 수 있다.

배경

GPT-5.5는 에이전틱 코딩, 컴퓨터 사용, 지식 노동, 초기 과학 연구 영역에서 특히 큰 도약을 보였다. 이 영역은 컨텍스트를 가로지르는 추론과 시간에 걸친 행동 지속을 요구한다. 더 크고 유능한 모델일수록 제공이 느려지는 경향이 있지만, GPT-5.5는 실사용 서빙에서 GPT-5.4와 같은 토큰당 지연을 유지한다. 같은 Codex 과제를 훨씬 적은 토큰으로 완료해 효율도 함께 끌어올렸다.

OpenAI는 역대 가장 강력한 안전장치를 함께 공개했다. 전체 안전 및 준비(preparedness) 프레임워크로 평가했고, 내·외부 레드팀과 협력했으며, 고급 사이버보안과 생물학 역량에 대한 표적 평가를 추가했다. 출시 전 200여 개의 신뢰 초기 접근 파트너로부터 실사용 피드백을 수집했다.

핵심 내용

에이전틱 코딩

GPT-5.5는 OpenAI 역대 가장 강력한 에이전틱 코딩 모델이다. Terminal-Bench 2.0에서 82.7%를 기록해 계획, 반복, 도구 조율이 필요한 복잡한 CLI 워크플로에서 최첨단 정확도를 달성했다. SWE-Bench Pro에서는 58.6%를 기록하며 실제 GitHub 이슈를 한 번에 끝까지 해결하는 비율을 높였다. 인간 전문가의 중위 예상 완료 시간이 20시간인 Expert-SWE 평가에서도 GPT-5.4를 넘어섰다. 세 평가 모두에서 GPT-5.5는 GPT-5.4보다 더 높은 점수를 더 적은 토큰으로 달성했다.

Every의 CEO Dan Shipper는 GPT-5.5를 “개념적 명료함(conceptual clarity)을 제대로 갖춘 최초의 코딩 모델”이라고 평가했다. 앱 출시 후 수일간 디버깅하고 결국 상급 엔지니어가 재작성한 시스템 일부를, GPT-5.5는 동일한 방향으로 한 번에 재작성해냈다. MagicPath CEO Pietro Schirano는 대규모 변경이 있는 프런트엔드 브랜치를 크게 바뀐 main 브랜치에 약 20분 만에 한 번에 병합했다고 전했다.

Cursor의 공동창업자 Michael Truell는 GPT-5.5가 GPT-5.4보다 눈에 띄게 더 똑똑하고 끈질기며 코딩 성능과 도구 사용 신뢰도가 더 높다고 설명했다. 장기 실행 과제에서 조기 중단 없이 훨씬 오래 과제를 유지한다는 점이 Cursor의 사용자 과제에서 가장 중요하다고 강조했다.

지식 노동

코딩에서의 강점은 컴퓨터에서의 일상 업무 전반으로 확장된다. 모델이 의도를 더 잘 이해해 정보 탐색, 중요도 판단, 도구 사용, 결과 검증, 원자료를 유용한 결과물로 전환하는 전체 루프를 더 자연스럽게 수행한다.

Codex에서 GPT-5.5는 문서, 스프레드시트, 슬라이드 생성에서 GPT-5.4보다 우수하다. 알파 테스터들은 운영 리서치, 스프레드시트 모델링, 혼란스러운 비즈니스 입력을 계획으로 정리하는 작업에서 GPT-5.5가 이전 모델을 능가했다고 전한다. 컴퓨터 사용 스킬과 결합하면 화면을 보고 클릭하고 타이핑하고 인터페이스를 탐색하며 도구 간을 정밀하게 이동한다.

OpenAI 내부에서도 이미 활용도가 높다. 전 직원의 85% 이상이 소프트웨어 엔지니어링, 재무, 커뮤니케이션, 마케팅, 데이터 사이언스, 제품 관리 기능에서 매주 Codex를 사용한다. 재무팀은 24,771개 K-1 세금 신고서(총 71,637페이지)를 검토하는 작업을 Codex로 수행해 전년 대비 2주를 단축했다.

GDPval에서 84.9%를 기록하며 44개 직종의 잘 정의된 지식 노동 과제에서 최첨단 성능을 보였다. OSWorld-Verified에서는 78.7%, Tau2-bench Telecom에서는 프롬프트 튜닝 없이 98.0%를 달성했다.

과학 연구

GPT-5.5는 과학·기술 연구 워크플로에서도 의미 있는 개선을 보인다. 유전학과 정량생물학의 다단계 과학 데이터 분석을 평가하는 GeneBench에서 GPT-5.4 대비 뚜렷한 향상을 기록했다. 실세계 생명정보학과 데이터 분석을 다루는 BixBench에서는 80.5%로 공개된 점수들 중 선두다.

내부 버전 GPT-5.5는 커스텀 하네스와 결합해 Ramsey 수에 관한 새로운 증명을 발견했고 Lean으로 검증됐다. 조합론의 핵심 대상인 Ramsey 수의 오프-대각 성질에 관한 장기 미해결 점근적 사실에 대한 증명이다. 모델이 코드나 설명을 넘어 핵심 연구 영역에서 놀랍고 유용한 수학적 논증을 기여한 구체적 사례다.

Jackson Laboratory의 면역학자 Derya Unutmaz는 GPT-5.5 Pro로 62개 샘플, 약 28,000개 유전자의 발현 데이터셋을 분석해 몇 달 걸릴 상세 연구 보고서를 도출했다. Adam Mickiewicz 대학의 수학자 Bartosz Naskręcki는 Codex에서 GPT-5.5를 사용해 단일 프롬프트로 11분 만에 대수기하학 앱을 구축했다. 두 이차 곡면의 교차 곡선을 시각화하고, 효과적 Riemann-Roch 정리로 이를 Weierstrass 모델로 변환하는 작업이었다.

차세대 추론 효율

GPT-5.4와 동일한 지연 시간으로 GPT-5.5를 서빙하려면 추론을 개별 최적화의 합이 아닌 통합 시스템으로 다시 설계해야 했다. GPT-5.5는 NVIDIA GB200 및 GB300 NVL72 시스템과 공동 설계되어 함께 학습되고 서빙된다. Codex와 GPT-5.5는 성능 목표 달성에 핵심 역할을 했다. 모델이 자신을 서빙하는 인프라를 직접 개선한 셈이다.

가속기 내 요청을 기존에는 고정된 청크 수로 나눠 GPU 코어 간 작업을 분산했다. 정적 청크 수는 모든 트래픽 형태에 최적이 아니다. Codex가 수 주 분량의 프로덕션 트래픽 패턴을 분석해 커스텀 휴리스틱 알고리즘을 작성했다. 이 개선으로 토큰 생성 속도가 20% 이상 향상됐다.

사이버보안 안전장치

OpenAI는 사이버보안을 Preparedness Framework의 카테고리로 수년간 식별해왔다. GPT-5.5는 이 범주에서 “High”로 분류되며 Critical 수준에는 도달하지 않았다. 작년 GPT-5.2에서 처음 도입한 사이버 전용 안전장치를 확장해 위험도 높은 활동, 민감한 사이버 요청, 반복적 오용에 대한 통제를 강화했다.

Trusted Access for Cyber 프로그램을 통해 사이버 허용(cyber-permissive) 모델을 제공한다. Codex부터 시작하며, 검증된 사용자에게 GPT-5.5의 고급 사이버보안 역량을 더 적은 제한으로 제공한다. 핵심 인프라 방어 조직은 엄격한 보안 요건을 충족할 경우 GPT-5.4-Cyber 같은 사이버 허용 모델에 지원해 접근할 수 있다.

가용성과 가격

현재 GPT-5.5는 ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 배포된다. GPT-5.5 Pro는 ChatGPT에서 Pro, Business, Enterprise 사용자에게 제공된다. API 배포는 곧 제공될 예정이다.

Codex에서 GPT-5.5는 Plus, Pro, Business, Enterprise, Edu, Go 플랜에서 400K 컨텍스트 윈도우로 제공된다. Fast 모드도 지원하며 토큰 생성 속도가 1.5배 빠르지만 비용이 2.5배 든다.

API 가격은 다음과 같다.

모델	입력(1M 토큰)	출력(1M 토큰)	컨텍스트
gpt-5.5	$5	$30	1M
gpt-5.5-pro	$30	$180	1M

Batch와 Flex 가격은 표준 API 요율의 절반이다. Priority 처리는 표준 요율의 2.5배다.

주요 벤치마크

코딩 평가다.

평가	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (Public)	58.6%	57.7%	64.3%	54.2%
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	-	-

전문 업무 평가다.

평가	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (wins or ties)	84.9%	83.0%	80.3%	67.3%
FinanceAgent v1.1	60.0%	56.0%	64.4%	59.7%
OfficeQA Pro	54.1%	53.2%	43.6%	18.1%

학술 평가다.

평가	GPT-5.5	GPT-5.4	GPT-5.5 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25.0%	19.0%	33.2%	-	-
FrontierMath Tier 1-3	51.7%	47.6%	52.4%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	22.9%	16.7%
BixBench	80.5%	74.0%	-	-	-
GPQA Diamond	93.6%	92.8%	-	94.2%	94.3%

롱 컨텍스트 평가에서 특히 두드러진다.

평가	GPT-5.5	GPT-5.4	Claude Opus 4.7
Graphwalks BFS 1mil f1	45.4%	9.4%	41.2% (Opus 4.6)
MRCR v2 8-needle 256K-512K	81.5%	57.5%	-
MRCR v2 8-needle 512K-1M	74.0%	36.6%	32.2%

사이버보안 평가다.

평가	GPT-5.5	GPT-5.4	Claude Opus 4.7
Capture-the-Flags (Internal)	88.1%	83.7%	-
CyberGym	81.8%	79.0%	73.1%

결론

GPT-5.5는 에이전틱 코딩, 지식 노동, 과학 연구 세 축에서 동시에 실질적 향상을 보여준 모델이다. 특히 더 높은 지능과 동일한 지연을 공존시키고 토큰 효율을 함께 끌어올린 점이 주목된다. NVIDIA GB200·GB300 NVL72와의 공동 설계, Codex와의 자기 개선 루프는 모델과 인프라의 경계를 점점 흐리게 만든다. Trusted Access for Cyber를 중심으로 한 접근 통제는 강력한 사이버 역량을 공익 목적으로 개방하려는 OpenAI의 전략이 가시화된 사례다.

Reference

Introducing GPT-5.5 — OpenAI

AI LLM OpenAI Benchmark