포스트

OpenAI GPT-5.4 공개 - 1M 컨텍스트와 네이티브 컴퓨터 사용

목차

  1. 개요
  2. 배경
  3. 핵심 내용
  4. 의미와 시사점
  5. 결론
  6. Reference

개요

OpenAI가 새로운 모델 GPT-5.4를 공개했다. 이 모델은 ChatGPT, API, Codex에 동시 적용되며, 추론, 코딩, 에이전트 워크플로우 성능을 하나의 모델로 통합한 것이 특징이다. 1M 토큰 컨텍스트 윈도우, 네이티브 컴퓨터 사용 기능, 향상된 시각 인식 능력 등 여러 기술적 혁신이 포함되어 있다.

배경

OpenAI는 GPT-5 시리즈를 통해 모델 라인업을 지속적으로 확장해왔다. GPT-5.1, 5.2, 5.3 Codex 등 다양한 변형 모델이 출시되면서, 사용자들 사이에서는 모델 라인업의 복잡성에 대한 혼란이 있었다. 이번 GPT-5.4는 추론, 코딩, 에이전트 기능을 단일 모델로 통합하여 이러한 복잡성을 줄이고자 하는 방향성을 보여준다.

핵심 내용

기술 혁신

GPT-5.4는 세 가지 주요 기술적 혁신을 도입했다.

첫째, 1M 토큰 컨텍스트 윈도우를 지원하여 긴 범위의 작업을 처리할 수 있게 되었다. 이를 통해 대규모 코드베이스 분석이나 긴 문서 처리 등의 작업이 가능해졌다.

둘째, 네이티브 컴퓨터 사용 기능이 추가되어 웹사이트와 소프트웨어를 직접 조작할 수 있다. 별도의 도구 없이 모델 자체에서 컴퓨터 환경과 상호작용할 수 있는 기능이다.

셋째, 새로운 시각 인식 능력으로 최대 10.24M 픽셀의 이미지를 처리할 수 있다. 고해상도 이미지에 대한 분석 능력이 크게 향상되었다.

성능 벤치마크

GPT-5.4의 주요 벤치마크 결과는 다음과 같다.

벤치마크GPT-5.4이전 모델
SWE-Bench Pro57.7%56.8%
ARC-AGI-273.3%52.9%

SWE-Bench Pro에서는 소폭 향상되었으나, ARC-AGI-2에서는 52.9%에서 73.3%로 크게 향상되었다. 또한 환각이 33% 감소하고, 오류가 18% 감소하여 전반적인 안정성이 개선되었다.

가격 및 출시 정보

GPT-5.4의 API 가격 및 출시 정보는 다음과 같다.

항목내용
API 입력 가격$2.50/M 토큰
API 출력 가격$15/M 토큰
ChatGPT 제공Plus/Pro 사용자 즉시 제공
GPT-5.3 Thinking 종료2026년 6월 5일 예정

ChatGPT Plus 및 Pro 사용자에게는 즉시 제공되며, 기존 GPT-5.3 Thinking은 2026년 6월 5일에 종료될 예정이다.

의미와 시사점

GPT-5.4의 가장 큰 의미는 추론, 코딩, 에이전트 워크플로우를 하나의 모델로 통합했다는 점이다. 이는 기존에 용도별로 분리되었던 모델들을 단일 모델로 대체할 수 있는 가능성을 보여준다.

1M 토큰 컨텍스트 윈도우는 대규모 프로젝트나 긴 문서를 다루는 작업에서 활용 가치가 높다. 다만, 커뮤니티에서는 1M 컨텍스트의 실질적인 효용성에 대해 의문을 제기하는 목소리도 있다.

네이티브 컴퓨터 사용 기능은 AI 에이전트가 실제 환경에서 작업을 수행할 수 있는 기반을 마련한 것으로, 에이전트 워크플로우의 확장에 기여할 것으로 보인다.

한편, GPT-5.1, 5.2, 5.3 Codex 등 모델 라인업이 복잡해지면서 사용자들의 혼란이 커지고 있다는 점은 OpenAI가 해결해야 할 과제로 남아 있다.

결론

OpenAI의 GPT-5.4는 1M 토큰 컨텍스트 윈도우, 네이티브 컴퓨터 사용, 향상된 시각 인식 등 주요 기술적 혁신을 통해 추론, 코딩, 에이전트 기능을 통합한 모델이다. ARC-AGI-2 벤치마크에서의 대폭 향상과 환각 및 오류 감소는 모델의 실질적인 성능 개선을 보여준다. ChatGPT Plus/Pro 사용자에게 즉시 제공되며, API를 통해서도 사용할 수 있다.

Reference