포스트

OpenAI GPT-Realtime-2, Translate, Whisper - GPT-5급 추론을 갖춘 실시간 음성 API 모델 3종 공개

목차

  1. 개요
  2. 배경: 음성이 새로운 인터페이스가 되는 방식
  3. 핵심 내용
  4. 벤치마크와 도입 사례
  5. 가격과 가용성
  6. 의미와 시사점
  7. 결론
  8. Reference

개요

OpenAI가 Realtime API에 세 가지 새로운 오디오 모델을 추가했다. 이번 릴리스는 단순한 호출-응답형 음성 인터페이스를 넘어, 대화가 진행되는 동안 듣고 추론하고 번역하고 전사하며 행동까지 수행하는 음성 에이전트를 구축할 수 있는 기반을 제공한다.

세 모델은 각각 다음 역할을 맡는다.

  • GPT-Realtime-2: GPT-5급 추론을 탑재한 첫 번째 음성 모델로, 어려운 요청을 처리하고 대화를 자연스럽게 이어간다.
  • GPT-Realtime-Translate: 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역한다.
  • GPT-Realtime-Whisper: 화자가 말하는 동안 실시간으로 텍스트를 생성하는 스트리밍 STT 모델이다.

OpenAI는 이번 릴리스를 통해 실시간 오디오를 단순한 콜앤리스폰스에서 실제 업무를 처리할 수 있는 음성 인터페이스로 전환한다고 설명한다.

배경: 음성이 새로운 인터페이스가 되는 방식

음성은 사람이 소프트웨어를 사용하는 가장 자연스러운 방식 중 하나로 자리잡고 있다. 운전 중 도움을 요청하거나, 공항을 걸으며 여행 일정을 변경하거나, 선호하는 언어로 지원을 받거나, 타이핑 없이 작업을 진행할 수 있게 한다.

그러나 유용한 음성 제품을 만들기 위해서는 빠른 턴테이킹이나 자연스러운 음성 출력만으로는 부족하다. 음성 에이전트는 사용자의 의도를 이해하고, 컨텍스트를 추적하며, 요청이 변경될 때 회복하고, 대화 중에 도구를 사용하며, 상황에 맞는 톤으로 응답해야 한다.

OpenAI는 개발자들이 음성 AI를 활용하는 세 가지 신흥 패턴을 정의한다.

Voice-to-action

사용자가 필요한 것을 말로 설명하면 시스템이 요청을 추론하고, 도구를 호출해 작업을 완수하는 패턴이다. 예를 들어 Zillow는 다음과 같은 요청을 처리하는 어시스턴트를 구축하고 있다.

“내 BuyAbility 범위 내의 집을 찾아주고, 번잡한 도로는 피하고, 토요일에 투어 일정을 잡아줘”

Systems-to-voice

소프트웨어가 컨텍스트를 실시간 음성 가이드로 전환하는 패턴이다. 여행 앱이 다음과 같이 능동적으로 알려줄 수 있다.

“인바운드 항공편이 지연됐지만 환승은 가능합니다. 새 게이트와 터미널을 빠르게 통과하는 경로를 찾았고, 수하물도 정상적으로 환승될 예정입니다”

Voice-to-voice

AI가 언어, 작업, 변화하는 컨텍스트를 가로질러 실시간 대화를 이어가도록 돕는 패턴이다. Deutsche Telekom은 고객이 가장 편한 언어로 말하고 모델이 실시간으로 대화를 번역해주는 음성 지원 경험을 구축하고 있다.

Priceline은 이 세 패턴을 결합해, 여행자가 음성으로 항공권과 호텔을 검색하고, 항공편 지연 후 호텔 예약을 조정하며, TSA 대기 시간을 실시간으로 받고, 현지에 도착한 뒤에는 대화를 번역하는 통합 경험을 추구하고 있다.

핵심 내용

GPT-Realtime-2: 추론과 행동이 가능한 실시간 음성

GPT-Realtime-2는 모델이 요청을 추론하고, 도구를 호출하고, 정정과 인터럽션을 처리하면서 대화의 흐름을 유지하도록 설계된 실시간 음성 인터랙션 모델이다.

주요 기능은 다음과 같다.

  • Preambles: “잠시 확인해 보겠습니다” 또는 “잠시만 기다려 주세요”와 같은 짧은 말을 메인 응답 전에 출력하여 에이전트가 작업 중임을 사용자에게 알린다.
  • 병렬 도구 호출과 도구 투명성: 여러 도구를 동시에 호출하고, “캘린더를 확인하고 있습니다” 또는 “지금 찾아보고 있습니다”와 같이 작업을 들리게 만들어 에이전트의 응답성을 유지한다.
  • 더 강한 회복 동작: 조용히 실패하거나 대화를 끊는 대신 “지금 그 작업에 문제가 있습니다”와 같이 우아하게 회복할 수 있다.
  • 에이전틱 워크플로우를 위한 더 긴 컨텍스트: 컨텍스트 윈도우를 32K에서 128K로 확장해 더 길고 일관된 세션과 복잡한 작업 흐름을 지원한다.
  • 더 강한 도메인 이해: 전문 용어, 고유 명사, 헬스케어 용어 등 프로덕션 환경에서 중요한 어휘를 더 잘 유지한다.
  • 더 제어 가능한 톤과 전달: 문제를 해결할 때 차분하게, 사용자가 좌절했을 때 공감적으로, 성공을 확인할 때 활기차게 톤을 조정할 수 있다.
  • 조정 가능한 추론 강도: minimal, low, medium, high, xhigh 다섯 단계의 추론 수준을 선택할 수 있다. 기본값은 low이며, 단순한 인터랙션의 낮은 지연과 복잡한 요청의 신중한 추론 사이에서 균형을 잡는다.

GPT-Realtime-Translate: 70개 입력 언어 실시간 번역

GPT-Realtime-Translate는 각자가 선호하는 언어로 말하면서 대화를 실시간으로 번역해 듣고 실시간 전사를 읽을 수 있는 다국어 음성 경험을 구축하기 위한 모델이다.

70개 이상의 입력 언어와 13개 출력 언어를 지원하며, 고객 지원, 국경 간 영업, 교육, 이벤트, 미디어, 글로벌 청중을 대상으로 하는 크리에이터 플랫폼 등에서 활용 가능하다.

핵심 설계 목표는 사람들이 자연스럽게 말하거나, 컨텍스트를 전환하거나, 지역적 발음과 도메인별 언어를 사용해도 의미를 보존하면서 화자의 페이스를 따라가는 것이다.

Vimeo는 GPT-Realtime-Translate를 사용해 제품 교육 비디오를 재생하는 동안 실시간으로 번역하여, 별도로 제작된 버전을 기다릴 필요 없이 글로벌 고객이 선호하는 언어로 업데이트를 들을 수 있도록 시연했다.

GPT-Realtime-Whisper: 저지연 스트리밍 STT

GPT-Realtime-Whisper는 저지연 음성-텍스트 변환을 위한 새로운 스트리밍 전사 모델이다. 사람이 말할 때 오디오를 전사하므로, 라이브 제품이 더 빠르고 반응성이 뛰어나며 자연스럽게 느껴진다.

활용 가능한 영역은 다음과 같다.

  • 미팅, 강의실, 방송, 이벤트의 자막
  • 대화가 진행되는 동안 생성되는 노트와 요약
  • 사용자를 지속적으로 이해해야 하는 음성 에이전트
  • 고객 지원, 헬스케어, 영업, 채용 등 대량 음성 인터랙션을 위한 더 빠른 후속 워크플로우

벤치마크와 도입 사례

GPT-Realtime-2는 프로덕션 음성 에이전트와 밀접하게 매핑되는 오디오 평가에서 명확한 성능 향상을 보였다.

Big Bench Audio (지능)

모델정확도
gpt-realtime-2 (high)96.6%
gpt-realtime-1.581.4%

GPT-Realtime-2(high)는 GPT-Realtime-1.5 대비 15.2% 더 높은 점수를 기록했다.

Audio MultiChallenge (지시 사항 따르기)

모델평균 통과율
gpt-realtime-2 (xhigh)48.5%
gpt-realtime-1.534.7%

GPT-Realtime-2(xhigh)는 13.8% 더 높은 점수를 기록하며, 라이브 대화에서 더 강한 추론, 컨텍스트 관리, 제어를 보여줬다.

도입 기업 사례

Zillow의 Josh Weisberg(SVP, Head of AI)는 가장 어려운 적대적 벤치마크에서 프롬프트 최적화 후 통화 성공률이 26포인트 상승했다고 밝혔다(95% 대 69%). 또한 GPT-Realtime-2는 Fair Housing 컴플라이언스에서 실질적으로 더 견고하며, 에이전틱 역량과 가드레일 강도의 결합이 Zillow의 프로덕션 음성에 적합하다고 설명했다.

BolnaAI의 Co-founder 겸 CTO인 Prateek Sachan은 인도의 다양한 지역 음운을 다루는 평가에서 GPT-Realtime-Translate가 힌디어, 타밀어, 텔루구어에 걸쳐 다른 모델 대비 12.5% 낮은 Word Error Rate를 기록했다고 전했다. 또한 더 낮은 폴백 비율, 더 높은 작업 완료율, 자연스러운 대화를 유지하는 지연 시간을 보였다고 평가했다.

도입 또는 테스트 중인 기업은 Zillow, Glean, Genspark, Bluejay, Intercom, Priceline, Foundation Health, BolnaAI, Vimeo, Deutsche Telekom 등이다.

가격과 가용성

세 모델 모두 Realtime API에서 이용할 수 있다.

모델가격
GPT-Realtime-2 (오디오 입력)100만 토큰당 32달러
GPT-Realtime-2 (캐시된 입력)100만 토큰당 0.40달러
GPT-Realtime-2 (오디오 출력)100만 토큰당 64달러
GPT-Realtime-Translate분당 0.034달러
GPT-Realtime-Whisper분당 0.017달러

Realtime API는 EU 기반 애플리케이션을 위한 EU 데이터 거주성을 완전히 지원하며, OpenAI의 엔터프라이즈 프라이버시 약속이 적용된다. 또한 Realtime API 세션 위에 활성 분류기를 운영하여 유해 콘텐츠 가이드라인 위반이 감지되면 특정 대화를 중단할 수 있다. 개발자는 Agents SDK를 사용해 자체 안전 가드레일을 추가할 수 있다.

의미와 시사점

이번 릴리스는 음성 모델이 단순히 사람처럼 말하는 단계를 넘어, 도구를 호출하고 컨텍스트를 추론하며 작업을 완수하는 에이전틱 인프라로 진화하고 있음을 보여준다.

128K 컨텍스트 윈도우 확장은 긴 고객 지원 세션, 멀티턴 예약 흐름, 복잡한 트러블슈팅과 같은 워크플로우를 한 번의 음성 세션으로 처리할 수 있게 한다. 조정 가능한 추론 강도(minimal부터 xhigh까지)는 단순 응답의 낮은 지연과 복잡한 작업의 깊은 추론을 같은 모델 안에서 분리해 운영할 수 있는 유연성을 제공한다.

번역과 전사를 별도의 분당 요금제로 분리한 것은 글로벌 고객 지원, 라이브 캡션, 미디어 다국어화와 같은 용도에서 토큰 단가보다 시간 기반 과금이 더 예측 가능한 비용 구조를 제공한다는 점을 반영한다.

벤치마크 측면에서 Big Bench Audio 96.6%와 Audio MultiChallenge 48.5%는 음성 에이전트가 텍스트 LLM과 동등한 추론 품질로 작동하기 시작했음을 시사한다. Zillow의 통화 성공률 26포인트 향상과 같은 실제 프로덕션 지표는, 모델 선택이 음성 제품의 비즈니스 KPI를 직접 움직이는 단계에 도달했음을 의미한다.

결론

OpenAI의 새로운 음성 모델 3종은 실시간 음성을 듣고, 추론하고, 번역하고, 전사하고, 행동하는 단일 인터페이스로 통합한다. GPT-Realtime-2는 GPT-5급 추론과 128K 컨텍스트로 복잡한 에이전틱 작업을 처리하고, GPT-Realtime-Translate는 70개 이상의 언어를 실시간으로 연결하며, GPT-Realtime-Whisper는 저지연 스트리밍 STT의 기준선을 다시 정의한다.

음성 인터페이스를 제품의 일부로 도입하려는 개발자에게는, 이제 별도의 STT, 번역, 응답 모델을 직접 조합할 필요 없이 Realtime API 한 곳에서 세 가지 워크로드를 모두 운영할 수 있는 선택지가 생겼다.

Reference