Theo Beating, OpenAI đã phát hành ba mô hình giọng nói trong Realtime API của mình: GPT-Realtime-2 cho hội thoại giọng nói có suy luận, GPT-Realtime-Translate cho dịch thuật thời gian thực và GPT-Realtime-Whisper cho ghi âm dạng phát trực tuyến. GPT-Realtime-2 là mô hình giọng nói đầu tiên của OpenAI có năng lực suy luận ngang mức GPT-5, mở rộng cửa sổ ngữ cảnh từ 32K lên 128K token, hỗ trợ tối đa 1-2 giờ hội thoại dày đặc.
GPT-Realtime-2 cải thiện 15,2% trên benchmark Big Bench Audio và 13,8% trên Audio MultiChallenge so với GPT-Realtime-1.5. GPT-Realtime-Translate hỗ trợ 70+ ngôn ngữ đầu vào để dịch sang 13 ngôn ngữ đầu ra. Giá: GPT-Realtime-2 ở mức 32 USD/1 triệu token đầu vào và 64 USD/1 triệu token đầu ra; Translate ở mức 0,034 USD/phút; Whisper ở mức 0,017 USD/phút.