وفقاً لـBeating، أطلقت OpenAI ثلاثة نماذج صوتية في واجهة Realtime API الخاصة بها: GPT-Realtime-2 للمحادثة الصوتية مع الاستدلال، وGPT-Realtime-Translate للترجمة الفورية، وGPT-Realtime-Whisper لنسخ الصوت المتدفّق. يُعدّ GPT-Realtime-2 أول نموذج صوتي لدى OpenAI بقدرة استدلال بمستوى GPT-5، مع توسيع نافذة السياق من 32K إلى 128K رمزًا، ودعم ما يصل إلى 1-2 ساعة من محادثة كثيفة.
حسّن GPT-Realtime-2 بنسبة 15.2% على معيار Big Bench Audio وبنسبة 13.8% على Audio MultiChallenge مقارنةً بـGPT-Realtime-1.5. ويدعم GPT-Realtime-Translate أكثر من 70 لغة إدخال للترجمة إلى 13 لغة إخراج. التسعير: GPT-Realtime-2 بسعر 32 دولارًا لكل مليون رمز إدخال و64 دولارًا لكل مليون رمز إخراج؛ وTranslate بسعر 0.034 دولارًا لكل دقيقة؛ وWhisper بسعر 0.017 دولارًا لكل دقيقة.