Beating afirma que OpenAI lanzó tres modelos de voz en su Realtime API: GPT-Realtime-2 para conversaciones de voz con razonamiento, GPT-Realtime-Translate para traducción en tiempo real y GPT-Realtime-Whisper para transcripción en streaming. GPT-Realtime-2 es el primer modelo de voz de OpenAI con capacidad de razonamiento a nivel GPT-5, ampliando la ventana de contexto de 32K a 128K tokens, y permitiendo hasta 1-2 horas de conversación densa.
GPT-Realtime-2 mejoró un 15,2% en el benchmark Big Bench Audio y un 13,8% en Audio MultiChallenge frente a GPT-Realtime-1.5. GPT-Realtime-Translate admite 70+ idiomas de entrada para traducir a 13 idiomas de salida. Precios: GPT-Realtime-2 a 32 USD por millón de tokens de entrada y 64 USD por millón de tokens de salida; Translate a 0,034 USD por minuto; Whisper a 0,017 USD por minuto.