OpenAI lanza tres modelos de voz en la API de tiempo real; GPT-Realtime-2 incluye una ventana de contexto de 128K

Beating afirma que OpenAI lanzó tres modelos de voz en su Realtime API: GPT-Realtime-2 para conversaciones de voz con razonamiento, GPT-Realtime-Translate para traducción en tiempo real y GPT-Realtime-Whisper para transcripción en streaming. GPT-Realtime-2 es el primer modelo de voz de OpenAI con capacidad de razonamiento a nivel GPT-5, ampliando la ventana de contexto de 32K a 128K tokens, y permitiendo hasta 1-2 horas de conversación densa.

GPT-Realtime-2 mejoró un 15,2% en el benchmark Big Bench Audio y un 13,8% en Audio MultiChallenge frente a GPT-Realtime-1.5. GPT-Realtime-Translate admite 70+ idiomas de entrada para traducir a 13 idiomas de salida. Precios: GPT-Realtime-2 a 32 USD por millón de tokens de entrada y 64 USD por millón de tokens de salida; Translate a 0,034 USD por minuto; Whisper a 0,017 USD por minuto.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios