Se lanza Step Audio 2.5 en tiempo real: puntuación subjetiva 80,41 supera a GPT-Realtime-1.5 en un 18%, las llamadas de voz cuestan 3,8 yuanes por hora

Beating, Step Audio 2.5 Realtime, un modelo de voz en tiempo real de extremo a extremo de Step Cosmos, se lanzó en su API de plataforma abierta en abril de 2026. El modelo se centra en una conversación natural con personajes de carácter personalizables y percepción paralingüística (tono, pausas, suspiros).

En las pruebas oficiales, en cinco dimensiones, Step Audio 2.5 Realtime quedó en primer lugar en todas las categorías. La puntuación de evaluación subjetiva (conversaciones en la app telefónica de usuarios reales) alcanzó 80,41, frente a 68,01 para GPT-Realtime-1.5 y 67,16 para Gemini Live. En el benchmark de Voice Q&A, obtuvo 79,80, casi 1,5 veces los 53,20 de GPT-Realtime-1.5. Precios de API: 10 yuanes por millón de tokens de entrada (2 yuanes con aciertos de caché), 70 yuanes por millón de tokens de salida, con llamadas de voz continuas estimadas en 3,8 yuanes por hora.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios