Beating, Step Audio 2.5 Realtime, un modelo de voz en tiempo real de extremo a extremo de Step Cosmos, se lanzó en su API de plataforma abierta en abril de 2026. El modelo se centra en una conversación natural con personajes de carácter personalizables y percepción paralingüística (tono, pausas, suspiros).
En las pruebas oficiales, en cinco dimensiones, Step Audio 2.5 Realtime quedó en primer lugar en todas las categorías. La puntuación de evaluación subjetiva (conversaciones en la app telefónica de usuarios reales) alcanzó 80,41, frente a 68,01 para GPT-Realtime-1.5 y 67,16 para Gemini Live. En el benchmark de Voice Q&A, obtuvo 79,80, casi 1,5 veces los 53,20 de GPT-Realtime-1.5. Precios de API: 10 yuanes por millón de tokens de entrada (2 yuanes con aciertos de caché), 70 yuanes por millón de tokens de salida, con llamadas de voz continuas estimadas en 3,8 yuanes por hora.