Selon Beating, Step Audio 2.5 Realtime, un modèle vocal temps réel de bout en bout de Step Cosmos, a été lancé sur son API de plateforme ouverte en avril 2026. Le modèle met l’accent sur des conversations naturelles, avec des personas de personnage personnalisables et une perception paralinguistique (ton, pauses, soupirs).
Lors de tests officiels portant sur cinq dimensions, Step Audio 2.5 Realtime s’est classé premier dans toutes les catégories. Le score d’évaluation subjective (conversations dans l’application téléphonique utilisée par de vrais utilisateurs) a atteint 80,41, contre 68,01 pour GPT-Realtime-1.5 et 67,16 pour Gemini Live. Le benchmark Voice Q&A a obtenu 79,80, soit près de 1,5 fois le score de 53,20 de GPT-Realtime-1.5. Tarification API : 10 yuans pour un million de jetons d’entrée (2 yuans en cas de succès de cache), 70 yuans pour un million de jetons de sortie, avec des appels vocaux continus estimés à 3,8 yuans par heure.