За даними Beating, Step Audio 2.5 Realtime, наскрізна модель голосу для реального часу від Step Cosmos, була запущена в квітні 2026 року на її відкритій платформі API. Модель робить акцент на природній розмові з можливістю налаштовувати персоналії персонажів і паралінгвістичне сприйняття (тон, паузи, зітхання).
Під час офіційного тестування за п’ятьма вимірами Step Audio 2.5 Realtime посіла перше місце в усіх категоріях. Суб’єктивний оціночний бал (розмови в мобільному застосунку реальних користувачів) досяг 80,41 проти 68,01 для GPT-Realtime-1.5 і 67,16 для Gemini Live. Бенчмарк для Voice Q&A набрав 79,80 — майже в 1,5 раза більше за 53,20 GPT-Realtime-1.5. Ціни на API: 10 юанів за мільйон вхідних токенів (2 юані за наявності кеш-попадань), 70 юанів за мільйон вихідних токенів; безперервні голосові дзвінки оцінюються в 3,8 юаня на годину.