По данным Beating, Step Audio 2.5 Realtime — сквозная модель голоса в режиме реального времени от Step Cosmos — запущена на её открытой платформенной API в апреле 2026 года. Модель делает акцент на естественном общении с настраиваемыми персонажами и паралингвистическим восприятием (тон, паузы, вздохи).
В официальном тестировании по пяти направлениям Step Audio 2.5 Realtime заняла первое место во всех категориях. Субъективный оценочный балл (разговоры в телефонном приложении с реальными пользователями) достиг 80,41 по сравнению с 68,01 для GPT-Realtime-1.5 и 67,16 для Gemini Live. Бенчмарк Voice Q&A набрал 79,80 — почти в 1,5 раза больше, чем 53,20 у GPT-Realtime-1.5. Ценообразование API: 10 юаней за миллион входных токенов (2 юаня при совпадениях с кэшем), 70 юаней за миллион выходных токенов; непрерывные голосовые звонки оцениваются в 3,8 юаня в час.