De acordo com Beating, o Step Audio 2.5 Realtime, um modelo de voz em tempo real ponta a ponta da Step Cosmos, foi lançado em sua API de plataforma aberta em abril de 2026. O modelo dá ênfase a conversas naturais, com personas de personagem personalizáveis e percepção paralinguística (tom, pausas, suspiros).
Em testes oficiais em cinco dimensões, o Step Audio 2.5 Realtime ficou em primeiro lugar em todas as categorias. A pontuação de avaliação subjetiva (conversas em um app de telefone de usuários reais) atingiu 80,41, contra 68,01 do GPT-Realtime-1.5 e 67,16 do Gemini Live. O benchmark de Voice Q&A teve pontuação 79,80, quase 1,5 vezes a do GPT-Realtime-1.5, que foi 53,20. Preços da API: 10 iuanes por milhão de tokens de entrada (2 iuanes com cache hits), 70 iuanes por milhão de tokens de saída, com chamadas de voz contínuas estimadas em 3,8 iuanes por hora.