De acordo com Beating, Step Audio 2.5 Realtime, um modelo de voz em tempo real de ponta a ponta pela Step Cosmos, foi lançado na sua API de plataforma aberta em abril de 2026. O modelo privilegia conversas naturais com personas de personagem personalizáveis e perceção paralinguística (tom, pausas, suspiros).
Em testes oficiais em cinco dimensões, o Step Audio 2.5 Realtime ficou em primeiro lugar em todas as categorias. A pontuação de avaliação subjetiva (conversas em conversas telefónicas na app dos utilizadores reais) atingiu 80,41, face a 68,01 para GPT-Realtime-1.5 e 67,16 para Gemini Live. O benchmark de Voz Q&A marcou 79,80, quase 1,5 vezes a pontuação 53,20 do GPT-Realtime-1.5. Preços de API: 10 yuan por milhão de tokens de entrada (2 yuan com acertos de cache), 70 yuan por milhão de tokens de saída, com chamadas de voz contínuas estimadas em 3,8 yuan por hora.