Step Audio 2,5 Realtime lançado: Pontuação subjectiva 80,41, ultrapassa GPT-Realtime-1,5 em 18%, chamadas de voz custam 3,8 iuanes/hora

De acordo com Beating, Step Audio 2.5 Realtime, um modelo de voz em tempo real de ponta a ponta pela Step Cosmos, foi lançado na sua API de plataforma aberta em abril de 2026. O modelo privilegia conversas naturais com personas de personagem personalizáveis e perceção paralinguística (tom, pausas, suspiros).

Em testes oficiais em cinco dimensões, o Step Audio 2.5 Realtime ficou em primeiro lugar em todas as categorias. A pontuação de avaliação subjetiva (conversas em conversas telefónicas na app dos utilizadores reais) atingiu 80,41, face a 68,01 para GPT-Realtime-1.5 e 67,16 para Gemini Live. O benchmark de Voz Q&A marcou 79,80, quase 1,5 vezes a pontuação 53,20 do GPT-Realtime-1.5. Preços de API: 10 yuan por milhão de tokens de entrada (2 yuan com acertos de cache), 70 yuan por milhão de tokens de saída, com chamadas de voz contínuas estimadas em 3,8 yuan por hora.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário