Xiaomi abre el código de OmniVoice, un modelo de clonación de voz con cero-shot compatible con 646 idiomas

Según Beating, el equipo Kaldi del AI Lab de Xiaomi ha publicado como open-source OmniVoice, un modelo de TTS de clonación de voz zero-shot que admite 646 idiomas. El modelo clona características de la voz a partir de solo unos segundos de audio de referencia y funciona en varios idiomas: una sola voz puede sintetizar discurso en mandarín, japonés, coreano y otros idiomas. Todo el código, los pesos y los datos de entrenamiento se publican como open-source bajo la licencia Apache-2.0.

OmniVoice utiliza una arquitectura simplificada con un único Transformer bidireccional que mapea directamente texto a tokens acústicos discretos, logrando una inferencia 40x más rápida que en tiempo real en PyTorch. Entrenado con 580.000 horas de audio de 50 conjuntos de datos open-source, OmniVoice superó a sistemas comerciales en similitud de voz y inteligibilidad en 24 idiomas probados y coincidió o superó grabaciones humanas en 102 idiomas.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios