Según Beating, el equipo Kaldi del AI Lab de Xiaomi ha publicado como open-source OmniVoice, un modelo de TTS de clonación de voz zero-shot que admite 646 idiomas. El modelo clona características de la voz a partir de solo unos segundos de audio de referencia y funciona en varios idiomas: una sola voz puede sintetizar discurso en mandarín, japonés, coreano y otros idiomas. Todo el código, los pesos y los datos de entrenamiento se publican como open-source bajo la licencia Apache-2.0.
OmniVoice utiliza una arquitectura simplificada con un único Transformer bidireccional que mapea directamente texto a tokens acústicos discretos, logrando una inferencia 40x más rápida que en tiempo real en PyTorch. Entrenado con 580.000 horas de audio de 50 conjuntos de datos open-source, OmniVoice superó a sistemas comerciales en similitud de voz y inteligibilidad en 24 idiomas probados y coincidió o superó grabaciones humanas en 102 idiomas.