Selon Beating, l’équipe Kaldi du laboratoire d’IA de Xiaomi a open-sourcé OmniVoice, un modèle TTS de clonage vocal zero-shot prenant en charge 646 langues. Le modèle clone les caractéristiques de la voix à partir de seulement quelques secondes d’audio de référence et fonctionne dans plusieurs langues — une seule voix peut synthétiser la parole en mandarin, en japonais, en coréen et dans d’autres langues. Tout le code, les poids et les données d’entraînement sont open-sourcés sous licence Apache-2.0.
OmniVoice utilise une architecture simplifiée avec un seul Transformer bidirectionnel qui associe directement le texte à des jetons acoustiques discrets, ce qui permet d’atteindre une inférence 40 fois plus rapide que le temps réel dans PyTorch. Entraîné sur 580 000 heures d’audio issues de 50 jeux de données open-source, OmniVoice a surpassé des systèmes commerciaux en termes de similarité vocale et d’intelligibilité sur 24 langues testées, et a atteint ou dépassé des enregistrements humains dans 102 langues.