Xiaomi ouvre son OmniVoice en open-source, un modèle de clonage vocal sans exemple prenant en charge 646 langues

Selon Beating, l’équipe Kaldi du laboratoire d’IA de Xiaomi a open-sourcé OmniVoice, un modèle TTS de clonage vocal zero-shot prenant en charge 646 langues. Le modèle clone les caractéristiques de la voix à partir de seulement quelques secondes d’audio de référence et fonctionne dans plusieurs langues — une seule voix peut synthétiser la parole en mandarin, en japonais, en coréen et dans d’autres langues. Tout le code, les poids et les données d’entraînement sont open-sourcés sous licence Apache-2.0.

OmniVoice utilise une architecture simplifiée avec un seul Transformer bidirectionnel qui associe directement le texte à des jetons acoustiques discrets, ce qui permet d’atteindre une inférence 40 fois plus rapide que le temps réel dans PyTorch. Entraîné sur 580 000 heures d’audio issues de 50 jeux de données open-source, OmniVoice a surpassé des systèmes commerciaux en termes de similarité vocale et d’intelligibilité sur 24 langues testées, et a atteint ou dépassé des enregistrements humains dans 102 langues.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire