De acordo com Beating, a equipa Kaldi do AI Lab da Xiaomi publicou de forma open-source o OmniVoice, um modelo de TTS para clonagem de voz zero-shot que suporta 646 línguas. O modelo consegue replicar as características da voz a partir de apenas segundos de áudio de referência e funciona entre línguas — uma única voz pode sintetizar fala em mandarim, japonês, coreano e outras línguas. Todo o código, pesos e dados de treino foram disponibilizados open-source sob a licença Apache-2.0.
O OmniVoice utiliza uma arquitectura simplificada com um único Transformer bidireccional que mapeia directamente texto em tokens acústicos discretos, conseguindo uma inferência 40x mais rápida do que em tempo real no PyTorch. Treinado com 580 mil horas de áudio provenientes de 50 conjuntos de dados open-source, o OmniVoice superou sistemas comerciais em semelhança vocal e inteligibilidade em 24 línguas testadas, e igualou ou excedeu gravações humanas em 102 línguas.