За Beating, AI Lab Kaldi від Xiaomi відкрила вихідний код OmniVoice — моделі TTS для клонування голосу без прикладів (zero-shot), що підтримує 646 мов. Модель відтворює характеристики голосу лише за кілька секунд референсного аудіо та працює між мовами: один і той самий голос може синтезувати мовлення китайською, японською, корейською та іншими мовами. Увесь код, ваги та навчальні дані відкриті під ліцензією Apache-2.0.
OmniVoice використовує спрощену архітектуру з одним двонапрямним Transformer, який безпосередньо перетворює текст на дискретні акустичні токени, досягаючи в PyTorch інференсу в 40 разів швидшого за real-time. Навчена на 580 000 годинах аудіо з 50 відкритих наборів даних, OmniVoice продемонструвала перевагу над комерційними системами в голосовій схожості та розбірливості на 24 протестованих мовах і відповідала або перевершувала людські записи в 102 мовах.