По данным Beating, команда Kaldi в AI Lab компании Xiaomi открыла исходный код OmniVoice — модели TTS с голосовым клонированием без примеров (zero-shot), поддерживающей 646 языков. Модель клонирует характеристики голоса всего по нескольким секундам референсного аудио и работает между языками — один и тот же голос может синтезировать речь на китайском (mandarin), японском, корейском и других языках. Весь код, веса и обучающие данные открыты под лицензией Apache-2.0.
OmniVoice использует упрощённую архитектуру с одним двунаправленным Transformer, который напрямую преобразует текст в дискретные акустические токены, обеспечивая вывод в 40 раз быстрее реального времени в PyTorch. Обученная на 580 тыс. часов аудио с 50 открытых наборов данных, OmniVoice превзошла коммерческие системы по сходству голоса и разборчивости речи на 24 протестированных языках и совпадала или превосходила записи человека в 102 языках.