Xiaomi відкриває вихідний код OmniVoice: модель клонування голосу з можливістю нульового прикладу, що підтримує 646 мов

За Beating, AI Lab Kaldi від Xiaomi відкрила вихідний код OmniVoice — моделі TTS для клонування голосу без прикладів (zero-shot), що підтримує 646 мов. Модель відтворює характеристики голосу лише за кілька секунд референсного аудіо та працює між мовами: один і той самий голос може синтезувати мовлення китайською, японською, корейською та іншими мовами. Увесь код, ваги та навчальні дані відкриті під ліцензією Apache-2.0.

OmniVoice використовує спрощену архітектуру з одним двонапрямним Transformer, який безпосередньо перетворює текст на дискретні акустичні токени, досягаючи в PyTorch інференсу в 40 разів швидшого за real-time. Навчена на 580 000 годинах аудіо з 50 відкритих наборів даних, OmniVoice продемонструвала перевагу над комерційними системами в голосовій схожості та розбірливості на 24 протестованих мовах і відповідала або перевершувала людські записи в 102 мовах.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів