Xiaomi открывает исходный код OmniVoice — модель клонирования голоса Zero-Shot с возможностью, поддерживающая 646 языков

По данным Beating, команда Kaldi в AI Lab компании Xiaomi открыла исходный код OmniVoice — модели TTS с голосовым клонированием без примеров (zero-shot), поддерживающей 646 языков. Модель клонирует характеристики голоса всего по нескольким секундам референсного аудио и работает между языками — один и тот же голос может синтезировать речь на китайском (mandarin), японском, корейском и других языках. Весь код, веса и обучающие данные открыты под лицензией Apache-2.0.

OmniVoice использует упрощённую архитектуру с одним двунаправленным Transformer, который напрямую преобразует текст в дискретные акустические токены, обеспечивая вывод в 40 раз быстрее реального времени в PyTorch. Обученная на 580 тыс. часов аудио с 50 открытых наборов данных, OmniVoice превзошла коммерческие системы по сходству голоса и разборчивости речи на 24 протестированных языках и совпадала или превосходила записи человека в 102 языках.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев