По данным Beating, команда Kaldi в AI Lab компании Xiaomi открыла исходный код OmniVoice — модели TTS с голосовым клонированием без примеров (zero-shot), поддерживающей 646 языков. Модель клонирует характеристики голоса всего по нескольким секундам референсного аудио и работает между языками — один и тот же голос может синтезировать речь на китайском (mandarin), японском, корейском и других языках. Весь код, веса и обучающие данные открыты под лицензией Apache-2.0.

OmniVoice использует упрощённую архитектуру с одним двунаправленным Transformer, который напрямую преобразует текст в дискретные акустические токены, обеспечивая вывод в 40 раз быстрее реального времени в PyTorch. Обученная на 580 тыс. часов аудио с 50 открытых наборов данных, OmniVoice превзошла коммерческие системы по сходству голоса и разборчивости речи на 24 протестированных языках и совпадала или превосходила записи человека в 102 языках.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-07 07:11

Moonshot AI привлек $2 миллиарда при оценке в $20 миллиардов; лидировал Meituan

05-07 02:31

Предпросмотр Tencent Hunyuan Hy3 показывает рост токенов в 10 раз за две недели

05-06 16:30

Anthropic удваивает лимиты скорости для Claude Code после того, как обеспечила 300 МВт мощности по сделке с SpaceX

05-06 07:31

Blackstone, KKR, EQT ведут переговоры с Alphabet о сделках по портфелю активов в сфере ИИ

05-06 01:51

ElevenLabs обогнала $500M ARR за первые четыре месяца 2026 года

Детальный анализ