За Beating, AI Lab Kaldi від Xiaomi відкрила вихідний код OmniVoice — моделі TTS для клонування голосу без прикладів (zero-shot), що підтримує 646 мов. Модель відтворює характеристики голосу лише за кілька секунд референсного аудіо та працює між мовами: один і той самий голос може синтезувати мовлення китайською, японською, корейською та іншими мовами. Увесь код, ваги та навчальні дані відкриті під ліцензією Apache-2.0.

OmniVoice використовує спрощену архітектуру з одним двонапрямним Transformer, який безпосередньо перетворює текст на дискретні акустичні токени, досягаючи в PyTorch інференсу в 40 разів швидшого за real-time. Навчена на 580 000 годинах аудіо з 50 відкритих наборів даних, OmniVoice продемонструвала перевагу над комерційними системами в голосовій схожості та розбірливості на 24 протестованих мовах і відповідала або перевершувала людські записи в 102 мовах.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-07 07:11

Moonshot AI залучив 2 мільярди доларів за оцінки в 20 мільярдів доларів, попереду — Meituan

05-07 02:31

Прев’ю Tencent Hunyuan Hy3 бачить 10-кратне зростання токенів за два тижні

05-06 16:30

Anthropic подвоює ліміти швидкості для Claude Code після отримання 300 МВт потужності за угодою з SpaceX

05-06 07:31

Blackstone, KKR, EQT ведуть переговори з Alphabet щодо угод із портфелем у сфері ШІ

05-06 01:51

ElevenLabs випереджає $500M ARR у перші чотири місяці 2026 року

Поглиблений аналіз