طرحت Xiaomi نموذج OmniVoice الخاص بتقنية استنساخ الصوت بنظام الصفر، ويدعم 646 لغة

بحسب Beating، قام فريق Kaldi التابع لمختبر الذكاء الاصطناعي في Xiaomi بطرح OmniVoice كمصدر مفتوح، وهو نموذج TTS لاستنساخ الصوت بدون أمثلة داعمة (zero-shot) يدعم 646 لغة. يقوم النموذج باستنساخ خصائص الصوت من ثوانٍ قليلة فقط من مقطع صوتي مرجعي، ويعمل عبر اللغات؛ إذ يمكن لصوت واحد أن يصيغ الكلام بالماندرين واليابانية والكورية وغيرها من اللغات. جرى طرح جميع الأكواد والأوزان وبيانات التدريب كمصدر مفتوح بموجب ترخيص Apache-2.0.

يستخدم OmniVoice بنية مبسطة مع مُحوِّل ثنائي الاتجاه واحد يربط النص مباشرةً برموز صوتية رقمية منفصلة، محققاً استدلالاً أسرع بـ40 مرة من الزمن الحقيقي في PyTorch. تم تدريبه على 580,000 ساعة من الصوت من 50 مجموعة بيانات مفتوحة المصدر، وتفوّق OmniVoice على الأنظمة التجارية من حيث تشابه الصوت وقابلية الفهم عبر 24 لغة جرى اختبارها، كما طابق أو تجاوز التسجيلات البشرية في 102 لغة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات