بحسب Beating، قام فريق Kaldi التابع لمختبر الذكاء الاصطناعي في Xiaomi بطرح OmniVoice كمصدر مفتوح، وهو نموذج TTS لاستنساخ الصوت بدون أمثلة داعمة (zero-shot) يدعم 646 لغة. يقوم النموذج باستنساخ خصائص الصوت من ثوانٍ قليلة فقط من مقطع صوتي مرجعي، ويعمل عبر اللغات؛ إذ يمكن لصوت واحد أن يصيغ الكلام بالماندرين واليابانية والكورية وغيرها من اللغات. جرى طرح جميع الأكواد والأوزان وبيانات التدريب كمصدر مفتوح بموجب ترخيص Apache-2.0.
يستخدم OmniVoice بنية مبسطة مع مُحوِّل ثنائي الاتجاه واحد يربط النص مباشرةً برموز صوتية رقمية منفصلة، محققاً استدلالاً أسرع بـ40 مرة من الزمن الحقيقي في PyTorch. تم تدريبه على 580,000 ساعة من الصوت من 50 مجموعة بيانات مفتوحة المصدر، وتفوّق OmniVoice على الأنظمة التجارية من حيث تشابه الصوت وقابلية الفهم عبر 24 لغة جرى اختبارها، كما طابق أو تجاوز التسجيلات البشرية في 102 لغة.