Xiaomi Mở Nguồn OmniVoice, Mô Hình Nhân Giọng Không Cần Ví Dụ (Zero-Shot) Hỗ Trợ 646 Ngôn Ngữ

Theo Beating, nhóm Kaldi tại AI Lab của Xiaomi đã mở mã nguồn OmniVoice, một mô hình TTS nhân bản giọng nói zero-shot hỗ trợ 646 ngôn ngữ. Mô hình có thể sao chép đặc trưng giọng nói chỉ từ vài giây âm thanh tham chiếu và hoạt động trên nhiều ngôn ngữ—một giọng có thể tổng hợp lời nói bằng tiếng Quan Thoại, tiếng Nhật, tiếng Hàn và các ngôn ngữ khác. Toàn bộ mã nguồn, trọng số và dữ liệu huấn luyện được mở mã nguồn theo giấy phép Apache-2.0.

OmniVoice dùng kiến trúc được đơn giản hóa với một Transformer hai chiều duy nhất, ánh xạ trực tiếp văn bản sang các token âm học rời rạc, đạt tốc độ suy luận nhanh hơn thực tế 40 lần trong PyTorch. Được huấn luyện trên 580.000 giờ âm thanh từ 50 bộ dữ liệu mở mã nguồn, OmniVoice vượt trội các hệ thống thương mại về độ tương đồng giọng nói và khả năng hiểu trong 24 ngôn ngữ được thử nghiệm, đồng thời khớp hoặc vượt qua các bản ghi của con người ở 102 ngôn ngữ.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận