Xiaomi、646言語に対応するゼロショット音声クローンモデル「OmniVoice」をオープンソース化

Beatingによると、XiaomiのAI Lab Kaldiチームは、ゼロショットの音声クローンTTSモデルであるOmniVoiceをオープンソース化しており、646の言語をサポートしている。このモデルは参照オーディオの数秒だけから音声の特徴をクローンし、言語をまたいで動作する――1つの声で、北京語、日本語、韓国語、そして他の言語の音声合成ができる。すべてのコード、重み、学習データはApache-2.0ライセンスのもとでオープンソースとして公開されている。

OmniVoiceは、簡略化したアーキテクチャを採用しており、単一の双方向Transformerがテキストから離散的な音響トークンを直接マッピングすることで、PyTorch上でリアルタイムの40倍高速な推論を実現している。50のオープンソースデータセットからの580,000時間の音声で学習されており、OmniVoiceは24のテスト言語において音声の類似性と聞き取りやすさの面で商用システムを上回り、さらに102の言語では人間の録音と同等、またはそれ以上の結果を達成した。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし