Kali ini Xiaomi merilis open source ControlFoley yang cukup tulus, dengan pemisahan waktu dan ruang + generasi yang dapat dikontrol, sinkronisasi audio dan visual dianggap telah memahami poin-poin utama masalahnya

Lihat Asli
BlockBeatNews
Xiaomi merilis model pengisi suara video sumber terbuka ControlFoley, suara dapat disesuaikan sesuai keinginan individu
Dalam pemantauan Beating, tim Xiaomi merilis sumber terbuka kerangka kerja efek suara video ControlFoley, menekankan kontrol: menghasilkan suara berdasarkan gambar, teks, atau audio referensi, dan dapat mengubah gaya suara sambil menjaga sinkronisasi audio dan gambar. Pada tingkat dasar menggunakan encoder audio-video spasial-temporal yang dimodifikasi dari CAV-MAE, melakukan pemisahan waktu dan nada suara. Penilaian multi-tugas mencapai SOTA sumber terbuka, dan bersaing dalam perbandingan dengan Kling-Foley, tetapi masih memiliki jarak pada beberapa indikator KL di Kling-Audio-Eval dan MovieGen-Audio-Bench. Proyek ini telah merilis laporan teknis, kode, bobot, dan Demo.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan