從 Whisper 到 DMD2 蒸餾,技術棧疊得挺紮實,多語種和動漫風格泛化對我這種做二創的很有吸引力。

查看原文
ME News
美團開源LongCat-Video-Avatar1.5數字人框架推理縮至8步
美團 LongCat 團隊開源 LongCat-Video-Avatar 1.5,全面發布代碼與權重。改用 Whisper-large-v3 提升多語種口型同步與風格泛化,採用多片段滾動推理及基於 DMD2 的少步蒸餾將推理降至 8 步,兼顧速度與保真。經 508 對源數據、770 評估者 13240 判定與 10 名專家評估,顯著提升時序穩定性、身份一致性與自然口型,並可泛化到動畫與動物風格,原生支持單/多聲道音頻。MIT 許可,學術使用為主,商用需另核對。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆