根據 Tilde Research,DeepSeek V4 與 Kimi K2.5 等領先 AI 模型採用的 Muon 優化器存在隱藏缺陷:它會導致在早期訓練期間,MLP 層的神經元中超過 25% 永久死亡。團隊設計了 Aurora,這是一種替代優化器,並將其開源。參數量 11 億的模型僅用 1000 億 tokens 訓練,就在 HellaSwag 與 Winogrande 等語言理解基準上達到了與在 36T tokens 上訓練的 Qwen3-1.7B 相當的表現,顯示資料效率大約提升了 100 倍。Aurora 相較於 Muon 會增加 6% 的計算開銷,且可作為直接替代方案。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱
免責聲明。