Tilde Research 發現 Muon Optimizer 會殺死 25% 的神經元;Aurora 替代方案實現 100 倍的資料效率提升
根據 Tilde Research,DeepSeek V4 與 Kimi K2.5 等領先 AI 模型採用的 Muon 優化器存在隱藏缺陷:它會導致在早期訓練期間,MLP 層的神經元中超過 25% 永久死亡。團隊設計了 Aurora,這是一種替代優化器,並將其開源。參數量 11 億的模型僅用 1000 億 tokens 訓練,就在 HellaSwag 與 Winogrande 等語言理解基準上達到了與在 36T tokens 上訓練的 Qwen3-1.7B 相當的表現,顯示資料效率大約提升了 100 倍。Aurora 相較於 Muon 會增加 6% 的計算開銷,且可作為直接替代方案。