ティルド・リサーチがムオン・オプティマイザーはニューロンの25%を破壊すると発見。オーロラの代替案はデータ効率を100倍に向上。
Tilde Researchによると、DeepSeek V4やKimi K2.5を含む主要なAIモデルが採用しているMuonオプティマイザには隠れた欠陥があります。それは、初期トレーニングの間にMLP層のニューロンのうち25%以上が永久に死んでしまうことを引き起こすというものです。チームは代替オプティマイザであるAuroraを設計し、オープンソース化しました。1.1Bパラメータのモデルは、わずか100Bトークンだけで学習し、HellaSwagやWinograndeのような言語理解ベンチマークにおいて、36Tトークンで学習したQwen3-1.7Bと同等の性能を達成し、データ効率が約100倍向上したことを示しています。AuroraはMuonと比べて計算オーバーヘッドが6%増えるだけで、直接の置き換えとして利用できます。