七分之一參數反殺前代,預訓練只用監控指標和合成數據就能跨領域泛化——數據效率比模型大小更讓我意外

查看原文
ME News
時序預測終於跑通Scaling Law,Datadog開源最高2.5B參數模型Toto 2
Datadog 公布開源時序預測模型 Toto 2 家族,五個版本:4m、22m、313m、1B、2.5B,均 Apache 2.0。 Toto 2 首次在時序領域驗證縮放定律,規模越大預測越強,2.5B 未飽和;在 BOOM、GIFT-Eval、TIME 基準奪冠。引入連續圖塊掩碼,將自回歸改為單向前傳,顯著提速,313m 延遲接近 Chronos-2 的 120m。預訓練僅用系統監控指標與合成數據,仍具跨領域泛化,22m 版本僅用七分之一參數就擊敗 Toto 1.0。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆