七分之一参数反杀前代,预训练只用监控指标和合成数据就能跨领域泛化——数据效率比模型大小更让我意外

ME News
时序预测终于跑通Scaling Law,Datadog开源最高2.5B参数模型Toto 2
Datadog 公布开源时序预测模型 Toto 2 家族,五个版本:4m、22m、313m、1B、2.5B,均 Apache 2.0。 Toto 2 首次在时序领域验证缩放定律,规模越大预测越强,2.5B 未饱和;在 BOOM、GIFT-Eval、TIME 基准夺冠。引入连续图块掩码,将自回归改为单向前传,显著提速,313m 延迟接近 Chronos-2 的 120m。预训练仅用系统监控指标与合成数据,仍具跨领域泛化,22m 版本仅用七分之一参数就击败 Toto 1.0。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论