据Beating监测,Sakana AI的多智能体系统Fugu Ultra声称在科学推理和编程基准测试中战胜Anthropic的Fable 5,但这一说法遭到AI社区的广泛质疑。
批评者认为,基准测试分数高度依赖于评估过程中使用的测试框架。不同的框架实现可能导致10到20分的差异,这意味着报告的性能差异可能反映的是系统工程优化,而非模型能力的根本性进步。Sakana AI和Anthropic都基于专有的、供应商特定的框架发布了结果,缺乏统一的第三方测试环境,限制了直接比较的可靠性。
相关快讯
六大 AI 模型政治测量:Grok 偏右强度 97%,Gemini 最接近中立
Anthropic 指控与阿里巴巴相关的针对 Claude AI 的蒸馏活动
Krugman:AI行业警告引发了公众对技术的反弹