Claude Fable 5 调试得分在 7 月 1 日恢复(July 1 Reinstatement)后从 86.2 下降至 25.9

Claude Fable 5 于 7 月 1 日恢复上线,同日两个 AI 基准测试平台发布了相互矛盾的性能评估。BridgeBench 报告称 Claude Fable 5 的调试分数在恢复后从 86.2 骤降至 25.9,而 Arena.AI 通过数千次盲测的人类偏好投票发现性能基本不变。分歧源于 Anthropic 新的安全分类器将大部分编码和调试任务路由至 Claude Opus 4.8,而非让 Fable 5 直接处理。Anthropic 已承认该分类器在常规编码任务上会产生误报。该公司部署保守分类器是 Fable 5 恢复上线的条件之一,此前 Amazon 研究人员报告了一次安全漏洞演示。

BridgeBench 记录编码类别分数大幅下降

BridgeMind 在 7 月 1 日版本上线当天重新运行了其完整编码套件。BridgeBench 测试跨类别的实际编码任务,包括调试、重构和抗幻觉,评分范围 0–100,反映模型在每个类别的完成质量。调试从 86.2 降至 25.9,重构从 73.6 降至 38.4,抗幻觉从 75.9 降至 61.7。

12 项 TypeScript 调试任务中,只有三项实际到达 Fable 5。其余九项被 Anthropic 的新安全分类器拦截并重新路由至 Claude Opus 4.8。BridgeBench 将所有降级视为零分,因为回答的模型不是被评估的模型。该分类器被训练用于阻止 Amazon 报告的越狱技术(该技术曾让 Fable 5 识别并演示软件漏洞)。调试 TypeScript 在分类器看来足够像安全工作,因此降级频繁触发。

Arena.AI 人类偏好投票显示性能持平或提升

Arena.AI 通过不同视角运行了相同问题。该平台收集了数千次跨多个类别(文本、视觉、文档、代码和代理)的盲测人类偏好投票,并使用 Elo 评分对模型进行排名。当两个模型匿名对战且人类选择胜者时,分数反映的是实际感知质量,而非基础设施路由。

前后对比显示 Fable 5 基本保持原有水准。前端代码从 1650 Elo 降至 1623——Arena 指出该差异在置信区间内,因数据仍在持续积累。文档性能提升 34 分。专家文本提升 25 分。创意写作小幅提升 9 分。下降的类别——编程(-18 分)、高难度提示(-3 分)——正是分类器最可能在 Fable 回答前拦截提示的领域。

当 Fable 5 实际处理任务时,其表现仍如 Fable 5。进行创意写作、文档分析、研究和专家级文本查询的普通用户可能几乎感受不到差异。这些正是 Arena.AI 显示性能持平或提升的类别。从事安全相关领域的开发者——编码内存管理、任何涉及 vulnerability、exploit、hook 或 fix 等词汇的任务——将频繁触发降级。

Anthropic 承认常规编码工作存在误报

Anthropic 表示分类器会随时间改进,并承认目前覆盖范围过宽。最初的禁令源于 Amazon 研究人员发现一种技术可让 Fable 识别并演示软件漏洞,美国政府将其视为国家安全威胁。修复方案是让分类器足够保守以捕获该技术及其周边行为,之后再逐步调低。Anthropic 未给出具体时间表。

常见问题

为什么 Claude Fable 5 的调试分数在 7 月 1 日后从 86.2 降至 25.9?

下降源于 Anthropic 的新安全分类器将 12 项调试任务中的 9 项路由至 Claude Opus 4.8,而非让 Fable 5 处理。BridgeBench 将所有降级视为零分,因为被评估的模型未回答。该分类器部署用于阻止 Amazon 报告的越狱技术(该技术曾让 Fable 5 演示软件漏洞)。

Arena.AI 的人类偏好测试结果为何与 BridgeBench 不同?

Arena.AI 收集了数千次跨文本、视觉、文档、代码和代理类别的盲测人类偏好投票。该平台发现 Fable 5 性能与 6 月版本基本持平,其中文档性能提升 34 分,专家文本提升 25 分。前端代码从 1650 Elo 降至 1623,Arena 指出该差异在置信区间内。

Anthropic 何时会优化安全分类器以减少误报?

Anthropic 已承认新分类器在常规编码和调试任务上会产生误报,并表示该系统将随时间优化。该公司未给出优化时间表。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论