Gate News 消息,4 月 23 日——Anthropic 的工程团队确认,用户在过去一个月报告的 Claude Code 质量退化源于三个相互独立的产品层变更,而非来自 API 或底层模型问题。这三个问题分别在 4 月 7 日、4 月 10 日和 4 月 20 日修复,目前最终版本为 v2.1.116。
第一次变更发生在 3 月 4 日,当时团队将 Claude Code 的默认推理工作量级别从 “high” 降低到 “medium”,以应对在高推理强度下 Opus 4.6 偶发的极端延迟尖峰。在大量用户对性能下降提出抱怨后,团队于 4 月 7 日回滚了该变更。当前默认值现在为 Opus 4.7 的 “xhigh”,以及其他模型的 “high”。
第二个问题是 3 月 26 日引入的一个漏洞。系统原本设计为在对话不活跃超过一小时后清除旧的推理记录,以降低会话恢复成本。然而,实施中的缺陷导致清除操作在每个后续轮次都会反复执行,而不是只执行一次,从而使模型逐步丢失既有推理上下文。该问题表现为健忘程度增加、重复操作,以及异常的工具调用。该漏洞还导致每次请求都会发生缓存未命中,加速用户配额消耗。两个互不相关的内部实验掩盖了复现条件,使得调试过程延长到超过一周。4 月 10 日修复后,团队使用 Opus 4.7 检查有问题的代码,发现 Opus 4.7 能够识别该漏洞,而 Opus 4.6 不能。
第三项变更于 4 月 16 日随同 Opus 4.7 一起发布。团队在系统提示中添加了指令,以减少冗余输出。数周的内部测试表明没有回归,但在上线后与其他提示的交互导致编码质量下降。延长评估显示,Opus 4.6 和 4.7 的性能都下降了 3%,因此团队于 4 月 20 日回滚。
这三项变更在不同时间影响了不同用户群体,它们叠加后的综合效果导致了广泛且不一致的质量下降,使诊断变得更加复杂。Anthropic 表示,现在将要求更多内部员工像用户一样使用相同的公开构建版本,对每次系统提示修改都运行完整的模型评估套件,并实施分阶段的发布周期。作为补偿,Anthropic 已重置所有订阅用户的使用配额。