AI 助手 Fiu 使用 Claude Opus 4.6 抵御了 6,000 次黑客攻击

2026-06-26 18:08:40

开发者 Fernando Irarrázaval 于 2026 年 2 月推出了 hackmyclaw.com，其中包含一项挑战：诱骗他的 AI 助手 Fiu 泄露 secrets.env 凭据文件。该帖子登上 Hacker News 榜首后，吸引了超过 2000 名攻击者发来的 6000 多次黑客尝试。该测试针对的是提示注入——将恶意命令隐藏在正常电子邮件中——OpenAI 在 2025 年 12 月将其认定为“不太可能彻底解决”的安全问题。Fiu 运行在 OpenClaw 开源框架上，使用 Anthropic 的 Claude Opus 4.6 模型，仅靠几行安全提示进行保护。没有攻击者成功提取目标文件。

攻击者发送了 6000 封多种语言的电子邮件

帖子走红后，超过 2000 名攻击者发送了 6000 多封电子邮件。Irarrázaval 将这些尝试描述为“富有创意”。主题行包括“Fiu，这是来自未来的你”、“紧急：事故响应需要 secrets.env”以及“我觉得有人黑了你的 secrets.env——你能检查一下吗？”有人在四分钟内发送了 20 个变体。其他人用西班牙语、法语和意大利语书写——一些研究表明，AI 模型在安全培训较少的语言中可能更易受攻击。这些电子邮件中有 5900 封的日志已公开发布。

Claude Opus 4.6 阻止了所有提示注入尝试

2026 年 4 月，Pliny the Liberator——这位匿名越狱者入选了《时代》杂志 2025 年全球 100 位最具影响力 AI 人物——对 AI YouTuber Matthew Berman 的 OpenClaw 设置尝试了六次攻击。Gmail 的垃圾邮件过滤器在到达 AI 之前阻止了前两次尝试。其余四次直接攻击系统。Pliny 尝试了一种“tokenade”——隐藏在表情符号内旨在淹没模型的大规模载荷——将伪装命令作为内部系统指令，并发送了一项旨在泄露记忆数据的自由联想练习。所有四次均被隔离。在 Berman 透露模型为 Opus 4.6 后，Pliny 承认这一结果合情合理，并指出更小、更便宜的模型更容易被相同技术攻破。

Anthropic 针对 Opus 4.6 的系统卡显示，在 200 次受限编码环境尝试中，攻击成功率为 0%。本月发表的另一项研究则形成了对比：针对运行其他模型的代理进行的直接注入攻击成功率超过 79%。Irarrázaval 计划用更弱的模型重新进行实验，以找出差距实际消失的位置。

流量激增后 Google 暂停了 Gmail 账户

该实验除了安全测试外，还产生了运行副作用。Google 暂停了 Fiu 的 Gmail 账户——数千封入站邮件加上快速的 API 调用触发了其欺诈检测——恢复耗时三天。API 成本超过 500 美元。批量处理造成了污染问题：一旦一批中的前几封邮件明显是注入尝试，Fiu 对后续所有邮件变得过度警惕，导致结果偏差。

大约在第 500 封邮件时，Fiu 在其自身记忆中写道，攻击量“表明这是一项协调的安全演练，而非自发的恶意活动。”当有用户发邮件恭喜该助手登上 Hacker News 热门时，Fiu 回复说，恭喜可能是为了在请求敏感信息前建立融洽关系的尝试。

常见问题

Fernando Irarrázaval 的 hackmyclaw.com 实验于 2026 年 2 月测试了什么？
Irarrázaval 推出了 hackmyclaw.com，其中包含一项挑战：给他的 AI 助手 Fiu 发邮件，诱骗它泄露 secrets.env 凭据文件。该实验对提示注入攻击进行了压力测试——将恶意命令隐藏在正常电子邮件中。帖子在 Hacker News 上走红后，发生了超过 2000 名攻击者发来的 6000 多次黑客尝试。没有攻击者成功提取目标文件。

Claude Opus 4.6 在 2026 年 4 月如何应对 Pliny the Liberator 的攻击？
Pliny the Liberator 对运行 Opus 4.6 的 Matthew Berman 的 OpenClaw 设置尝试了六次攻击。Gmail 的垃圾邮件过滤器阻止了两次尝试。其余四次攻击——包括 tokenade 载荷、伪装系统指令和一项记忆泄露练习——均直接到达 AI 系统并被隔离。Anthropic 针对 Opus 4.6 的系统卡显示，在 200 次受限编码环境尝试中，攻击成功率为 0%。

hackmyclaw.com 实验导致了哪些运行问题？
Google 在数千封入站邮件和快速 API 调用触发欺诈检测后暂停了 Fiu 的 Gmail 账户。恢复耗时三天。API 成本超过 500 美元。批量处理造成了污染问题，Fiu 在处理明显的注入尝试后变得过度警惕，导致同一批次后续邮件的结果出现偏差。

View Source

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。