AI代理能提升以太坊的安全性嗎?OpenAI與Paradigm打造測試平台

ETH-0.77%

簡要介紹

  • EVMbench 測試 AI 代理在 120 個現實世界的以太坊智能合約漏洞中表現。
  • 該工具在三個不同模式下評估檢測、修補和利用能力。
  • GPT-5.3-Codex 在利用模式測試中達成 72.2% 的成功率。

ChatGPT 的開發者 OpenAI 和專注於加密貨幣投資的 Paradigm 共同推出了 EVMbench,一款旨在提升以太坊虛擬機(EVM)智能合約安全性的工具。
EVMbench 旨在評估 AI 代理檢測、修補和利用高嚴重性漏洞的能力。
智能合約是以太坊網絡的核心,承載著從去中心化金融協議到代幣發行的所有代碼。根據 Token Terminal 的數據,2025 年 11 月,以太坊部署的智能合約數量達到歷史新高的 170 萬,僅上週就部署了 66 萬9,500 個。

EVMbench 參考了來自 40 次審計的 120 個經過篩選的漏洞,這些漏洞大多來自開放審計比賽如 Code4rena,根據 OpenAI 的部落格文章。它還包括來自 Tempo 的安全審計場景,Tempo 是 Stripe 為高吞吐量、低成本穩定幣支付而專門打造的 Layer-1 區塊鏈。
支付巨頭 Stripe 在 12 月推出了 Tempo 的公開測試網,當時表示該系統在 Visa、Shopify 和 OpenAI 等的意見下建造。
其目標是將測試建立在經濟上具有意義的現實代碼中,尤其是在 AI 驅動的穩定幣支付擴展的背景下,該公司補充說。

推出 EVMbench——一個衡量 AI 代理在檢測、利用和修補高嚴重性智能合約漏洞方面能力的新基準。https://t.co/op5zufgAGH

— OpenAI (@OpenAI) 2026 年 2 月 18 日

EVMbench 旨在評估 AI 模型在三個模式下的表現:檢測(Detect)、修補(Patch)和利用(Exploit)。在“檢測”階段,代理會審計存儲庫,並根據其對真實漏洞的回憶率進行評分。在“修補”階段,代理必須在不破壞預期功能的前提下消除漏洞。最後,在“利用”階段,代理在沙盒區塊鏈環境中嘗試端到端的資金抽取攻擊,評分則通過確定性交易重放完成。
在利用模式中,運行 OpenAI 的 Codex CLI 的 GPT-5.3-Codex 達到 72.2% 的得分,而較早發布的 GPT-5 則為 31.9%。在檢測和修補任務中,性能較弱,代理有時未能徹底審計或難以保持完整的合約功能。
ChatGPT 的開發者團隊的研究人員提醒,EVMbench 並未完全反映現實世界的安全複雜性,但他們補充說,隨著模型成為攻擊者和防禦者的強大工具,衡量 AI 在經濟相關環境中的表現變得至關重要。
OpenAI 的 Sam Altman 和以太坊聯合創始人 Vitalik Buterin 之前在 AI 發展速度上存在分歧。
2025 年 1 月,Altman 表示他的公司“有信心我們知道如何像傳統理解的那樣構建 AGI”。但 Buterin 主張,AI 系統應該包括一個“軟暫停”功能,以便在出現警示信號時暫時限制工業規模的 AI 運作。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆