ChatGPT 的開發者 OpenAI 和專注於加密貨幣投資的 Paradigm 共同推出了 EVMbench，一款旨在提升以太坊虛擬機（EVM）智能合約安全性的工具。
EVMbench 旨在評估 AI 代理檢測、修補和利用高嚴重性漏洞的能力。
智能合約是以太坊網絡的核心，承載著從去中心化金融協議到代幣發行的所有代碼。根據 Token Terminal 的數據，2025 年 11 月，以太坊部署的智能合約數量達到歷史新高的 170 萬，僅上週就部署了 66 萬9,500 個。

EVMbench 參考了來自 40 次審計的 120 個經過篩選的漏洞，這些漏洞大多來自開放審計比賽如 Code4rena，根據 OpenAI 的部落格文章。它還包括來自 Tempo 的安全審計場景，Tempo 是 Stripe 為高吞吐量、低成本穩定幣支付而專門打造的 Layer-1 區塊鏈。
支付巨頭 Stripe 在 12 月推出了 Tempo 的公開測試網，當時表示該系統在 Visa、Shopify 和 OpenAI 等的意見下建造。
其目標是將測試建立在經濟上具有意義的現實代碼中，尤其是在 AI 驅動的穩定幣支付擴展的背景下，該公司補充說。

推出 EVMbench——一個衡量 AI 代理在檢測、利用和修補高嚴重性智能合約漏洞方面能力的新基準。https://t.co/op5zufgAGH

— OpenAI (@OpenAI) 2026 年 2 月 18 日

EVMbench 旨在評估 AI 模型在三個模式下的表現：檢測（Detect）、修補（Patch）和利用（Exploit）。在“檢測”階段，代理會審計存儲庫，並根據其對真實漏洞的回憶率進行評分。在“修補”階段，代理必須在不破壞預期功能的前提下消除漏洞。最後，在“利用”階段，代理在沙盒區塊鏈環境中嘗試端到端的資金抽取攻擊，評分則通過確定性交易重放完成。
在利用模式中，運行 OpenAI 的 Codex CLI 的 GPT-5.3-Codex 達到 72.2% 的得分，而較早發布的 GPT-5 則為 31.9%。在檢測和修補任務中，性能較弱，代理有時未能徹底審計或難以保持完整的合約功能。
ChatGPT 的開發者團隊的研究人員提醒，EVMbench 並未完全反映現實世界的安全複雜性，但他們補充說，隨著模型成為攻擊者和防禦者的強大工具，衡量 AI 在經濟相關環境中的表現變得至關重要。
OpenAI 的 Sam Altman 和以太坊聯合創始人 Vitalik Buterin 之前在 AI 發展速度上存在分歧。
2025 年 1 月，Altman 表示他的公司“有信心我們知道如何像傳統理解的那樣構建 AGI”。但 Buterin 主張，AI 系統應該包括一個“軟暫停”功能，以便在出現警示信號時暫時限制工業規模的 AI 運作。

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。

回覆

0/400

暫無回覆