随着智能合约从小型实验发展为管理超过4000亿美元资产的主要金融系统,安全性变得日益关键。
与传统软件不同,大多数区块链程序在部署后无法更改,这意味着即使是微小的编码错误也可能导致永久性财务损失。
为评估人工智能在这种高风险环境中的表现,来自OpenAI、Paradigm和OtterSec的研究人员开发了EVMbench。
该工具并非使用简单的测试挑战,而是采用了来自40个区块链项目的120个真实漏洞,使评估更贴近真实环境。
对此,OpenAI的博客文章指出:
“我们评估了一系列前沿智能体,发现它们能够端到端地发现并利用实时区块链实例中的漏洞。”
文章进一步补充:
“我们发布了代码、任务和工具,以支持持续测量这些能力及未来的安全工作。”
AI是否真正重塑智能合约安全?
虽然AI极大改善了审计和漏洞修复能力,但它同样可能利用系统弱点。为此,EVMbench帮助研究人员追踪这些风险。
它还为高价值金融系统的负责任AI开发提供指导。
值得一提的是,EVMbench通过三个阶段测试AI智能体。
每个阶段代表不同的技术难度层级,反映了不断增长的安全责任。
社区对此表示赞赏
对此举措,一位X平台用户表示:
“这是智能合约安全的分水岭时刻。短短6个月内漏洞利用成功率从31.9%跃升至72.2%,表明AI智能体不仅更擅长阅读代码——它们正在掌握完整的攻击链。”
另一位用户也表达了类似观点:
“漏洞利用成功率6倍跃升是惊人的进步,但攻击技能的扩展速度令人担忧。”
近期引发震动的事件
然而,在OpenAI推出EVMbench后不久,发生了一起令人震惊的事件。涉及Claude Opus 4.6的漏洞利用事件引发了人们对“氛围编码”智能合约风险的严重担忧。
该事件中,AI协助编写的Solidity代码存在漏洞,将cbETH资产价格错误设定为1.12美元(实际价值约2200美元),引发清算并造成近178万美元损失。
这表明在没有人工仔细审核的情况下,将关键金融逻辑交由AI处理可能使小错误演变成重大损失。
局限性依然存在
EVMbench存在明显局限性:仅包含120个精选漏洞,无法评估新发现的问题;
检测模式会产生误报;而修补和漏洞利用任务数量较少,反映了创建这些任务所需的大量人工投入。
此外,沙盒环境无法完全还原真实场景,包括跨链活动、时序复杂性及长期网络历史等因素。
毋庸置疑,随着采用加速,区块链的滥用也在同步演变。
Group-IB近期研究显示,DeadLock勒索软件正使用Polygon智能合约隐藏服务器基础设施以规避检测。
这些发展共同标志着一种令人不安的转变:原本为增强透明度和信任而设计的智能合约,正日益被改造成网络犯罪工具。
最终总结
- EVMbench等工具帮助研究者在真实安全场景中衡量AI能力
- 有限数据集和受控环境仍无法捕捉真实区块链的复杂性








