斩获15个顶级零日漏洞:0G Lab联合新国立,北大和北邮团队构建的共识协议debug智能体框架

marsbit发布于2026-06-11更新于2026-06-11

文章摘要

近日,0G Labs联合新加坡国立大学、北京大学、北京邮电大学等团队,在ICML 2026上发表论文,提出了首个深度融合领域知识与多智能体协同的自动化测试框架——Agora。该框架针对共识协议等分布式系统代码中难以发现的深层逻辑漏洞,通过创新的三智能体(协调者、策略家、代码官)架构与自动化测试闭环,在Raft、EPaxos等工业级协议中成功发现了15个此前未知的零日漏洞。相比之下,GPT-5.2、Claude 4.5等单体大模型基线均未能发现此类漏洞。Agora展现出高性价比(平均每个漏洞约消耗40美元)与低误报率(73.9%为真漏洞),其解耦设计也具备向数据库并发控制、操作系统内核及智能合约审计等硬核领域推广的潜力。这项工作为多智能体系统应用于工业级安全审计提供了可落地的解决方案。

分布式系统的「圣杯」——共识协议(Consensus Protocols),长久以来都是顶级基础设施工程师的「Bug 地狱」。由于其状态极其复杂、多节点交织,传统测试和单体 LLM 对硬核的 Deep Bug(深层逻辑漏洞)几乎束手无策。

近日,最新 ICML 2026 中稿论文,来自 0G Labs 以及新加坡国立大学、北京大学、北京邮电大学等顶尖学术与产业团队的研究人员提出首个将领域知识与大模型多 Agent 协同深度融合的自动化测试框架——Agora。

该框架通过创新的架构,直击协议痛点,在 Raft、EPaxos、HotStuff、BullShark 等工业级和学术界核心协议中,一口气狂砍 15 个前所未知的协议级 Deep Bug!相比之下,强如 GPT-5.2、Claude 4.5 等原生大模型纷纷折戟,挂了零蛋。在多智能体(Multi-Agent)系统与」智能体化安全审计」(Agentic Quality Control)双双成为 2026 年最热赛道的当下,Agora 给出的不只是一篇论文,更是一套可落地的工业级解法。

论文:《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》

1. 背景:0G 与 NUS 强强联手,长期系统知识积累与 Multi-Agent 范式的跨界跨代融合

分布式共识协议的演进,既是天才的创新史,又是无数顶尖工程师血淋淋的踩坑史。正如图灵奖得主 Lamport 所言,保证分布式协议实现的正确性,其难度不亚于在一座不断晃动的迷宫中蒙眼穿行。而就在这条」地狱级」赛道上,市场正悄然转向:据 Gartner 观察,多智能体系统的企业咨询量在一年多内暴涨逾十倍,多智能体平台市场也步入每年近翻倍的高速扩张期——把」多 Agent 协同」用于最硬核的底层系统验证,正从前沿设想变成产业刚需。

面对这一地狱级赛道,头顶光环的科技巨头们率先展开了重资产式的探索。例如行业顶尖的 Anthropic 近期在 Claude Code 中内部推进的 Glasswing 项目,虽然尝试用 Agent 触碰底层基础设施测试,但其架构依然极度依赖最高规格的头部商业大模型,项目细节语宛不详,且仅定向与极少数大科技机构和跨国巨头开展闭门合作。更致命的是,这类巨头方案可能在运行中展现出恐怖的 Token 吞噬量,这种高昂的算力壁垒和重资产路线,直接将预算有限的初创公司和中小企业拒之门外。

难道小公司、开源社区就注定用不起顶级的自动化漏洞审计工具吗?

来自 0G Labs 的工程师们和新加坡国立大学的刘祥、北京邮电大学的宋飒,孙勇老师联合北京大学智能学院的博士生张钊为和研究员张策尧将自己 Agent 领域的深厚知识赋能系统,展开了一场「以小博大」的颠覆式创新,其工作已经中稿 2026AI 顶会 ICML。

学术界的「长期系统知识沉淀」,遇到了产业界的「痛点与敏锐嗅觉」,如何才能引爆下一代系统安全革命?

0G 团队在区块链共识协议落地中积累了极为丰富的生产级攻防经验;而团队在高性能分布式系统、底层并发控制以及系统形式化验证领域有着极为深厚的学术沉淀。他们深知传统方法(如 Fuzzing 模糊测试)在面对工业级代码库时常常受限于状态空间爆炸。多方研究人员决定,将长期积累的分布式系统全局 invariants(不变性)逻辑推演知识作为「灵魂」,注入到最前沿的多智能体协同范式与自动化 Harness 架构之中,推出了开源平权的 Agora 框架。

与此同时,作为行业前沿的模块化 AI 基础设施与高性能去中心化数据可用性网络,0G 团队在区块链共识协议、高并发 BFT(拜占庭容错)架构的产业落地中,积累了极为丰富的生产级攻防经验与真实世界的协议缺陷样本。

这种跨界融合彻底改变了游戏规则:它既不是盲目的暴力测试,也不是缺乏领域常识的大模型「盲人摸象」,而是通过专业化的 Agent 分工,将老道系统专家几十年的逻辑推演直觉,转化为 Agent 之间的博弈与协同,从而具备了降维打击传统测试工具的硬核实力。

与 Glasswing 动辄吞噬巨额顶级 Token 的重资产路线不同,Agora 带来了一种对中小企业极其友好的平替方案——它证明了即使在基座模型「差一点」、性价比更高的情况下,通过精妙的领域感知多 Agent 协同架构,依然能够把硬核的 Deep Bug 揪出来!

2. 痛点:单体 LLM 难越雷池,分布式系统高悬「深层逻辑达摩克利斯之剑」

在大数据、区块链与分布式数据库只手遮天的今天,共识协议(如 Paxos、Raft、PBFT 等)就是整个数字世界的底层地基。然而,共识协议的实现是出了名的「地狱级难度」。哪怕是像 etcd 这样经过全球无数顶尖工程师锤炼、运行多年的工业级标杆项目,依然隐藏着让人冷汗直流的 Deep Bug(深层逻辑漏洞)。

这类漏洞不同于内存泄漏、整数溢出等普通的低级实现漏洞(Implementation Bugs),它们横跨多个执行阶段、依赖复杂的并发状态。一旦被恶意触发,不仅会导致核心数据损坏,甚至会引发灾难性的金融级损失。

近年大火的大语言模型(LLM)虽然在普通代码分析上表现亮眼,但面对分布式共识时却显得「智商捉急」。它们顶多能找出局部代码的浅层缺陷,而面对依赖全局状态的协议级逻辑漏洞,单体 LLM 往往陷入局部代码的泥潭,完全无法进行全局时序推理。

3. 破局:Agora 的三 Agent 乾坤大挪移与核心 Harness 架构

为了打破这一僵局,Agora 首次将学术界经典的假说驱动测试(Hypothesis-Driven Testing, HDT)范式引入到大模型 Agent 系统中。为了实现高效的全局推理,Agora 彻底摒弃了传统的「单兵作战」模式,将工作流精妙地解耦为三个各司其职的高度专业化 Agent:

Orchestrator Agent(协调者):负责全局状态维护与已知漏洞举一反三的「漏洞剥削」;

Strategy Agent(策略家):负责注入分布式领域知识,针对 CFT 和 BFT 协议生成极具攻击性的异常场景。

TestGen Agent(代码官):实干派。而让 Agora 真正能够落地、闭环生成有效测试的关键,在于其核心的自动化测试架构。

其架构如图所示:

在 Agora 的整体设计中,这种「以小博大」的平权魔法并非凭空而来,而是源于其精妙的智能体交互机制与测试 Harness 架构的深度融合。

研究团队在系统框架内部专门设计了一套极简、高效的通信与内存机制(Succinct Memory & Communication),在保证各 Agent 专注于自身核心任务的同时,将冗余的上下文传输开销降到了最低。在这种极致的通信约束下,Orchestrator Agent(负责全局协调与状态控制)、Strategy Agent(负责分布式异常环境与场景生成)以及 TestGen Agent(负责代码测试与动态评估 Evaluation)完美交织,共同驱动并满足了 Harness 架构:

双剑合璧的自动化闭环:当 Strategy Agent 推演出抽象的分布式攻击场景后,依托于高度解耦的交互框架,TestGen Agent 能够立刻拉起底层的测试。该架构不仅具备强大的环境自适应能力,能够跨越 Go、Rust 等不同编程语言环境,将攻击假说转化为真实可运行的单元测试,更内置了高效的反射循环(Reflection-Loop)技术。

一旦测试在环境中运行报错,系统会精准、实时地捕捉调用栈和执行日志,并将其精简地回传给 Agent 进行定向自我修正。这种「多 Agent 极简交互 + 动态 Harness 闭环」的有机结合,不仅让 Agora 能够以极低的 Token 成本精准捕捉到最隐蔽的深层逻辑 Bug,更产出了误报率极低的详尽分析报告。

其最终运行的 overview 如图所示:

4. 战果:斩获 15 个顶级零日 Deep Bug,大模型 baseline 全线挂零

评估结果令人震撼。研究团队在四个大名鼎鼎的共识协议库(包括生产级的 etcd 和新兴公链核心 Sui 的底层组件)上展开了全方位的大阅兵,并对比了 GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5 以及 Qwen3 Coder 等地表最强模型。

结果不仅仅使得 0G 本身运行的共识系统更加安全,而且呈现出压倒性的降维打击:

15 个全新 Logic Deep Bug 浮出水面:Agora 成功发现了 15 个先前无人知晓的协议级深层逻辑漏洞。这些漏洞横跨执行分歧、单调性违反、拓扑缺陷、签名漏洞等高危领域。

原生大模型全线剃光头:反观基线模型(哪怕配备了先进的 ReAct 动态工具链),在面对这类深层逻辑漏洞时全部开天窗(0/15)。它们消耗了大量的 Token,却只能在低级代码实现 Bug 上打转。

极低的误报率与超高性价比:在 Agora 产出的所有 Bug 报告中,真实逻辑漏洞占比高达 73.9%(误报率仅 26.1%)。更令人惊叹的是,平均每挖出一个让资深架构师掉光头发的顶级逻辑 Bug,仅需消耗约 5.32M tokens(约合 40 美元),性价比极高。

在多个 LLM 上的结果如下所示:

5. 未来:高可推广性,进军更多底层硬核「无人区」

Agora 的成功,不仅给分布式系统的安全性打了一剂强心针,更为大模型落地垂直工业级应用指明了方向。

尤为关键的是,Agora 的架构设计展现出了极高的可推广性与通用性。研究团队强调,Agora 还可以以插件或者 skill 的形式迅速被广大用户复现使用,我们的代码中 (github.com/0gfoundation/agora) 提供了相应的 skills 帮助复现。不仅仅如此 Agora 的「大模型 + 多 Agent 协同 + 假说驱动「范式并非仅能用于共识协议。由于其底层工作流控制与上层领域知识库、测试 实现了深度解耦。这意味着该架构不仅仅可以帮助众多用户迅速利用进行共识协议 debug,还可以以「插拔式」(Plug-and-Play)的方式快速推广到其他同样饱受「深层逻辑漏洞地狱」折磨的硬核领域:

数据库并发控制(Concurrency Control):用于测试分布式数据库在极端隔离级别(如串行化 Serializable)下的复杂事务冲突缺陷。

操作系统内核 / 并发系统:深入发现多线程基础设施中隐蔽的死锁与竞态条件。

Web3 智能合约审计:针对涉及复杂经济模型的跨链协议和 DeFi 逻辑进行深度安全边界探查。区块链安全市场预计 2026 年规模已达约 85 亿美元,且已出现以」多智能体安全系统」做智能合约审计、将审计周期从数周压缩到数小时的商业产品,市场需求正在爆发。

工业级底层基础设施的 AI 自动化安全时代,或许正由 Agora 和它的 Harness 架构正式开启。

我们有理由相信,Agora 可以通过在各个领域发现的更多地 deep bug 帮助更好地测试 coding LLM 的能力,其发现的 deep bug 用例也可以帮助 coding LLM 提升代码理解能力。

gora 可以大大提升共识协议、并发控制、智能合约等等作为金融安全交易的基础的代码仓库的安全。而且 Agora 也可以帮助更多的科技公司发现更深的 logic bug, 但是消耗更少的 tokens, 节约资金却更加高效!

更重要的是,这恰好踩中了当下最热的两条赛道:一是多智能体系统正从实验走向生产——Gartner 预计到 2028 年将有超过三成企业软件内置 agentic AI,多智能体平台市场规模数年内将从百亿美元级别冲向数百亿美元;二是」用智能体审查智能体」的智能体化质量管控(Agentic Quality Control)正成为 2026 年的行业标配。

在 Veracode 2025 报告指出约 45% 的 AI 生成代码含有安全漏洞、agentic AI 安全市场以约 42% 年复合增速狂奔的背景下,Agora 让科技公司能以更低的 token 成本挖出更深的 Logic Bug,把安全审计从」按周计费的人力活」升级为」按小时交付的自动化能力」。

而当这条赛道的格局逐渐清晰,真正占住先机的,往往不是声量最大的巨头,而是那支最早把方法论跑通、并能持续复制的团队。

相关问答

Q什么是 Agora 框架,它主要由哪些机构或团队开发?

AAgora 是一个将领域知识与大模型多智能体(Multi-Agent)协同深度融合的自动化测试框架,旨在检测分布式共识协议中的深层逻辑漏洞(Deep Bug)。它由 0G Labs 与新加坡国立大学、北京大学、北京邮电大学的研究团队联合开发。

QAgora 框架的核心技术架构由哪些主要智能体(Agent)组成?

AAgora 框架的核心采用了三个高度专业化、各司其职的智能体协同工作:1. Orchestrator Agent(协调者):负责全局状态维护与漏洞的‘剥削’(利用已知漏洞举一反三)。2. Strategy Agent(策略家):负责注入分布式领域知识,并针对CFT和BFT协议生成具有攻击性的异常场景。3. TestGen Agent(代码官):负责将抽象的攻击假说转化为具体、可执行的单元测试代码,并在测试环境中进行动态评估与修正。

QAgora 框架在测试中取得了哪些关键成果?

AAgora 框架在多个工业级和学术核心共识协议(如 Raft, EPaxos, HotStuff, BullShark, 以及生产级的 etcd 和 Sui 底层组件)的测试中,取得了以下关键成果:1. 成功发现了 15 个先前未知的协议级深层逻辑漏洞(Logic Deep Bug)。2. 相比于 GPT-5.2、Claude 4.5 等单体大模型基线(它们均未发现任何此类漏洞)表现出了压倒性的优势。3. 保持了极高的性价比,平均发现一个顶级逻辑漏洞仅消耗约 5.32M tokens(约合 40 美元),且误报率仅为 26.1%。

Q与 Anthropic 的 Glasswing 等项目相比,Agora 框架在技术路线和可及性上有何不同?

A与依赖顶级商业大模型、算力消耗巨大的重资产路线(如 Anthropic 的 Glasswing 项目)不同,Agora 框架采用了更友好的‘平权’方案:1. 通过精妙的领域感知多智能体协同架构,在性价比较高的基座模型上也能有效工作,降低了算力与资金门槛。2. 设计了一套极简高效的通信与内存机制(Succinct Memory & Communication),将 Agent 间冗余的上下文传输开销降至最低。这使得中小企业和开源社区也能用得起顶级的自动化漏洞审计工具。

Q除了共识协议,Agora 框架的设计范式未来可以推广到哪些其他领域?

AAgora 框架的‘大模型 + 多智能体协同 + 假说驱动’范式具有高度的可推广性,得益于其底层工作流与上层领域知识的深度解耦,可以通过‘插拔式’(Plug-and-Play)的方式快速应用到其他同样存在复杂‘深层逻辑漏洞’的硬核领域。文中提到的潜在应用领域包括:1. 数据库并发控制(Concurrency Control),用于测试复杂事务冲突缺陷。2. 操作系统内核/并发系统,用于发现隐蔽的死锁与竞态条件。3. Web3智能合约审计,用于深度探查跨链协议和DeFi逻辑的安全边界。

你可能也喜欢

去中心化 AI 2026 全景地图:为什么区块链是 AI 绕不开的「解药」?

本文探讨了去中心化AI在2026年的发展全景,并论证了区块链技术是解决中心化AI结构性瓶颈的关键“解药”。中心化AI面临计算资源稀缺昂贵、控制权过度集中、输出结果不可验证以及训练数据获取日益困难等核心问题。而去中心化AI通过区块链技术,旨在使智能变得开放、可验证且经济上可及。 文章描绘了去中心化AI的技术栈,包括: 1. **应用与服务层**:主要聚焦于代理金融(将自然语言转化为链上交易)和代理支付(机器间的自主支付结算),相关项目如Giza、Infinit、Coinvest AI等已处理数十亿美元交易量。 2. **中间件层**:解决代理间的协调、身份与信任问题,代表性项目包括Bittensor(通过子网经济激励AI工作)、NEAR、Base等,它们为代理经济提供操作系统和协调层。 3. **基础设施层**:涵盖去中心化的计算、推理、训练、数据存储以及隐私与验证。项目如Akash、Render、Io.net提供分布式计算;Filecoin、Grass提供数据与存储;而Nillion、Arcium、Phala等则专注于隐私保护和可验证计算,确保AI工作的机密性与正确性。 趋势显示,AI代理正成为增长引擎,计算资源本身正在成为一种资产类别,而代币经济学在协调去中心化网络中的资源方面展现出结构性优势。尽管该领域仍处早期,面临收入滞后于激励、采用不均等挑战,但Bittensor、NEAR、Venice AI等项目的实践表明,去中心化AI正在从概念演变为一种协调计算、数据和智能的新兴可行模式。

Foresight News23分钟前

去中心化 AI 2026 全景地图:为什么区块链是 AI 绕不开的「解药」?

Foresight News23分钟前

交易

现货
合约

热门文章

如何购买0G

欢迎来到HTX.com!我们已经让购买0G(0G)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买0G(0G)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的0G(0G)购买完您的0G(0G)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易0G(0G)在HTX的现货市场轻松交易0G(0G)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

614人学过发布于 2025.09.22更新于 2026.06.02

如何购买0G

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对0G(0G)币价的意见。

活动图片