斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

marsbit发布于2026-06-11更新于2026-06-11

文章摘要

近日，0G Labs联合新加坡国立大学、北京大学、北京邮电大学等团队，在ICML 2026上发表论文，提出了首个深度融合领域知识与多智能体协同的自动化测试框架——Agora。该框架针对共识协议等分布式系统代码中难以发现的深层逻辑漏洞，通过创新的三智能体（协调者、策略家、代码官）架构与自动化测试闭环，在Raft、EPaxos等工业级协议中成功发现了15个此前未知的零日漏洞。相比之下，GPT-5.2、Claude 4.5等单体大模型基线均未能发现此类漏洞。Agora展现出高性价比（平均每个漏洞约消耗40美元）与低误报率（73.9%为真漏洞），其解耦设计也具备向数据库并发控制、操作系统内核及智能合约审计等硬核领域推广的潜力。这项工作为多智能体系统应用于工业级安全审计提供了可落地的解决方案。

分布式系统的「圣杯」——共识协议(Consensus Protocols),长久以来都是顶级基础设施工程师的「Bug 地狱」。由于其状态极其复杂、多节点交织,传统测试和单体 LLM 对硬核的 Deep Bug(深层逻辑漏洞)几乎束手无策。

近日,最新 ICML 2026 中稿论文,来自 0G Labs 以及新加坡国立大学、北京大学、北京邮电大学等顶尖学术与产业团队的研究人员提出首个将领域知识与大模型多 Agent 协同深度融合的自动化测试框架——Agora。

该框架通过创新的架构,直击协议痛点,在 Raft、EPaxos、HotStuff、BullShark 等工业级和学术界核心协议中,一口气狂砍 15 个前所未知的协议级 Deep Bug!相比之下,强如 GPT-5.2、Claude 4.5 等原生大模型纷纷折戟,挂了零蛋。在多智能体(Multi-Agent)系统与」智能体化安全审计」(Agentic Quality Control)双双成为 2026 年最热赛道的当下,Agora 给出的不只是一篇论文,更是一套可落地的工业级解法。

论文:《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》

1. 背景:0G 与 NUS 强强联手,长期系统知识积累与 Multi-Agent 范式的跨界跨代融合

分布式共识协议的演进,既是天才的创新史,又是无数顶尖工程师血淋淋的踩坑史。正如图灵奖得主 Lamport 所言,保证分布式协议实现的正确性,其难度不亚于在一座不断晃动的迷宫中蒙眼穿行。而就在这条」地狱级」赛道上,市场正悄然转向:据 Gartner 观察,多智能体系统的企业咨询量在一年多内暴涨逾十倍,多智能体平台市场也步入每年近翻倍的高速扩张期——把」多 Agent 协同」用于最硬核的底层系统验证,正从前沿设想变成产业刚需。

面对这一地狱级赛道,头顶光环的科技巨头们率先展开了重资产式的探索。例如行业顶尖的 Anthropic 近期在 Claude Code 中内部推进的 Glasswing 项目,虽然尝试用 Agent 触碰底层基础设施测试,但其架构依然极度依赖最高规格的头部商业大模型,项目细节语宛不详,且仅定向与极少数大科技机构和跨国巨头开展闭门合作。更致命的是,这类巨头方案可能在运行中展现出恐怖的 Token 吞噬量,这种高昂的算力壁垒和重资产路线,直接将预算有限的初创公司和中小企业拒之门外。

难道小公司、开源社区就注定用不起顶级的自动化漏洞审计工具吗?

来自 0G Labs 的工程师们和新加坡国立大学的刘祥、北京邮电大学的宋飒,孙勇老师联合北京大学智能学院的博士生张钊为和研究员张策尧将自己 Agent 领域的深厚知识赋能系统,展开了一场「以小博大」的颠覆式创新,其工作已经中稿 2026AI 顶会 ICML。

学术界的「长期系统知识沉淀」,遇到了产业界的「痛点与敏锐嗅觉」,如何才能引爆下一代系统安全革命?

0G 团队在区块链共识协议落地中积累了极为丰富的生产级攻防经验;而团队在高性能分布式系统、底层并发控制以及系统形式化验证领域有着极为深厚的学术沉淀。他们深知传统方法(如 Fuzzing 模糊测试)在面对工业级代码库时常常受限于状态空间爆炸。多方研究人员决定,将长期积累的分布式系统全局 invariants(不变性)逻辑推演知识作为「灵魂」,注入到最前沿的多智能体协同范式与自动化 Harness 架构之中,推出了开源平权的 Agora 框架。

与此同时,作为行业前沿的模块化 AI 基础设施与高性能去中心化数据可用性网络,0G 团队在区块链共识协议、高并发 BFT(拜占庭容错)架构的产业落地中,积累了极为丰富的生产级攻防经验与真实世界的协议缺陷样本。

这种跨界融合彻底改变了游戏规则:它既不是盲目的暴力测试,也不是缺乏领域常识的大模型「盲人摸象」,而是通过专业化的 Agent 分工,将老道系统专家几十年的逻辑推演直觉,转化为 Agent 之间的博弈与协同,从而具备了降维打击传统测试工具的硬核实力。

与 Glasswing 动辄吞噬巨额顶级 Token 的重资产路线不同,Agora 带来了一种对中小企业极其友好的平替方案——它证明了即使在基座模型「差一点」、性价比更高的情况下,通过精妙的领域感知多 Agent 协同架构,依然能够把硬核的 Deep Bug 揪出来!

2. 痛点:单体 LLM 难越雷池,分布式系统高悬「深层逻辑达摩克利斯之剑」

在大数据、区块链与分布式数据库只手遮天的今天,共识协议(如 Paxos、Raft、PBFT 等)就是整个数字世界的底层地基。然而,共识协议的实现是出了名的「地狱级难度」。哪怕是像 etcd 这样经过全球无数顶尖工程师锤炼、运行多年的工业级标杆项目,依然隐藏着让人冷汗直流的 Deep Bug(深层逻辑漏洞)。

这类漏洞不同于内存泄漏、整数溢出等普通的低级实现漏洞(Implementation Bugs),它们横跨多个执行阶段、依赖复杂的并发状态。一旦被恶意触发,不仅会导致核心数据损坏,甚至会引发灾难性的金融级损失。

近年大火的大语言模型(LLM)虽然在普通代码分析上表现亮眼,但面对分布式共识时却显得「智商捉急」。它们顶多能找出局部代码的浅层缺陷,而面对依赖全局状态的协议级逻辑漏洞,单体 LLM 往往陷入局部代码的泥潭,完全无法进行全局时序推理。

3. 破局:Agora 的三 Agent 乾坤大挪移与核心 Harness 架构

为了打破这一僵局,Agora 首次将学术界经典的假说驱动测试(Hypothesis-Driven Testing, HDT)范式引入到大模型 Agent 系统中。为了实现高效的全局推理,Agora 彻底摒弃了传统的「单兵作战」模式,将工作流精妙地解耦为三个各司其职的高度专业化 Agent:

Orchestrator Agent(协调者):负责全局状态维护与已知漏洞举一反三的「漏洞剥削」;

Strategy Agent(策略家):负责注入分布式领域知识,针对 CFT 和 BFT 协议生成极具攻击性的异常场景。

TestGen Agent(代码官):实干派。而让 Agora 真正能够落地、闭环生成有效测试的关键,在于其核心的自动化测试架构。

其架构如图所示:

在 Agora 的整体设计中,这种「以小博大」的平权魔法并非凭空而来,而是源于其精妙的智能体交互机制与测试 Harness 架构的深度融合。

研究团队在系统框架内部专门设计了一套极简、高效的通信与内存机制(Succinct Memory & Communication),在保证各 Agent 专注于自身核心任务的同时,将冗余的上下文传输开销降到了最低。在这种极致的通信约束下,Orchestrator Agent(负责全局协调与状态控制)、Strategy Agent(负责分布式异常环境与场景生成)以及 TestGen Agent(负责代码测试与动态评估 Evaluation)完美交织,共同驱动并满足了 Harness 架构:

双剑合璧的自动化闭环:当 Strategy Agent 推演出抽象的分布式攻击场景后,依托于高度解耦的交互框架,TestGen Agent 能够立刻拉起底层的测试。该架构不仅具备强大的环境自适应能力,能够跨越 Go、Rust 等不同编程语言环境,将攻击假说转化为真实可运行的单元测试,更内置了高效的反射循环(Reflection-Loop)技术。

一旦测试在环境中运行报错,系统会精准、实时地捕捉调用栈和执行日志,并将其精简地回传给 Agent 进行定向自我修正。这种「多 Agent 极简交互 + 动态 Harness 闭环」的有机结合,不仅让 Agora 能够以极低的 Token 成本精准捕捉到最隐蔽的深层逻辑 Bug,更产出了误报率极低的详尽分析报告。

其最终运行的 overview 如图所示:

4. 战果:斩获 15 个顶级零日 Deep Bug,大模型 baseline 全线挂零

评估结果令人震撼。研究团队在四个大名鼎鼎的共识协议库(包括生产级的 etcd 和新兴公链核心 Sui 的底层组件)上展开了全方位的大阅兵,并对比了 GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5 以及 Qwen3 Coder 等地表最强模型。

结果不仅仅使得 0G 本身运行的共识系统更加安全,而且呈现出压倒性的降维打击:

15 个全新 Logic Deep Bug 浮出水面:Agora 成功发现了 15 个先前无人知晓的协议级深层逻辑漏洞。这些漏洞横跨执行分歧、单调性违反、拓扑缺陷、签名漏洞等高危领域。

原生大模型全线剃光头:反观基线模型(哪怕配备了先进的 ReAct 动态工具链),在面对这类深层逻辑漏洞时全部开天窗(0/15)。它们消耗了大量的 Token,却只能在低级代码实现 Bug 上打转。

极低的误报率与超高性价比:在 Agora 产出的所有 Bug 报告中,真实逻辑漏洞占比高达 73.9%(误报率仅 26.1%)。更令人惊叹的是,平均每挖出一个让资深架构师掉光头发的顶级逻辑 Bug,仅需消耗约 5.32M tokens(约合 40 美元),性价比极高。

在多个 LLM 上的结果如下所示:

5. 未来:高可推广性,进军更多底层硬核「无人区」

Agora 的成功,不仅给分布式系统的安全性打了一剂强心针,更为大模型落地垂直工业级应用指明了方向。

尤为关键的是,Agora 的架构设计展现出了极高的可推广性与通用性。研究团队强调,Agora 还可以以插件或者 skill 的形式迅速被广大用户复现使用,我们的代码中 (github.com/0gfoundation/agora) 提供了相应的 skills 帮助复现。不仅仅如此 Agora 的「大模型 + 多 Agent 协同 + 假说驱动「范式并非仅能用于共识协议。由于其底层工作流控制与上层领域知识库、测试实现了深度解耦。这意味着该架构不仅仅可以帮助众多用户迅速利用进行共识协议 debug,还可以以「插拔式」(Plug-and-Play)的方式快速推广到其他同样饱受「深层逻辑漏洞地狱」折磨的硬核领域:

数据库并发控制(Concurrency Control):用于测试分布式数据库在极端隔离级别(如串行化 Serializable)下的复杂事务冲突缺陷。

操作系统内核 / 并发系统:深入发现多线程基础设施中隐蔽的死锁与竞态条件。

Web3 智能合约审计:针对涉及复杂经济模型的跨链协议和 DeFi 逻辑进行深度安全边界探查。区块链安全市场预计 2026 年规模已达约 85 亿美元,且已出现以」多智能体安全系统」做智能合约审计、将审计周期从数周压缩到数小时的商业产品,市场需求正在爆发。

工业级底层基础设施的 AI 自动化安全时代,或许正由 Agora 和它的 Harness 架构正式开启。

我们有理由相信,Agora 可以通过在各个领域发现的更多地 deep bug 帮助更好地测试 coding LLM 的能力,其发现的 deep bug 用例也可以帮助 coding LLM 提升代码理解能力。

gora 可以大大提升共识协议、并发控制、智能合约等等作为金融安全交易的基础的代码仓库的安全。而且 Agora 也可以帮助更多的科技公司发现更深的 logic bug, 但是消耗更少的 tokens, 节约资金却更加高效!

更重要的是,这恰好踩中了当下最热的两条赛道:一是多智能体系统正从实验走向生产——Gartner 预计到 2028 年将有超过三成企业软件内置 agentic AI,多智能体平台市场规模数年内将从百亿美元级别冲向数百亿美元;二是」用智能体审查智能体」的智能体化质量管控(Agentic Quality Control)正成为 2026 年的行业标配。

在 Veracode 2025 报告指出约 45% 的 AI 生成代码含有安全漏洞、agentic AI 安全市场以约 42% 年复合增速狂奔的背景下,Agora 让科技公司能以更低的 token 成本挖出更深的 Logic Bug,把安全审计从」按周计费的人力活」升级为」按小时交付的自动化能力」。

而当这条赛道的格局逐渐清晰,真正占住先机的,往往不是声量最大的巨头,而是那支最早把方法论跑通、并能持续复制的团队。

你可能也喜欢

从回归到卸任：陈航在钉钉的437天

2025年3月31日，陈航（无招）在阿里收购其创业公司后回归，时隔四年重掌钉钉CEO。在其执掌的437天里，他推行了一系列铁腕措施，如严格考勤、全员客服“下地运动”，以扭转钉钉面临的商业化滞后和客户满意度低等问题。他主导发布了AI钉钉1.0及核心产品“钉钉ONE”，并推动钉钉全面AI化。 2026年3月，阿里调整AI战略，成立ATH事业群。陈航在AI钉钉2.0发布会上推出全新的企业级AI原生工作平台“悟空”，宣布“打碎钉钉，用AI重建”，将钉钉定位为悟空的载体。然而，同年6月，钉钉前产品经理与高管先后发布长文《置身钉内》与《置身钉外》，揭露内部管理问题，引发广泛关注。阿里巴巴合伙人委员会随后罕见发帖，严厉批评钉钉的管理方式“不是阿里文化该有的样子”。 2026年6月11日，阿里宣布陈航卸任钉钉CEO，由92年出生的技术极客陈宇森接棒。陈航的任期虽短，但为钉钉奠定了AI转型的技术与战略基础。钉钉的未来将交由新一代管理者，在阿里整体的AI to B战略中继续探索。

marsbit3分钟前

marsbit3分钟前

「矿圈女王」吕咏双：曾掌握全球9%比特币算力，却在美国被「中东驸马」骗走6000万

财新网报道称，中国加密货币矿业公司CEO吕咏双（Fiona Lyu）在美国遭遇投资骗局，损失逾940万美元（约合6000万元人民币）。其旗下矿池在巅峰时期曾掌握全球约9%的比特币算力。报道指出，2021年中国禁止比特币挖矿后，吕咏双将业务转向美国，在俄亥俄州寻找新矿场。经中间人介绍，她结识了自称“阿联酋王室驸马”的祖拜尔兄弟。对方声称拥有中东资金和美国地方政府资源，能提供低价电力。在市政官员见证下，吕咏双与之签署了矿场开发合同并支付款项。然而，祖拜尔兄弟的真实身份是美国人，与中东王室无关。检方称，祖拜尔还与吕咏双建立了私人关系以降低其戒心。最终，骗局导致吕咏双损失巨额资金及大量矿机。2026年5月，美国司法部判处主犯24年监禁。与此同时，吕咏双在国内也卷入法律纠纷。A股上市公司ST中昌因其前董事长涉嫌挪用资金向吕咏双公司购买矿机，其下属公司起诉要求解除合同并退款。2022年，法院认定涉及比特币挖矿的合同无效，判决吕咏双公司退款。海外巨额诈骗与国内诉讼退款的双重打击，使这位曾经的“矿圈女王”陷入困境。

marsbit9分钟前

「矿圈女王」吕咏双：曾掌握全球9%比特币算力，却在美国被「中东驸马」骗走6000万

marsbit9分钟前

掷骰子、赢 BTC！WEEX 上线「世界杯x大富翁」，百万 USDT 派送中

2026年美加墨世界杯首次扩军至48支球队，赛事热度空前。作为西甲联赛的官方区域合作伙伴，加密交易所WEEX唯客同步上线“世界杯×大富翁：参与赢百万USDT”主题交易奖励活动。活动于6月11日至7月20日举行，融合大富翁棋盘游戏与世界杯互动。用户可通过报名活动、充值、合约及现货交易、邀请好友等任务获取骰子。使用骰子在3D棋盘上前进，可解锁BTC、ETH、USDT等代币空投及各类优惠券奖励。同时，用户通过掷骰子和完成周任务积累积分，可解锁包含USDT、平台币WXT在内的里程碑奖励。积分还可用于参与世界杯球队应援，凭借动态赔率机制以小博大，赢取更多积分。活动期间官网实时更新积分排行榜，保障透明公平。WEEX借此链接足球热情与数字资产，为球迷提供全新的Web3互动体验。

marsbit12分钟前

marsbit12分钟前

AI新贵、时薪五千美元的陪聊，2026的硅谷与2077的夜之城

2026年，旧金山因AI繁荣呈现割裂面貌。白天，AI公司如OpenAI、Anthropic推动IPO和巨额套现，带动办公楼租赁和房价飙升，城市围绕少数技术新贵运转。夜晚，一批自称懂AI、加密货币的年轻女性提供高达5000美元一小时的高端陪伴服务，客户正是这些孤独、富有却缺乏倾听者的技术新贵。他们不热衷传统奢侈品，转而投资长寿主义、生酮饮食和本地AI模型，将身体和生活视为可优化的系统。与此同时，普通劳动者因高昂租金被迫迁往更远郊区。文章指出，这种技术极度先进但社会高度分化的状态， reminiscent of cyberpunk fiction，揭示了在技术重塑的城市中，人与人逐渐活成了不同的物种。

marsbit21分钟前

marsbit21分钟前

去中心化 AI 2026 全景地图：为什么区块链是 AI 绕不开的「解药」？

本文探讨了去中心化AI在2026年的发展全景，并论证了区块链技术是解决中心化AI结构性瓶颈的关键“解药”。中心化AI面临计算资源稀缺昂贵、控制权过度集中、输出结果不可验证以及训练数据获取日益困难等核心问题。而去中心化AI通过区块链技术，旨在使智能变得开放、可验证且经济上可及。文章描绘了去中心化AI的技术栈，包括： 1. **应用与服务层**：主要聚焦于代理金融（将自然语言转化为链上交易）和代理支付（机器间的自主支付结算），相关项目如Giza、Infinit、Coinvest AI等已处理数十亿美元交易量。 2. **中间件层**：解决代理间的协调、身份与信任问题，代表性项目包括Bittensor（通过子网经济激励AI工作）、NEAR、Base等，它们为代理经济提供操作系统和协调层。 3. **基础设施层**：涵盖去中心化的计算、推理、训练、数据存储以及隐私与验证。项目如Akash、Render、Io.net提供分布式计算；Filecoin、Grass提供数据与存储；而Nillion、Arcium、Phala等则专注于隐私保护和可验证计算，确保AI工作的机密性与正确性。趋势显示，AI代理正成为增长引擎，计算资源本身正在成为一种资产类别，而代币经济学在协调去中心化网络中的资源方面展现出结构性优势。尽管该领域仍处早期，面临收入滞后于激励、采用不均等挑战，但Bittensor、NEAR、Venice AI等项目的实践表明，去中心化AI正在从概念演变为一种协调计算、数据和智能的新兴可行模式。

Foresight News23分钟前

Foresight News23分钟前

交易

现货

合约

斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

文章摘要

1. 背景:0G 与 NUS 强强联手,长期系统知识积累与 Multi-Agent 范式的跨界跨代融合

2. 痛点:单体 LLM 难越雷池,分布式系统高悬「深层逻辑达摩克利斯之剑」

3. 破局:Agora 的三 Agent 乾坤大挪移与核心 Harness 架构

4. 战果:斩获 15 个顶级零日 Deep Bug,大模型 baseline 全线挂零

5. 未来:高可推广性,进军更多底层硬核「无人区」

相关问答

你可能也喜欢

从回归到卸任：陈航在钉钉的437天

「矿圈女王」吕咏双：曾掌握全球9%比特币算力，却在美国被「中东驸马」骗走6000万

掷骰子、赢 BTC！WEEX 上线「世界杯x大富翁」，百万 USDT 派送中

AI新贵、时薪五千美元的陪聊，2026的硅谷与2077的夜之城

去中心化 AI 2026 全景地图：为什么区块链是 AI 绕不开的「解药」？

交易

热门文章

如何购买0G

相关讨论

热门问答

热门分类

热门标签