中国第一，直逼OpenAI，神秘“扫地僧”冲到全球前七

marsbit发布于2026-06-30更新于2026-06-30

文章摘要

一款名为“扫地僧”（MopMonk）的神秘AI在权威网络安全基准测试平台CyberGym上，以73.1%的胜率位列全球第七、中国第一，成绩紧追OpenAI。该测试基于超过1500个真实历史漏洞，要求AI在隔离环境中通过多轮推理和工具调用，生成能触发漏洞的有效攻击代码，难度极高。 “扫地僧”未公开团队信息，仅知其基于上海MiniMax公司的开源模型M3构建。M3拥有出色的编程能力、超长上下文理解和多模态处理能力。其成功关键在于一套专为漏洞挖掘设计的智能体框架，核心是结构化的“漏洞记忆”系统：它将任务过程中的代码路径、失败证据、下一步约束等信息有序组织并持续更新，使AI能基于历史经验高效调整策略，避免重复试错。同时，系统支持多智能体并行探索并共享记忆，提升了搜索效率。这一成绩表明，在复杂任务中，将强大基座模型与精心设计的智能体执行框架深度结合，比单纯追求模型参数规模更为重要。其技术路径展示了如何通过工程优化，将模型的理论能力转化为实际解决问题的能力。

太疯狂了!一个连官网都没有的神秘中国AI「扫地僧」,以73.1%的胜率杀入CyberGym全球前七,紧咬OpenAI。全网都在疯传,这到底是谁家的高手?

这几天,在全球AI巨头厮杀正酣的一张榜单上,突然多了一个谁都没听过的名字。

它叫MopMonk(扫地僧)。

没有大张旗鼓的发布会,没有官博长文,没有社交媒体上的摇旗呐喊。

它就这么凭空出世,径直杀入CyberGym全球前十。

凭借73.1%的成功率,以微弱差距紧咬OpenAI,一举刷新了中国团队在该榜单上的历史最高分。

整件事最魔幻的地方在于,时至今日,无人知晓它的真面目。

CyberGym这份榜,到底有多重?

MopMonk这次的成绩究竟有多炸裂?看看它所站上的擂台就知道了。

CyberGym,由UC Berkeley团队倾力打造,核心论文中选ICLR 2026顶会。

传送门:https://arxiv.org/pdf/2506.02548

作为AI网络安全能力评估领域最权威的公开基准之一,这里堪称大模型的「修罗场」——

就连GPT-5.5-Cyber、Claude Mythos这种级别的顶流,都曾在这个榜单里贴身肉搏。

整个基准主打「真枪实弹」:

1507个漏洞实例、188个开源大项目,所有考题全部扒自Google OSS-Fuzz沉淀下来的真实历史漏洞。

从评估维度来看,这是一个跨量级的突破。

它的体量,是此前最大公开基准(NYU CTF,约200题)的足足7.5倍,更是把CVE-Bench这种「前辈」直接甩出了一个数量级。

更要命的是难度,CyberGym不做选择题。

它要求AI在动辄数千个文件、数百万行代码的真实项目里,完成深度推理。

正因为足够大、足够真、足够难,CyberGym才有了「区分度」——

它能把不同模型、不同Agent框架之间那点真实的能力差距,一刀一刀地切出来。

难怪安全圈,直接将其封为「AI安全领域的奥运会」。

也正因如此,全球头部玩家几乎全员到场,微软、OpenAI、Anthropic、谷歌、Meta、智谱......

CyberGym榜单本身,正在见证AI竞争的一次关键转向:

从比谁参数大,转向比谁的Agent真能把活干完。

一个陌生的东方代号,突然出现在硅谷AI巨头中间

谁能料到,恰恰是在这个最靠「硬实力」说话的擂台上,杀出了一匹「查无此人」的黑马。

拨开迷雾,我们目前掌握的已知情报仅有三条:

神秘代号:MopMonk(扫地僧)

基座模型:MiniMax M3

榜单战绩:杀进CyberGym全球第七,中国第一

按常理,打出这种成绩的团队,技术报告和新闻发布会早该铺天盖地。

可在这份高手云集的榜单上,MopMonk偏偏是那个最彻底的「异类」:只甩出一份技术报告,团队、公司、坐标,一概查无此人。

这种「实力顶配,信息裸奔」的碰撞,本身就充满了一种东方武侠式的戏剧性。

熟悉金庸的人,都懂《天龙八部》中「扫地僧」这三个字的分量——

少林藏经阁里那个扫了几十年地、没人记得姓名的老和尚,一出手却镇住了萧远山、慕容博两大高手。

最不起眼的角色,藏着最深的功夫。

敢顶着「扫地僧」的名号踢馆,这支团队显然对自己的实力,有着极其冷酷的自信!

更关键的线索,隐藏在它的技术底层——MopMonk选用的基座,是MiniMax M3。

作为一个来自上海的开源基座,M3堪称六边形战士,直接集齐了三大核心杀器:前沿的编程能力、1M超长上下文,以及原生多模态。

一边是极具东方色彩的「文化符号」,另一边是打着纯正国产标签的技术底座。

把这两条线索摆上桌面,圈子已经收得很小了。所有的蛛丝马迹都在疯狂暗示同一个结论:

这大概率是一支中国战队。

胜负手,在Harness

抛开身份悬念,作为长期追踪AI技术的人,我们更想搞清楚一个问题:

MopMonk凭什么赢?

要回答这个问题,得先回到CyberGym最难的那个核心——它考的根本不是「知不知道」,而是「做不做得到」。

判断一段代码有没有漏洞,对今天的大模型来说已经不算太难。

但CyberGym要考的是下一步、也是最要命的那一步:生成一个能触发漏洞的输入,也就是PoC。

它必须在「有漏洞的版本」上触发,在「已修复的版本」上失效,并通过基准环境的执行验证。

这道坎,远比想象中刁钻。

漏洞的触发条件,往往零散地藏在代码路径、解析逻辑、构建环境、测试Harness和输入格式之间,得一点点拼出来。

更坑的是,哪怕PoC在本地把程序跑崩了,也未必算数。只要不能满足「漏洞版触发、修复版不触发」的差分判定,照样白忙一场。

这一步,把任务从「理解」彻底拽进了「执行」。而且是一种很特殊的执行——

整场考试,是在一个封闭、断网的环境里进行的。

没有外部搜索可以求助,没有任何「场外资源」,AI能依靠的,只有对眼前这套代码库的理解,和它自己一步步攒下来的记忆。

要在这种条件下把漏洞「复现」出来,靠的是一整套环环相扣的能力:

工具调用规划:什么时候该读文件、什么时候该跑测试、什么时候该回头改方案;

多轮推理:上一次没触发,问题到底出在哪,下一次该怎么调整;

记忆管理:把读过的代码、试过的输入、踩过的坑结构化地存下来,而不是每一轮都从零再读一遍;

迭代验证:一遍遍逼近那个临界点,直到漏洞真的被复现。

换句话说,CyberGym较量的核心,是Agent的「行动力」,模型的「智商」只是入场券。

而把「聪明」变成「行动力」的那个关键环节,就是今天整个Agent领域最被低估的一个词——Harness。

Harness,是模型与外部工具、执行环境之间的「协调层」。

它负责工具编排、上下文状态管理、执行反馈的回收与再投喂。

简单来说,模型是大脑,负责思考「漏洞可能在哪、下一步该怎么挖」。

Harness是手脚加神经系统,负责把大脑的想法变成一连串真实动作——

打开哪个文件、跑哪条命令、拿到报错后怎么调整、上一轮失败了下一轮怎么改。

在CyberGym这种要跑几十上百轮、要在百万行代码里反复试错的任务上,Harness的好坏,直接决定了模型的智商能不能转化成战斗力。

一个聪明的模型 + 一个平庸的Harness,结果往往是「想得到、做不到」;

一个能力扎实的模型 + 一个为漏洞挖掘量身打造的强Harness,才可能在这种长程任务上跑出成绩。

为漏洞挖掘「量身定制」的Agent

如今,透过GitHub技术报告,MopMonk的技术脉络,已然明晰:

一款专为漏洞挖掘全新设计的安全多Agent系统,而支撑其运转的思维基座,正是MiniMax M3。

GitHub地址:https://github.com/MopMonkAI/MopMonkAgent

如前所述,M3是当下罕见的、能将顶尖编码能力、百万token上下文与原生多模态集于单一架构的开源模型。

看一眼跑分就能明白:SWE-Bench Pro斩获59.0%、Terminal-Bench 2.1达到66.0%、MCP Atlas拿下 74.2%——

这些亮眼的数据,精准踩中了Agent落地实战时,最硬核的能力刚需。

不仅如此,它还能在长达十几个小时的任务里自主迭代、自我纠错。

换言之,M3扮演了一颗兼具顶尖代码解析力、超长记忆力与熟练工具调用能力的「最强大脑」。

对于CyberGym这种动辄要吞下整个代码库、跑上几十轮的任务,1M的上下文窗口几乎是刚需。

而MopMonk这套安全Agent框架做的事,是把M3这颗大脑的能力,放大成漏洞挖掘的执行力。

它的「内功心法」,从GitHub公开的技术细节来看,核心是三招——

第一招,结构化的「漏洞记忆」。

它不是简单堆叠聊天记录,也不是把超长上下文一股脑塞给模型,而是把一份可持续更新的「任务事实记忆」,围绕漏洞挖掘里最关键的几类对象组织起来:

漏洞目标、代码路径、输入格式、候选PoC、失败证据、验证状态,以及「下一步约束」记忆。

最后一类尤其见功力:它不生成空泛的抽象计划,而是直接从当前证据里,提炼出下一次实验必须满足的硬约束。

比如,「这次必须覆盖到那个分支」「该调整哪个字段」「要排除哪一类失败原因」。

这种记忆设计,将漏洞挖掘从「反复从零试错」变成了「基于证据的收敛过程」。

每一次读代码、每一次执行结果、每一次失败提交,都被转化成下一步生成PoC可复用的约束。

第二招,记忆驱动的「漏洞挖掘」。

在漏洞挖掘任务中,系统首先通过扫描代码库,并将候选触发路径和目录信息作为规划的起点,来初始化漏洞记忆。

然后,它一步步推进,试图收敛到触发崩溃的具体代码位置。

之后,每一次探索尝试都会读取当前记忆,测试一个具体的假设,并将结果写回记忆中。

这样一来,模型不必每一轮都从头重读整个任务,而是从这份结构化记忆里,精准调出当下最相关的那一小块证据——

既大幅降低了长上下文的负担,又让候选PoC的每一次变异,都能继承此前积累的代码路径与输入格式知识,让搜索越收越准。

在严格的探索预算内,时间于是被尽可能地花在「新假设」上,有效试验密度直线拉升。

第三招,共享记忆下的「多Agent并行探索」。

多个探索尝试,共享同一份漏洞记忆,可以从补丁线索、harness入口、文件格式字段、sanitizer类型、边界条件等多个方向同时推进,并彼此继承失败经验与验证结果。

这既扩大了覆盖面,又避免了重复无效的探索。

由此看出,MopMonk把漏洞复现,从一场开放式的反复试错,硬生生重写成了一个「可积累、可约束、可验证」的记忆更新过程。

三招合一,全凭在任务内部一点点沉淀、提炼、复用出来的「内功」,硬生生把一颗强大的开源基座,调度成了漏洞挖掘战场上的特战尖兵。

最终,它跑出了73.1%的成功率。

基座负责「想得深」,Harness负责「记得牢、调得准、打得稳」。

两者深度耦合,才最终铸就了榜单上那个令人瞩目的破局成绩。

一个比「堆参数」更有价值的判断

这件事真正的启发在于——

过去几年,行业的惯性是「堆参数」:参数越大、模型越强、榜单越高。

但CyberGym这种真实攻防任务给出了另一种答案:决定胜负的,越来越是Agent的执行能力,是Harness这层工程的厚度。

根据GitHub技术报告,这套方法的价值落在三点上:

强大的基模能力,提供了搜索的基础;

结构化的漏洞记忆,提供了收敛的机制;

共享记忆的多智能体探索,在有限预算里提升了成本效率。

基座决定了能力的上限,而这套记忆中心的Harness,决定了这份能力到底能兑现多少。

更要命的是它的复利属性:

模型基座会一代代换,今天用M3,明天可能用更新的开源模型。

但一套被真实战场反复打磨、沉淀了攻防经验的Harness,是可以跨越基座迭代、持续复利的资产。

简而言之,MopMonk Harness的长期价值,可能比「再堆一倍参数」更大。

这正是业内开始认真审视,这个神秘「扫地僧」的根本原因:

大家想看的,不只是它打了多少分,而是它示范了一条把开源基座做到极致的路。

所以,「扫地僧」到底是谁?

绕了一圈,我们还是回到了那个最开始、也最让人抓心挠肝的问题。

MopMonk,到底是谁?!

把线索拼起来:东方武侠味拉满的代号 + 上海公司的MiniMax基座 + 一身安全领域的「内功」。

几乎所有箭头,都指向同一个判断:这是一支来自中国、很可能就在上海的AI安全公司。

也有人顺着基模与Agent双向适配的角度,盲猜其背后与AI大模型原生团队脱不开干系。

各种版本的猜测在坊间疯传,但至今无人能甩出实锤。

你觉得,MopMonk会是谁家的高手?评论区,等你来爆料。

本文来自微信公众号“新智元”,作者:ASI启示录

你可能也喜欢

比特币到底了吗？拆解12个核心数据指标

当前比特币价格约5.96万美元，较2025年高点最大回撤约53%。市场深度调整中，多项指标显示估值接近历史低位，但底部确认尚需时间。关键数据指标显示：恐慌贪婪指数为16，进入“极度恐慌”；彩虹图显示价格跌入“死亡”区域；MVRV比率约1.13，处于历史低位；当前价格仅高出已实现价格（约5.34万美元）约12%。链上出现投降信号：UTXO盈亏比降至低位，长期持有者开始亏损卖出。矿工面临压力，约20%处于亏损，收入持续低迷。美国现货比特币ETF近期资金持续净流出，机构买盘承压。此外，MicroStrategy的股票溢价收缩，传统融资模式遇冷。本轮调整已持续超265天，最大回撤52.5%。预测市场显示，价格跌破5.5万美元的概率仍较高。综上，比特币估值已进入历史低位区域，链上投降信号积累，但完整出清尚未结束（如未有效跌破已实现价格，ETF需求未反转）。当前6万美元以下区域具备中长期吸引力，但建议耐心观察ETF资金流入转正、长期持有者行为逆转等确认信号，而非激进行动。

marsbit2分钟前

marsbit2分钟前

比特币盘整于6万美元附近——BTC巨鲸需求能否压倒ETF抛压？

比特币价格在5.8万至6万美元区间持续震荡，鲸鱼（大额持有者）在此期间表现出积极的积累行为。链上数据显示，尽管价格有所回落，鲸鱼持仓量仍接近历史高位，其30天积累率保持正值，表明他们视当前价位为买入机会。这为市场提供了结构性支撑，长期投资者持仓比例的增加可能减轻未来的抛压。然而，鲸鱼的积累速度较此前上涨期间有所放缓。与此同时，比特币现货ETF出现了自2024年1月推出以来第二大的单周资金流出，显示出机构端持续的抛售压力。但市场下方出现另一股力量：交易所资金流入开始超过流出，表明有新资金入场。鲸鱼倾向于在 perceived 的长期支撑位附近买入，而非恐慌抛售，这暗示所有权正从短期持有者向长期持有者转移。综上所述，比特币的复苏前景取决于新入场需求能否持续抵消ETF的资金外流。尽管链上参与度改善，但若ETF赎回持续，可能会延缓新一轮上涨势头的形成。

ambcrypto9分钟前

ambcrypto9分钟前

估值倒挂显现，比特币财库企业爆发信任危机

**比特币财库企业正面临严峻的估值与信任危机，市场逻辑发生根本转变。** 过去，企业增持比特币的行为本身就能推高其股价。但现在，投资者的关注点已从“囤积总量”转向“股东实际权益”。他们会仔细核算融资造成的股权稀释、优先股分红、债务利息等成本，以判断普通股股东每股对应的比特币持有量是否真正增加。关键指标“修正资产净值”（企业市值/持有比特币总价值）的收缩揭示了这一困境。当该值低于1，意味着企业市值已低于其持有的比特币价值，估值溢价消失。例如，亚洲头部企业Metaplanet的修正资产净值已跌至0.9倍，其股价年内重挫约47%。行业龙头MicroStrategy同样面临挑战。尽管持有大量比特币，但其普通股股东的实际份额因持续的股权融资（尤其是为保障优先股股息）而被稀释。其衡量股东收益的核心指标“比特币收益率”也已下滑。欧洲新晋企业如法国的Capital B和瑞典的BTC AB，正在推行激进的融资计划，但其复杂的融资工具（如高股息优先股）尚未经过市场充分定价，成本风险不明确。 **市场转向的深层原因在于比特币现货ETF的普及**，它为投资者提供了更直接、低成本持有比特币的渠道，削弱了财库企业股票的稀缺性。如今，这类企业必须证明自己能通过杠杆、高效资本运作带来超额收益，而非仅仅提供一个附带稀释成本的比特币敞口。此变化正倒逼行业优化：健康融资的企业将获得信任并持续发展；而无法维持估值溢价、融资闭环断裂的企业，将陷入被迫出售资产、转型高风险业务（如借贷）或损害股东利益的困境。下一阶段的赢家，将是那些能证明每次融资都切实增加了普通股股东比特币份额的企业。

Foresight News34分钟前

Foresight News34分钟前

NanoBit加密货币骗局以美国SEC胜诉并获赔552万美元告终——详情解析

美国证券交易委员会（SEC）在对加密货币平台NanoBit的诉讼中获胜。SEC指控NanoBit及其关联方在2023年9月至2024年6月期间实施“杀猪盘”诈骗，通过WhatsApp等通讯应用接触受害者，利用虚假的加密货币首次代币发行项目承诺高额回报以骗取信任，并谎称其关联公司NanobitUS Securities是SEC注册经纪商。 2024年6月29日，SEC宣布了这一胜利。此前，美国纽约东区联邦地区法院对涉及NanoBit欺诈案的两名个人和四家实体作出了最终判决。法官指出，NanoBit平台并未发生真实交易，投资者资金被转入香港银行账户，且数十万美元的加密资产被挪用。除NanoBit外，被告还包括Radiant Horizons Limited、Sweet Karma Fashion Inc.、Zhao Tropical Deli Inc.以及个人Jiajie Liu和Hua Zhao。法院判决永久禁止被告违反美国证券法中的反欺诈条款，并责令他们支付总计约552万美元的罚金，其中包括追缴非法所得、判决前利息和民事罚款。其中NanoBit被罚约180万美元，其他三家实体各被罚超118万美元。法官认定被告故意缺席，未提出有效抗辩，若不作出缺席判决，SEC将遭受不公损害。

ambcrypto37分钟前

ambcrypto37分钟前

Claude Code官宣下一版大升级，你在聊天，后台把活干完了

Claude Code 即将推出重大升级，未来版本将默认让子智能体在后台运行。这意味着用户在与 Claude 聊天讨论时，后台的子智能体可以同步执行如代码重构、测试、提交拉取请求等任务，真正实现“边聊边干活”。用户只需在对话结束后查看结果，并可随时将特定智能体切换到前台。这一改进标志着 Claude Code 正从传统的问答式工具演变为能并行管理多条任务线的工作流引擎。其设计哲学是“不是聊天，是基建”。此前，Anthropic 已陆续推出了定时任务（Routines）和动态工作流（Dynamic workflows）功能，允许将复杂任务编排成脚本，调度大量子智能体协作完成。此次更新是将这些能力打包为开箱即用的默认行为。实际影响显著。据报道，Claude Code 已将 Anthropic 内部工程师的有效产出提升至实际人数的三倍，导致公司更需要能决定“写什么代码”的产品思考者，而非单纯写代码的工程师。Spotify 的案例更具说服力：其超过2000万行的代码库中，73%的拉取请求由 AI 辅助完成，部署频率提升75%以上。工程副总裁可同时管理多个后台智能体并行工作，非工程师也能通过自然语言描述来生成端到端原型。核心转变在于，当后台智能体成为标配，工程师的核心价值将从“编写代码”转向“决策与判断”——即思考下一步做什么，并评估结果是否正确。这预示着 AI 编程工具正进入一个以工作流自动化和智能协作为特征的新量级。

marsbit39分钟前

marsbit39分钟前

交易

现货

中国第一，直逼OpenAI，神秘“扫地僧”冲到全球前七

文章摘要

CyberGym这份榜,到底有多重?

一个陌生的东方代号,突然出现在硅谷AI巨头中间

胜负手,在Harness

为漏洞挖掘「量身定制」的Agent

一个比「堆参数」更有价值的判断

所以,「扫地僧」到底是谁?

热门币种推荐

相关问答

你可能也喜欢

比特币到底了吗？拆解12个核心数据指标

比特币盘整于6万美元附近——BTC巨鲸需求能否压倒ETF抛压？

估值倒挂显现，比特币财库企业爆发信任危机

NanoBit加密货币骗局以美国SEC胜诉并获赔552万美元告终——详情解析

Claude Code官宣下一版大升级，你在聊天，后台把活干完了

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签