中国第一,直逼OpenAI,神秘“扫地僧”冲到全球前七

marsbit发布于2026-06-30更新于2026-06-30

文章摘要

一款名为“扫地僧”(MopMonk)的神秘AI在权威网络安全基准测试平台CyberGym上,以73.1%的胜率位列全球第七、中国第一,成绩紧追OpenAI。该测试基于超过1500个真实历史漏洞,要求AI在隔离环境中通过多轮推理和工具调用,生成能触发漏洞的有效攻击代码,难度极高。 “扫地僧”未公开团队信息,仅知其基于上海MiniMax公司的开源模型M3构建。M3拥有出色的编程能力、超长上下文理解和多模态处理能力。其成功关键在于一套专为漏洞挖掘设计的智能体框架,核心是结构化的“漏洞记忆”系统:它将任务过程中的代码路径、失败证据、下一步约束等信息有序组织并持续更新,使AI能基于历史经验高效调整策略,避免重复试错。同时,系统支持多智能体并行探索并共享记忆,提升了搜索效率。 这一成绩表明,在复杂任务中,将强大基座模型与精心设计的智能体执行框架深度结合,比单纯追求模型参数规模更为重要。其技术路径展示了如何通过工程优化,将模型的理论能力转化为实际解决问题的能力。

太疯狂了!一个连官网都没有的神秘中国AI「扫地僧」,以73.1%的胜率杀入CyberGym全球前七,紧咬OpenAI。全网都在疯传,这到底是谁家的高手?

这几天,在全球AI巨头厮杀正酣的一张榜单上,突然多了一个谁都没听过的名字。

它叫MopMonk(扫地僧)。

没有大张旗鼓的发布会,没有官博长文,没有社交媒体上的摇旗呐喊。

它就这么凭空出世,径直杀入CyberGym全球前十。

凭借73.1%的成功率,以微弱差距紧咬OpenAI,一举刷新了中国团队在该榜单上的历史最高分。

整件事最魔幻的地方在于,时至今日,无人知晓它的真面目。

CyberGym这份榜,到底有多重?

MopMonk这次的成绩究竟有多炸裂?看看它所站上的擂台就知道了。

CyberGym,由UC Berkeley团队倾力打造,核心论文中选ICLR 2026顶会。

传送门:https://arxiv.org/pdf/2506.02548

作为AI网络安全能力评估领域最权威的公开基准之一,这里堪称大模型的「修罗场」——

就连GPT-5.5-Cyber、Claude Mythos这种级别的顶流,都曾在这个榜单里贴身肉搏。

整个基准主打「真枪实弹」:

1507个漏洞实例、188个开源大项目,所有考题全部扒自Google OSS-Fuzz沉淀下来的真实历史漏洞。

从评估维度来看,这是一个跨量级的突破。

它的体量,是此前最大公开基准(NYU CTF,约200题)的足足7.5倍,更是把CVE-Bench这种「前辈」直接甩出了一个数量级。

更要命的是难度,CyberGym不做选择题。

它要求AI在动辄数千个文件、数百万行代码的真实项目里,完成深度推理。

正因为足够大、足够真、足够难,CyberGym才有了「区分度」——

它能把不同模型、不同Agent框架之间那点真实的能力差距,一刀一刀地切出来。

难怪安全圈,直接将其封为「AI安全领域的奥运会」。

也正因如此,全球头部玩家几乎全员到场,微软、OpenAI、Anthropic、谷歌、Meta、智谱......

CyberGym榜单本身,正在见证AI竞争的一次关键转向:

从比谁参数大,转向比谁的Agent真能把活干完。

一个陌生的东方代号,突然出现在硅谷AI巨头中间

谁能料到,恰恰是在这个最靠「硬实力」说话的擂台上,杀出了一匹「查无此人」的黑马。

拨开迷雾,我们目前掌握的已知情报仅有三条:

神秘代号:MopMonk(扫地僧)

基座模型:MiniMax M3

榜单战绩:杀进CyberGym全球第七,中国第一

按常理,打出这种成绩的团队,技术报告和新闻发布会早该铺天盖地。

可在这份高手云集的榜单上,MopMonk偏偏是那个最彻底的「异类」:只甩出一份技术报告,团队、公司、坐标,一概查无此人。

这种「实力顶配,信息裸奔」的碰撞,本身就充满了一种东方武侠式的戏剧性。

熟悉金庸的人,都懂《天龙八部》中「扫地僧」这三个字的分量——

少林藏经阁里那个扫了几十年地、没人记得姓名的老和尚,一出手却镇住了萧远山、慕容博两大高手。

最不起眼的角色,藏着最深的功夫。

敢顶着「扫地僧」的名号踢馆,这支团队显然对自己的实力,有着极其冷酷的自信!

更关键的线索,隐藏在它的技术底层——MopMonk选用的基座,是MiniMax M3。

作为一个来自上海的开源基座,M3堪称六边形战士,直接集齐了三大核心杀器:前沿的编程能力、1M超长上下文,以及原生多模态。

一边是极具东方色彩的「文化符号」,另一边是打着纯正国产标签的技术底座。

把这两条线索摆上桌面,圈子已经收得很小了。所有的蛛丝马迹都在疯狂暗示同一个结论:

这大概率是一支中国战队。

胜负手,在Harness

抛开身份悬念,作为长期追踪AI技术的人,我们更想搞清楚一个问题:

MopMonk凭什么赢?

要回答这个问题,得先回到CyberGym最难的那个核心——它考的根本不是「知不知道」,而是「做不做得到」。

判断一段代码有没有漏洞,对今天的大模型来说已经不算太难。

但CyberGym要考的是下一步、也是最要命的那一步:生成一个能触发漏洞的输入,也就是PoC。

它必须在「有漏洞的版本」上触发,在「已修复的版本」上失效,并通过基准环境的执行验证。

这道坎,远比想象中刁钻。

漏洞的触发条件,往往零散地藏在代码路径、解析逻辑、构建环境、测试Harness和输入格式之间,得一点点拼出来。

更坑的是,哪怕PoC在本地把程序跑崩了,也未必算数。只要不能满足「漏洞版触发、修复版不触发」的差分判定,照样白忙一场。

这一步,把任务从「理解」彻底拽进了「执行」。而且是一种很特殊的执行——

整场考试,是在一个封闭、断网的环境里进行的。

没有外部搜索可以求助,没有任何「场外资源」,AI能依靠的,只有对眼前这套代码库的理解,和它自己一步步攒下来的记忆。

要在这种条件下把漏洞「复现」出来,靠的是一整套环环相扣的能力:

工具调用规划:什么时候该读文件、什么时候该跑测试、什么时候该回头改方案;

多轮推理:上一次没触发,问题到底出在哪,下一次该怎么调整;

记忆管理:把读过的代码、试过的输入、踩过的坑结构化地存下来,而不是每一轮都从零再读一遍;

迭代验证:一遍遍逼近那个临界点,直到漏洞真的被复现。

换句话说,CyberGym较量的核心,是Agent的「行动力」,模型的「智商」只是入场券。

而把「聪明」变成「行动力」的那个关键环节,就是今天整个Agent领域最被低估的一个词——Harness。

Harness,是模型与外部工具、执行环境之间的「协调层」。

它负责工具编排、上下文状态管理、执行反馈的回收与再投喂。

简单来说,模型是大脑,负责思考「漏洞可能在哪、下一步该怎么挖」。

Harness是手脚加神经系统,负责把大脑的想法变成一连串真实动作——

打开哪个文件、跑哪条命令、拿到报错后怎么调整、上一轮失败了下一轮怎么改。

在CyberGym这种要跑几十上百轮、要在百万行代码里反复试错的任务上,Harness的好坏,直接决定了模型的智商能不能转化成战斗力。

一个聪明的模型 + 一个平庸的Harness,结果往往是「想得到、做不到」;

一个能力扎实的模型 + 一个为漏洞挖掘量身打造的强Harness,才可能在这种长程任务上跑出成绩。

为漏洞挖掘「量身定制」的Agent

如今,透过GitHub技术报告,MopMonk的技术脉络,已然明晰:

一款专为漏洞挖掘全新设计的安全多Agent系统,而支撑其运转的思维基座,正是MiniMax M3。

GitHub地址:https://github.com/MopMonkAI/MopMonkAgent

如前所述,M3是当下罕见的、能将顶尖编码能力、百万token上下文与原生多模态集于单一架构的开源模型。

看一眼跑分就能明白:SWE-Bench Pro斩获59.0%、Terminal-Bench 2.1达到66.0%、MCP Atlas拿下 74.2%——

这些亮眼的数据,精准踩中了Agent落地实战时,最硬核的能力刚需。

不仅如此,它还能在长达十几个小时的任务里自主迭代、自我纠错。

换言之,M3扮演了一颗兼具顶尖代码解析力、超长记忆力与熟练工具调用能力的「最强大脑」。

对于CyberGym这种动辄要吞下整个代码库、跑上几十轮的任务,1M的上下文窗口几乎是刚需。

而MopMonk这套安全Agent框架做的事,是把M3这颗大脑的能力,放大成漏洞挖掘的执行力。

它的「内功心法」,从GitHub公开的技术细节来看,核心是三招——

第一招,结构化的「漏洞记忆」。

它不是简单堆叠聊天记录,也不是把超长上下文一股脑塞给模型,而是把一份可持续更新的「任务事实记忆」,围绕漏洞挖掘里最关键的几类对象组织起来:

漏洞目标、代码路径、输入格式、候选PoC、失败证据、验证状态,以及「下一步约束」记忆。

最后一类尤其见功力:它不生成空泛的抽象计划,而是直接从当前证据里,提炼出下一次实验必须满足的硬约束。

比如,「这次必须覆盖到那个分支」「该调整哪个字段」「要排除哪一类失败原因」。

这种记忆设计,将漏洞挖掘从「反复从零试错」变成了「基于证据的收敛过程」。

每一次读代码、每一次执行结果、每一次失败提交,都被转化成下一步生成PoC可复用的约束。

第二招,记忆驱动的「漏洞挖掘」。

在漏洞挖掘任务中,系统首先通过扫描代码库,并将候选触发路径和目录信息作为规划的起点,来初始化漏洞记忆。

然后,它一步步推进,试图收敛到触发崩溃的具体代码位置。

之后,每一次探索尝试都会读取当前记忆,测试一个具体的假设,并将结果写回记忆中。

这样一来,模型不必每一轮都从头重读整个任务,而是从这份结构化记忆里,精准调出当下最相关的那一小块证据——

既大幅降低了长上下文的负担,又让候选PoC的每一次变异,都能继承此前积累的代码路径与输入格式知识,让搜索越收越准。

在严格的探索预算内,时间于是被尽可能地花在「新假设」上,有效试验密度直线拉升。

第三招,共享记忆下的「多Agent并行探索」。

多个探索尝试,共享同一份漏洞记忆,可以从补丁线索、harness入口、文件格式字段、sanitizer类型、边界条件等多个方向同时推进,并彼此继承失败经验与验证结果。

这既扩大了覆盖面,又避免了重复无效的探索。

由此看出,MopMonk把漏洞复现,从一场开放式的反复试错,硬生生重写成了一个「可积累、可约束、可验证」的记忆更新过程。

三招合一,全凭在任务内部一点点沉淀、提炼、复用出来的「内功」,硬生生把一颗强大的开源基座,调度成了漏洞挖掘战场上的特战尖兵。

最终,它跑出了73.1%的成功率。

基座负责「想得深」,Harness负责「记得牢、调得准、打得稳」。

两者深度耦合,才最终铸就了榜单上那个令人瞩目的破局成绩。

一个比「堆参数」更有价值的判断

这件事真正的启发在于——

过去几年,行业的惯性是「堆参数」:参数越大、模型越强、榜单越高。

但CyberGym这种真实攻防任务给出了另一种答案:决定胜负的,越来越是Agent的执行能力,是Harness这层工程的厚度。

根据GitHub技术报告,这套方法的价值落在三点上:

强大的基模能力,提供了搜索的基础;

结构化的漏洞记忆,提供了收敛的机制;

共享记忆的多智能体探索,在有限预算里提升了成本效率。

基座决定了能力的上限,而这套记忆中心的Harness,决定了这份能力到底能兑现多少。

更要命的是它的复利属性:

模型基座会一代代换,今天用M3,明天可能用更新的开源模型。

但一套被真实战场反复打磨、沉淀了攻防经验的Harness,是可以跨越基座迭代、持续复利的资产。

简而言之,MopMonk Harness的长期价值,可能比「再堆一倍参数」更大。

这正是业内开始认真审视,这个神秘「扫地僧」的根本原因:

大家想看的,不只是它打了多少分,而是它示范了一条把开源基座做到极致的路。

所以,「扫地僧」到底是谁?

绕了一圈,我们还是回到了那个最开始、也最让人抓心挠肝的问题。

MopMonk,到底是谁?!

把线索拼起来:东方武侠味拉满的代号 + 上海公司的MiniMax基座 + 一身安全领域的「内功」。

几乎所有箭头,都指向同一个判断:这是一支来自中国、很可能就在上海的AI安全公司。

也有人顺着基模与Agent双向适配的角度,盲猜其背后与AI大模型原生团队脱不开干系。

各种版本的猜测在坊间疯传,但至今无人能甩出实锤。

你觉得,MopMonk会是谁家的高手?评论区,等你来爆料。

本文来自微信公众号“新智元”,作者:ASI启示录

热门币种推荐

相关问答

Q文章中提到的神秘中国AI '扫地僧'(MopMonk)在哪个全球性基准榜单上取得了突出成绩?

A在由UC Berkeley团队打造的、被誉为‘AI安全领域奥运会’的CyberGym全球基准榜单上,MopMonk以73.1%的胜率杀入全球前七,位列中国第一,紧咬OpenAI。

QMopMonk能取得如此成绩,其技术架构的核心优势是什么?

AMopMonk的核心优势在于将强大的基座模型(MiniMax M3)与一个为其量身打造的、高效的Harness(执行协调层)深度耦合。Harness通过结构化的漏洞记忆管理、记忆驱动的挖掘流程以及多智能体并行探索,将基座模型的‘智商’高效转化为在复杂代码库中执行长程任务的‘行动力’。

Q文章指出,在CyberGym这样的实战基准中,评估的核心是什么?这与以往的模型评估有何不同?

ACyberGym评估的核心是Agent的‘行动力’和‘执行能力’,而不仅仅是模型的‘智商’或知识储备。它要求AI在真实、庞大且复杂的代码项目中,通过深度推理和多轮工具调用,实际生成能触发漏洞的PoC(概念验证),并通过严格的差分验证。这与以往侧重于参数规模、选择题回答或文本理解的评估方式有本质不同,标志着AI竞争从‘比谁参数大’转向‘比谁能真把活干完’。

QMopMonk所使用的基座模型MiniMax M3具有哪些关键能力,使其特别适合CyberGym这类任务?

AMiniMax M3具备三大关键能力,使其成为漏洞挖掘任务的理想基座:1. 顶尖的编程与代码理解能力;2. 高达1M(百万)token的超长上下文窗口,能处理整个庞大代码库;3. 原生多模态支持。这些能力使其能胜任在数百万行代码中进行长期、复杂的分析和执行迭代任务。

Q文章最后关于MopMonk的‘真身’有哪些推测和线索?

A根据文章线索,关于MopMonk的‘真身’推测主要指向一支来自中国的AI安全团队。关键线索包括:1. 极具东方武侠色彩的代号‘扫地僧’;2. 其基座模型是来自上海公司MiniMax的开源模型M3;3. 其技术报告和Agent框架在GitHub上公开,但团队身份、所属公司等具体信息完全保密。因此,推测它很可能是一支扎根于上海或中国的、专注于AI安全攻防的技术团队或初创公司。

你可能也喜欢

Bitmine以太坊储备增至98亿美元:"加密货币最好的年份尚未到来"

比特浸入科技(Bitmine Immersion Technologies)近期再次成为头条,其在一周内增持了27,084枚以太坊(ETH)。这使得其以太坊总持有量达到5,700,040枚,按每枚1,569美元计算,价值约90.1亿美元,占以太坊总供应量的4.7%。此次增持发生在以太坊价格从约1780美元下跌至1578.54美元(撰稿时)的一周内。同时,根据SoSo Value数据,以太坊ETF在整个六月大部分时间出现资金外流,总额达5.0139亿美元。 针对疲软的市场状况,比特浸入科技董事长汤姆·李(Tom Lee)表示,近期市场对加密货币投资者颇具挑战,并指出临近季度末的“粉饰橱窗”行为导致投资者减持过去三个月表现不佳的资产是常见现象。此外,迈克尔·赛勒(Michael Saylor)的公司Strategy正面临持续审查,据报道其持有约140亿美元未实现亏损,而其普通股和优先股价格均跌破100美元水平,引发加密社区部分人士建议其停止扩张比特币持仓。 由于比特浸入科技常被称为“以太坊的Strategy”,市场担忧其持续的以太坊积累行为可能面临类似困境与批评。目前上市公司共持有价值约749.4亿美元的比特币和114.8亿美元的以太坊,Strategy是最大的比特币持仓上市公司。 然而,目前这些担忧仅是推测。比特浸入科技并非单纯积累以太坊,其每年质押收入估计达2.11亿美元,同时持有5.55亿美元现金及等价物以及488万枚质押的ETH。该公司还于6月26日被纳入罗素1000大型股指数。汤姆·李强调,公司计划稳步增长至2026年,并认为市场正开启新一轮牛市周期,代币化和人工智能的快速进展将推动区块链和去中心化加密领域的指数级需求增长。 最终摘要: * 新增持后,比特浸入科技持有5,700,040枚ETH,价值约90.1亿美元。 * 尽管以太坊价格疲软、ETF资金外流且Strategy面临批评,比特浸入科技仍持续购入以太坊。

ambcrypto1小时前

Bitmine以太坊储备增至98亿美元:"加密货币最好的年份尚未到来"

ambcrypto1小时前

你天天用的Claude和Codex,Meta内部不让随便用了

今年5月,Meta为其应用AI工程部门的工程师划定了红线:限制内部使用Claude Code和Codex这两款流行的AI编程工具,相关限制至今仍在生效。作为这些工具的主要客户之一,Meta此举并非因其不好用,而是恰恰相反——担心其过于强大和好用。 Meta正在自研名为MetaCode的AI编程助手,旨在替代外部模型以节省成本并掌握核心技术。限制使用外部模型的核心原因,是防止“蒸馏陷阱”:即担忧员工在构建MetaCode的训练数据、编程题库和评测标准时,过度依赖或掺入Claude/Codex的输出。这会导致自研模型在不知不觉中学习对手的“本事”和判断标准,使能力来源模糊,并可能违反与OpenAI、Anthropic等竞争对手的服务条款,引发法律风险。 内部指南明确禁止了可能让外部AI模型“定义能力”的三类任务:不能用其输出来生成测试题目、不能用其分析代码或设计测试点、其生成内容不得进入被测模型的访问环境。仅允许AI处理搭建工作流、整理文件等“打下手”的辅助性任务,且所有AI产出必须经过人工审核。 这一事件揭示了AI行业的一个普遍困境:在利用强大外部工具加速自身研发的同时,如何清晰界定并守护自身模型能力的原创性,避免陷入知识产权与合同风险。随着AI参与创造AI的循环加深,“本事究竟是谁的”这条界线正变得越来越模糊。

marsbit2小时前

你天天用的Claude和Codex,Meta内部不让随便用了

marsbit2小时前

为什么今天我们需要AI内容观?

亚马逊AI动画《朋克鸭》因伦理争议被叫停,折射出AI内容当前面临的困境。2026年AI视频技术取得突破,能产出完整视觉故事,推动短剧和仿真人内容爆发,院线级AI长片加速涌现。然而,AI在影视行业的应用也引发激烈争议,尤其围绕替代真人表演的伦理问题。 AI内容在不同媒介场景中适配度不同。短视频等“文化速食”内容追求快节奏、浅层情绪和免费模式,AI能高效提供海量供给,满足用户碎片化娱乐需求。但进入影视等“文化正餐”领域则面临挑战,因为影视承载着更深的情感表达、艺术创新和社会意义构建功能,其核心价值在于人的独特参与。 AI难以完全替代真人创作的价值。人在创作中的创新能力、劳动付出凝结的生命经验,以及基于真实情感和个性化表达的互动,是文化作品珍贵性的核心。尽管AI能提升生产效率、拉高质量均值,但易导致内容同质化,并可能通过低成本优势挤压人类创作空间,引发侵权和低质内容泛滥的风险。 因此,发展AI内容需要建立明确的边界和规则,即“AI内容观”。其核心原则是:确保AI放大而非挤压人的创作空间;尊重而非掠夺人的创作成果;坚持人在创作中的主导地位与责任;保障AI创作的公开、透明与可溯源。最终目标是让人成为技术的“掌舵者”,在利用AI提升效率的同时,守护文化创作中人的主体性和核心价值,推动AI向善、文化向美。

marsbit3小时前

为什么今天我们需要AI内容观?

marsbit3小时前

交易

现货

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.7k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片