中国第一，直逼OpenAI，神秘“扫地僧”冲到全球前七

marsbit發佈於 2026-06-30更新於 2026-06-30

文章摘要

一款名为“扫地僧”（MopMonk）的神秘AI在权威网络安全基准测试平台CyberGym上，以73.1%的胜率位列全球第七、中国第一，成绩紧追OpenAI。该测试基于超过1500个真实历史漏洞，要求AI在隔离环境中通过多轮推理和工具调用，生成能触发漏洞的有效攻击代码，难度极高。 “扫地僧”未公开团队信息，仅知其基于上海MiniMax公司的开源模型M3构建。M3拥有出色的编程能力、超长上下文理解和多模态处理能力。其成功关键在于一套专为漏洞挖掘设计的智能体框架，核心是结构化的“漏洞记忆”系统：它将任务过程中的代码路径、失败证据、下一步约束等信息有序组织并持续更新，使AI能基于历史经验高效调整策略，避免重复试错。同时，系统支持多智能体并行探索并共享记忆，提升了搜索效率。这一成绩表明，在复杂任务中，将强大基座模型与精心设计的智能体执行框架深度结合，比单纯追求模型参数规模更为重要。其技术路径展示了如何通过工程优化，将模型的理论能力转化为实际解决问题的能力。

太疯狂了!一个连官网都没有的神秘中国AI「扫地僧」,以73.1%的胜率杀入CyberGym全球前七,紧咬OpenAI。全网都在疯传,这到底是谁家的高手?

这几天,在全球AI巨头厮杀正酣的一张榜单上,突然多了一个谁都没听过的名字。

它叫MopMonk(扫地僧)。

没有大张旗鼓的发布会,没有官博长文,没有社交媒体上的摇旗呐喊。

它就这么凭空出世,径直杀入CyberGym全球前十。

凭借73.1%的成功率,以微弱差距紧咬OpenAI,一举刷新了中国团队在该榜单上的历史最高分。

整件事最魔幻的地方在于,时至今日,无人知晓它的真面目。

CyberGym这份榜,到底有多重?

MopMonk这次的成绩究竟有多炸裂?看看它所站上的擂台就知道了。

CyberGym,由UC Berkeley团队倾力打造,核心论文中选ICLR 2026顶会。

传送门:https://arxiv.org/pdf/2506.02548

作为AI网络安全能力评估领域最权威的公开基准之一,这里堪称大模型的「修罗场」——

就连GPT-5.5-Cyber、Claude Mythos这种级别的顶流,都曾在这个榜单里贴身肉搏。

整个基准主打「真枪实弹」:

1507个漏洞实例、188个开源大项目,所有考题全部扒自Google OSS-Fuzz沉淀下来的真实历史漏洞。

从评估维度来看,这是一个跨量级的突破。

它的体量,是此前最大公开基准(NYU CTF,约200题)的足足7.5倍,更是把CVE-Bench这种「前辈」直接甩出了一个数量级。

更要命的是难度,CyberGym不做选择题。

它要求AI在动辄数千个文件、数百万行代码的真实项目里,完成深度推理。

正因为足够大、足够真、足够难,CyberGym才有了「区分度」——

它能把不同模型、不同Agent框架之间那点真实的能力差距,一刀一刀地切出来。

难怪安全圈,直接将其封为「AI安全领域的奥运会」。

也正因如此,全球头部玩家几乎全员到场,微软、OpenAI、Anthropic、谷歌、Meta、智谱......

CyberGym榜单本身,正在见证AI竞争的一次关键转向:

从比谁参数大,转向比谁的Agent真能把活干完。

一个陌生的东方代号,突然出现在硅谷AI巨头中间

谁能料到,恰恰是在这个最靠「硬实力」说话的擂台上,杀出了一匹「查无此人」的黑马。

拨开迷雾,我们目前掌握的已知情报仅有三条:

神秘代号:MopMonk(扫地僧)

基座模型:MiniMax M3

榜单战绩:杀进CyberGym全球第七,中国第一

按常理,打出这种成绩的团队,技术报告和新闻发布会早该铺天盖地。

可在这份高手云集的榜单上,MopMonk偏偏是那个最彻底的「异类」:只甩出一份技术报告,团队、公司、坐标,一概查无此人。

这种「实力顶配,信息裸奔」的碰撞,本身就充满了一种东方武侠式的戏剧性。

熟悉金庸的人,都懂《天龙八部》中「扫地僧」这三个字的分量——

少林藏经阁里那个扫了几十年地、没人记得姓名的老和尚,一出手却镇住了萧远山、慕容博两大高手。

最不起眼的角色,藏着最深的功夫。

敢顶着「扫地僧」的名号踢馆,这支团队显然对自己的实力,有着极其冷酷的自信!

更关键的线索,隐藏在它的技术底层——MopMonk选用的基座,是MiniMax M3。

作为一个来自上海的开源基座,M3堪称六边形战士,直接集齐了三大核心杀器:前沿的编程能力、1M超长上下文,以及原生多模态。

一边是极具东方色彩的「文化符号」,另一边是打着纯正国产标签的技术底座。

把这两条线索摆上桌面,圈子已经收得很小了。所有的蛛丝马迹都在疯狂暗示同一个结论:

这大概率是一支中国战队。

胜负手,在Harness

抛开身份悬念,作为长期追踪AI技术的人,我们更想搞清楚一个问题:

MopMonk凭什么赢?

要回答这个问题,得先回到CyberGym最难的那个核心——它考的根本不是「知不知道」,而是「做不做得到」。

判断一段代码有没有漏洞,对今天的大模型来说已经不算太难。

但CyberGym要考的是下一步、也是最要命的那一步:生成一个能触发漏洞的输入,也就是PoC。

它必须在「有漏洞的版本」上触发,在「已修复的版本」上失效,并通过基准环境的执行验证。

这道坎,远比想象中刁钻。

漏洞的触发条件,往往零散地藏在代码路径、解析逻辑、构建环境、测试Harness和输入格式之间,得一点点拼出来。

更坑的是,哪怕PoC在本地把程序跑崩了,也未必算数。只要不能满足「漏洞版触发、修复版不触发」的差分判定,照样白忙一场。

这一步,把任务从「理解」彻底拽进了「执行」。而且是一种很特殊的执行——

整场考试,是在一个封闭、断网的环境里进行的。

没有外部搜索可以求助,没有任何「场外资源」,AI能依靠的,只有对眼前这套代码库的理解,和它自己一步步攒下来的记忆。

要在这种条件下把漏洞「复现」出来,靠的是一整套环环相扣的能力:

工具调用规划:什么时候该读文件、什么时候该跑测试、什么时候该回头改方案;

多轮推理:上一次没触发,问题到底出在哪,下一次该怎么调整;

记忆管理:把读过的代码、试过的输入、踩过的坑结构化地存下来,而不是每一轮都从零再读一遍;

迭代验证:一遍遍逼近那个临界点,直到漏洞真的被复现。

换句话说,CyberGym较量的核心,是Agent的「行动力」,模型的「智商」只是入场券。

而把「聪明」变成「行动力」的那个关键环节,就是今天整个Agent领域最被低估的一个词——Harness。

Harness,是模型与外部工具、执行环境之间的「协调层」。

它负责工具编排、上下文状态管理、执行反馈的回收与再投喂。

简单来说,模型是大脑,负责思考「漏洞可能在哪、下一步该怎么挖」。

Harness是手脚加神经系统,负责把大脑的想法变成一连串真实动作——

打开哪个文件、跑哪条命令、拿到报错后怎么调整、上一轮失败了下一轮怎么改。

在CyberGym这种要跑几十上百轮、要在百万行代码里反复试错的任务上,Harness的好坏,直接决定了模型的智商能不能转化成战斗力。

一个聪明的模型 + 一个平庸的Harness,结果往往是「想得到、做不到」;

一个能力扎实的模型 + 一个为漏洞挖掘量身打造的强Harness,才可能在这种长程任务上跑出成绩。

为漏洞挖掘「量身定制」的Agent

如今,透过GitHub技术报告,MopMonk的技术脉络,已然明晰:

一款专为漏洞挖掘全新设计的安全多Agent系统,而支撑其运转的思维基座,正是MiniMax M3。

GitHub地址:https://github.com/MopMonkAI/MopMonkAgent

如前所述,M3是当下罕见的、能将顶尖编码能力、百万token上下文与原生多模态集于单一架构的开源模型。

看一眼跑分就能明白:SWE-Bench Pro斩获59.0%、Terminal-Bench 2.1达到66.0%、MCP Atlas拿下 74.2%——

这些亮眼的数据,精准踩中了Agent落地实战时,最硬核的能力刚需。

不仅如此,它还能在长达十几个小时的任务里自主迭代、自我纠错。

换言之,M3扮演了一颗兼具顶尖代码解析力、超长记忆力与熟练工具调用能力的「最强大脑」。

对于CyberGym这种动辄要吞下整个代码库、跑上几十轮的任务,1M的上下文窗口几乎是刚需。

而MopMonk这套安全Agent框架做的事,是把M3这颗大脑的能力,放大成漏洞挖掘的执行力。

它的「内功心法」,从GitHub公开的技术细节来看,核心是三招——

第一招,结构化的「漏洞记忆」。

它不是简单堆叠聊天记录,也不是把超长上下文一股脑塞给模型,而是把一份可持续更新的「任务事实记忆」,围绕漏洞挖掘里最关键的几类对象组织起来:

漏洞目标、代码路径、输入格式、候选PoC、失败证据、验证状态,以及「下一步约束」记忆。

最后一类尤其见功力:它不生成空泛的抽象计划,而是直接从当前证据里,提炼出下一次实验必须满足的硬约束。

比如,「这次必须覆盖到那个分支」「该调整哪个字段」「要排除哪一类失败原因」。

这种记忆设计,将漏洞挖掘从「反复从零试错」变成了「基于证据的收敛过程」。

每一次读代码、每一次执行结果、每一次失败提交,都被转化成下一步生成PoC可复用的约束。

第二招,记忆驱动的「漏洞挖掘」。

在漏洞挖掘任务中,系统首先通过扫描代码库,并将候选触发路径和目录信息作为规划的起点,来初始化漏洞记忆。

然后,它一步步推进,试图收敛到触发崩溃的具体代码位置。

之后,每一次探索尝试都会读取当前记忆,测试一个具体的假设,并将结果写回记忆中。

这样一来,模型不必每一轮都从头重读整个任务,而是从这份结构化记忆里,精准调出当下最相关的那一小块证据——

既大幅降低了长上下文的负担,又让候选PoC的每一次变异,都能继承此前积累的代码路径与输入格式知识,让搜索越收越准。

在严格的探索预算内,时间于是被尽可能地花在「新假设」上,有效试验密度直线拉升。

第三招,共享记忆下的「多Agent并行探索」。

多个探索尝试,共享同一份漏洞记忆,可以从补丁线索、harness入口、文件格式字段、sanitizer类型、边界条件等多个方向同时推进,并彼此继承失败经验与验证结果。

这既扩大了覆盖面,又避免了重复无效的探索。

由此看出,MopMonk把漏洞复现,从一场开放式的反复试错,硬生生重写成了一个「可积累、可约束、可验证」的记忆更新过程。

三招合一,全凭在任务内部一点点沉淀、提炼、复用出来的「内功」,硬生生把一颗强大的开源基座,调度成了漏洞挖掘战场上的特战尖兵。

最终,它跑出了73.1%的成功率。

基座负责「想得深」,Harness负责「记得牢、调得准、打得稳」。

两者深度耦合,才最终铸就了榜单上那个令人瞩目的破局成绩。

一个比「堆参数」更有价值的判断

这件事真正的启发在于——

过去几年,行业的惯性是「堆参数」:参数越大、模型越强、榜单越高。

但CyberGym这种真实攻防任务给出了另一种答案:决定胜负的,越来越是Agent的执行能力,是Harness这层工程的厚度。

根据GitHub技术报告,这套方法的价值落在三点上:

强大的基模能力,提供了搜索的基础;

结构化的漏洞记忆,提供了收敛的机制;

共享记忆的多智能体探索,在有限预算里提升了成本效率。

基座决定了能力的上限,而这套记忆中心的Harness,决定了这份能力到底能兑现多少。

更要命的是它的复利属性:

模型基座会一代代换,今天用M3,明天可能用更新的开源模型。

但一套被真实战场反复打磨、沉淀了攻防经验的Harness,是可以跨越基座迭代、持续复利的资产。

简而言之,MopMonk Harness的长期价值,可能比「再堆一倍参数」更大。

这正是业内开始认真审视,这个神秘「扫地僧」的根本原因:

大家想看的,不只是它打了多少分,而是它示范了一条把开源基座做到极致的路。

所以,「扫地僧」到底是谁?

绕了一圈,我们还是回到了那个最开始、也最让人抓心挠肝的问题。

MopMonk,到底是谁?!

把线索拼起来:东方武侠味拉满的代号 + 上海公司的MiniMax基座 + 一身安全领域的「内功」。

几乎所有箭头,都指向同一个判断:这是一支来自中国、很可能就在上海的AI安全公司。

也有人顺着基模与Agent双向适配的角度,盲猜其背后与AI大模型原生团队脱不开干系。

各种版本的猜测在坊间疯传,但至今无人能甩出实锤。

你觉得,MopMonk会是谁家的高手?评论区,等你来爆料。

本文来自微信公众号“新智元”,作者:ASI启示录

你可能也喜歡

从交易到支付，代币化黄金正在获得更多链上使用场景

代币化黄金（如Matrixdock的XAUm）的应用场景正从单纯的资产发行扩展到链上交易与支付。近期，XAUm和代币化白银XAGm已上线Sui生态交易平台Deeptrade，并开放与USDC的交易对，获得流动性支持，开始参与链上交易网络。同时，XAUm已支持通过AnomaPay在BNB Chain上进行隐私支付，用户可在保护交易隐私的前提下进行持有、转账和支付，拓展了其作为价值交换工具的功能。这反映出RWA（现实世界资产）行业关注点的转变：从注重资产上链的规模，转向资产在链上的实际使用与流动性。代币化黄金在保持价值存储属性的基础上，正通过交易和支付等场景融入数字金融生态。未来，资产能否真正参与交易、流动和价值交换，将成为RWA发展的关键方向。

marsbit3 分鐘前

marsbit3 分鐘前

名人meme币又被玩成了VC化

近期Solana链上名人Meme币热潮再起，继$ANSEM一日暴涨数百倍后，名为$TJR的KOL主题币也快速拉升，市值从低位一度突破2800万美元。该币由$ANSEM同一开发者创建，并将大量代币打入KOL地址，引发市场FOMO。同时，类似玩法的变种币如$TESTIBULL和$dog也因名人互动或意外操作而市值大涨。这波行情背后，反映了市场在经历长期低迷后的强烈反弹需求。由于主流交易所上币困难、做市商支持减弱，Meme币的炒作逻辑逐渐转向“名人背书”，即由有影响力的KOL持有大量份额并推动共识，类似传统VC的角色。投资者更关注早期入场机会，而非绝对公平分配。尽管这种“VC化”模式吸引了不少链上玩家回归埋伏潜在标的，但行情能否持续仍取决于龙头币$ANSEM能否继续突破，否则热度可能迅速消退。

marsbit3 分鐘前

marsbit3 分鐘前

Bitmine 增持至 570 万枚 ETH，纳入罗素 1000 指数，Tom Lee 称离「5% 目标」只差一步

全球最大的以太坊企业金库Bitmine近期增持27,084枚ETH，总持仓达570万枚，占ETH总供应量的4.7%，正接近其“持有5% ETH流通供应”的目标。尽管上周ETH价格下跌8%，公司股价亦大幅回落，但董事长Tom Lee将其归因于季末调仓，并强调公司将在2026年保持稳定买入节奏。同期，Bitmine被纳入罗素1000大盘股指数，Lee预计此举将吸引大量被动机构资金流入。公司持有的ETH大部分处于质押状态，预计年化质押收入可观。Bitmine目前是全球最大的企业以太坊金库，在整体企业加密资产持仓中排名第二。

marsbit23 分鐘前

Bitmine 增持至 570 万枚 ETH，纳入罗素 1000 指数，Tom Lee 称离「5% 目标」只差一步

marsbit23 分鐘前

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口“很小”

OpenAI首席研究官Mark Chen近日表示，通用人工智能（AGI）即将到来，人类面临的窗口期“很小”。他认为，AI模型正快速接近能够自主进行“自我维持研究”的阶段，届时创新和进化或将由AI主导。 Chen指出，如今在各个领域都已出现AI的“神之一手”——做出超越人类直觉的突破。他坚信，扩展定律（Scaling Laws）尚未失效，技术进步仍处在指数曲线上。此前OpenAI在内部大力押注的推理模型o1的成功，也增强了这一信心。随着AI执行能力的大幅提升，人类在研究中的角色可能演变为“氛围研究员”（Vibe Researcher），即主要负责提出关键问题和凭借“品味”判断成果价值，而将具体的实施、编排工作交给AI。OpenAI的路线图目标正是实现端到端的AI自主研究。然而，通往AGI之路仍充满挑战。一是评估危机（Benchmaxxing），现有评测方法易被钻空子，缺乏真正有效的评估标准；二是“参差的前沿”问题，AI可能在复杂任务上表现出色，却在需要常识或持续学习的简单任务上失败。Chen承认这些难题，但相信正在被攻克。最后，Chen谈及一个温馨的隐喻：当AGI实现后，他个人的愿望是开一家面馆。这暗示在AI主导认知与创新的未来，人类独有的体验、情感与故事，可能成为最宝贵的价值。

marsbit39 分鐘前

marsbit39 分鐘前

历史会重演吗？富达列出结束加密熊市的五大催化剂

富达在一份新报告中指出，比特币当前的加密寒冬可能即将结束，并列出五大可能推动市场复苏的催化剂：比特币的四年周期、更清晰的监管、美联储宽松政策、新兴突破性应用场景，以及新一轮机构采用浪潮。报告回顾，比特币自2011年起大致每四年形成一个周期，近期减半事件减少了新供应，若需求稳定或增长可能推动价格上涨。监管方面，美国SEC此前批准比特币现货ETF曾助推市场创新高，而正在推进的CLARITY法案若通过，可为行业提供明确框架，释放潜在活力。货币政策上，降息环境历来有助于加密资产价格上涨，市场往往提前反应预期。应用场景中，真实世界资产代币化、AI相关加密基础设施及稳定币是当前关注焦点，但历史表明最大的催化剂常出乎意料。机构采用虽非新叙事，但若有科技巨头或国家层面意外的大规模持仓，仍可能扭转局面。富达总结，尽管市场处于低迷，但历史转折多由类似催化剂叠加引发，下一步发展或取决于这些因素中何者率先发力。

Foresight News1 小時前

Foresight News1 小時前

交易

現貨

熱門文章

什麼是 $S$

理解 SPERO：全面概述 SPERO 簡介隨著創新領域的不斷演變，web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中，SPERO（標記為 SPERO,$$s$）是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息，以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼？ SPERO,$$s$ 是加密空間中的一個獨特項目，旨在利用去中心化和區塊鏈技術的原則，創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動，為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議，以及通過去中心化應用程序（dApps）創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開，旨在彌合傳統金融中的差距，同時利用區塊鏈技術的優勢。誰是 SPERO,$$s$ 的創建者？ SPERO,$$s$ 的創建者身份仍然有些模糊，因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神，優先考慮集體貢獻而非個人認可。通過將討論重心放在社區及其共同目標上，SPERO,$$s$ 體現了賦能的本質，而不特別突出某些個體。因此，理解 SPERO 的精神和使命比識別單一創建者更為重要。誰是 SPERO,$$s$ 的投資者？ SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持，他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。這些投資者通常對不僅提供創新產品，還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作？ SPERO,$$s$ 採用多面向的框架，使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵：去中心化治理：SPERO,$$s$ 整合了去中心化治理模型，賦予用戶積極參與決策過程的權力，關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。代幣實用性：SPERO,$$s$ 使用其自己的加密貨幣代幣，旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進，增強了整體參與度和實用性。分層架構：SPERO,$$s$ 的技術架構支持模塊化和可擴展性，允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。社區參與：該項目強調社區驅動的倡議，採用激勵合作和反饋的機制。通過培養強大的社區，SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。專注於包容性：通過提供低交易費用和用戶友好的界面，SPERO,$$s$ 旨在吸引多樣化的用戶群體，包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線，映射 SPERO,$$s$ 演變中的重要事件：概念化和構思階段：形成 SPERO,$$s$ 基礎的初步想法被提出，與區塊鏈行業內的去中心化和社區聚焦原則密切相關。項目白皮書的發布：在概念階段之後，發布了一份全面的白皮書，詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施，以吸引社區的興趣和反饋。社區建設和早期參與：積極進行外展工作，建立早期採用者和潛在投資者的社區，促進圍繞項目目標的討論並獲得支持。代幣生成事件：SPERO,$$s$ 進行了一次代幣生成事件（TGE），向早期支持者分發其原生代幣，並在生態系統內建立初步流動性。首次 dApp 上線：與 SPERO,$$s$ 相關的第一個去中心化應用程序（dApp）上線，允許用戶參與平台的核心功能。持續發展和夥伴關係：對項目產品的持續更新和增強，包括與區塊鏈領域其他參與者的戰略夥伴關係，使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證，能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾，它為更具包容性的金融環境鋪平了道路。與任何在快速發展的加密領域中的投資一樣，潛在的投資者和用戶都被鼓勵進行徹底研究，並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神，邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開，但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

130 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 AGENT S

Agent S：Web3中自主互動的未來介紹在不斷演變的Web3和加密貨幣領域，創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目，承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務，為人工智能（AI）提供變革性的應用，鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。什麼是Agent S？ Agent S是一個突破性的開放代理框架，專門設計用來解決計算機任務自動化中的三個基本挑戰：獲取特定領域知識：該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫，提升其在任務執行中的表現。長期任務規劃：Agent S採用經驗增強的分層規劃，這是一種戰略方法，可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。處理動態、不均勻的界面：該項目引入了代理-計算機界面（ACI），這是一種創新的解決方案，增強了代理和用戶之間的互動。利用多模態大型語言模型（MLLMs），Agent S能夠無縫導航和操作各種圖形用戶界面。通過這些開創性特徵，Agent S提供了一個強大的框架，解決了自動化人機互動中涉及的複雜性，為AI及其他領域的無數應用奠定了基礎。誰是Agent S的創建者？儘管Agent S的概念根本上是創新的，但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚，這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名，重點仍然在於框架的能力和潛力。誰是Agent S的投資者？由於Agent S在加密生態系統中相對較新，關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解，引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作？ Agent S的核心是尖端技術，使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建：類人計算機互動：該框架提供先進的AI規劃，力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為，承諾提升用戶體驗。敘事記憶：用於利用高級經驗，Agent S利用敘事記憶來跟蹤任務歷史，從而增強其決策過程。情節記憶：此特徵為用戶提供逐步指導，使框架能夠在任務展開時提供上下文支持。支持OpenACI：Agent S能夠在本地運行，使用戶能夠控制其互動和工作流程，與Web3的去中心化理念相一致。與外部API的輕鬆集成：其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統，成為開發者和組織的理想選擇。這些功能共同促成了Agent S在加密領域的獨特地位，因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展，其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括，突顯其重要事件： 2024年9月27日：Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出，展示了該項目的基礎工作。 2024年10月10日：該研究論文在arXiv上公開，提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日：發布了一個視頻演示，提供了對Agent S能力和特徵的視覺洞察，進一步吸引潛在用戶和投資者。這些時間線上的標記不僅展示了Agent S的進展，還表明了其對透明度和社區參與的承諾。有關Agent S的要點隨著Agent S框架的持續演變，幾個關鍵特徵脫穎而出，強調其創新性和潛力：創新框架：旨在提供類似人類互動的直觀計算機使用，Agent S為任務自動化帶來了新穎的方法。自主互動：通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。複雜任務自動化：憑藉其強大的方法論，能夠自動化複雜的多步任務，使過程更快且更少出錯。持續改進：學習機制使Agent S能夠從過去的經驗中改進，不斷提升其性能和效率。多功能性：其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。隨著Agent S在Web3和加密領域中的定位，其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架，Agent S展現了數字互動的未來，為各行各業的用戶承諾提供更無縫和高效的體驗。結論 Agent S代表了AI與Web3結合的一次大膽飛躍，具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段，但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰，Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域，像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

899 人學過發佈於 2025.01.14更新於 2025.01.14

如何購買S

歡迎來到HTX.com！在這裡，購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南，放心開始您的加密貨幣之旅。第一步：創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步：前往買幣頁面，選擇您的支付方式信用卡/金融卡購買：使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買：使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買：探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買：在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買：為大量交易者提供個性化服務和競爭性匯率。第三步：存儲您的Sonic (S)購買Sonic (S)後，將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步：交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶，選擇交易對，執行交易，並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.9k 人學過發佈於 2025.01.15更新於 2026.06.02

中国第一，直逼OpenAI，神秘“扫地僧”冲到全球前七

文章摘要

CyberGym这份榜,到底有多重?

一个陌生的东方代号,突然出现在硅谷AI巨头中间

胜负手,在Harness

为漏洞挖掘「量身定制」的Agent

一个比「堆参数」更有价值的判断

所以,「扫地僧」到底是谁?

熱門幣種推薦

相關問答

你可能也喜歡

从交易到支付，代币化黄金正在获得更多链上使用场景

名人meme币又被玩成了VC化

Bitmine 增持至 570 万枚 ETH，纳入罗素 1000 指数，Tom Lee 称离「5% 目标」只差一步

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口“很小”

历史会重演吗？富达列出结束加密熊市的五大催化剂

交易

熱門文章

什麼是 $S$

什麼是 AGENT S

如何購買S

相關討論

熱門問答

熱門分類

熱門標籤