NVIDIA团队让编程Agent接管真实机器人实验,成功率达99%

marsbit發佈於 2026-06-18更新於 2026-06-18

文章摘要

NVIDIA GEAR实验室推出名为ENPIRE的项目,首次让编程Agent在真实机器人硬件上实现了全自动化的研究闭环。系统部署了8个Codex Agent组成机器人舰队,在仅给定“高效安全完成任务”的简单目标后,人类基本退出干预。Agent自主管理整个流程:自动重置环境、搜索文献、编写并改进代码、训练和部署策略、分析日志并持续迭代,最终在系扎带、插针整理等高精度灵巧操作任务中达到了99%的成功率。 项目核心是由环境、策略改进、策略评估和进化四个模块构成的闭环框架,将真实世界机器人学习转化为由Agent管理的优化过程。研究中的一个关键发现是,对许多任务而言,重置环境比完成任务本身更容易,因此系统优先让Agent构建自动重置能力。 实验还观察到“物理规模定律”,即增加并行机器人数量能显著加快任务解决速度。例如,插针任务在8台机器人并行下,达到完美表现的时间从1.5小时以上缩短至约40分钟。团队为此提出了平均机器人利用率(MRU)和平均Token利用率(MTU)两个新指标,以量化资源效率。目前,部分系统已能彻夜无人干预运行,未来目标是实现实验室完全自主运作。该项目计划开源,使普通开发者也有机会搭建类似系统。

自动化研究,这一次真正走出代码沙盒,进入了真实的物理世界。

最近,NVIDIA GEAR 实验室负责人 Jim Fan 介绍了一个名为 ENPIRE 的最新项目。这是他们首次在机器人硬件上实现了自动化研究

他们把 8 个 Codex Agent 放到一个机器人舰队里,分配好 GPU 算力和充足的 token 预算,只给出一个简单目标:尽快解决任务、让机器人保持忙碌但确保安全、不要浪费算力

接下来人类就基本退出干预。Agent 自主驱动整个闭环,包括自动重置场景、搜索文献、实现想法并搭建基础设施、训练和部署策略、自我验证、分析日志并改代码,不断迭代,直到在真实硬件上可靠完成高精度灵巧任务,比如系扎带、插针盒整理、安装 GPU 等。

他们还观察到一种「物理 scaling law」,增加并行机器人数量(例如从少量增加到 8 个),能显著加快任务解决速度。

目前,该实验室的部分系统已实现彻夜无人类干预的自我迭代,研究人员仅需在早晨查看报告即可。

Jim Fan 称,未来目标是让团队成员安心休假,甚至连 NVIDIA CEO 黄仁勋都察觉不到实验室仍在自主运行

ENPIRE 项目计划完全开源,届时普通开发者也有望在家中搭建类似的自主机器人研究系统。

项目地址:https://research.nvidia.com/labs/gear/enpire/

ENPIRE 系统架构:四个模块构成闭环

ENPIRE 是一个专为编码 Agent 设计的框架系统,通过四个核心模块构建可重复的物理反馈循环:环境模块(EN)负责自动重置和验证,策略改进模块(PI)启动策略优化,Rollout 模块(R)支持单台或多台机器人并行评估策略,进化模块(E)则让编码 Agent 分析日志、查阅文献、改进训练基础设施和算法代码以解决失败模式。

这一闭环系统将真实世界机器人学习转化为一个由 Agent 管理的、可控的优化过程,从而最大限度减少人工投入,同时支持在不同训练配方和 Agent 变体之间开展公平的消融实验。

在 ENPIRE 的支持下,前沿编程 Agent 能够自主开发策略,并在 PushT、将插针整理进针盒、使用切刀剪断扎带等具有挑战性的真实世界灵巧操作任务中,实现 99% 的成功率。

关键发现:重置环境比完成任务本身更容易

其中一个关键观察是:对许多机器人任务而言,重置环境往往比完成任务本身更容易。

因此,ENPIRE 的做法是,先让 Agent 通过 Code-as-Policy 构建自动重置环境。很多情况下,所谓重置其实就是一个 pick-and-place 任务,可以由 Cap-X 解决。

随后,智能体会编写基于启发式规则的奖励函数。研究团队再将该环境放入沙箱,并启动 Agent 围绕得分开展自动化研究。

这也呼应了 Karpathy 对自动化研究的定义:这里所说的自动化研究,并不是简单调一个超参数,或改动某一小段代码。Agent 会从互联网上探索不同范式,并重写一切可能推动性能提升的部分,包括算法、训练目标,甚至数据加载器。

在插针任务中,一个 Agent 甚至自行编写了接触力安全控制器,其效果超过了单纯调节若干强化学习参数。

新指标MRU与MTU

ENPIRE 的扩展能力取决于 Agent 团队规模和算力资源,只不过在这里,真正稀缺的资源不是 GPU,而是机器人时间。

当研究团队为 Agent 提供 8 台机器人,而不是 1 台机器人时,插针任务达到接近完美表现所需的时间,从 1.5 小时以上缩短到了约 40 分钟。这些 Agent 通过 Git 进行协调:共享代码、放弃不理想的想法,并自主地挑选彼此的最佳运行结果。

这指向了一个更大的变化:机器人研究正在变成一种环境设计工作,即为 coding Agent 搭建可以在其中进行自动化研究的环境;算法工作则上移到了更高一层,转向构建一种 Agent 能够自行闭合的反馈循环。

而这个循环会不断复利式累积:Agent 今天掌握的一项技能,明天就会成为构建并重置更困难任务环境的基础模块。能力会自举出新的能力。

在这一范式下,真正的硬约束是真实世界交互预算。

因此,研究团队提出了两个指标:

  • 平均机器人利用率(Mean Robot Utilization,MRU):机器人实际运行实验的时间占总真实耗时的比例。
  • 平均 Token 利用率(Mean Token Utilization,MTU):衡量 Agent 将 token 转化为研究进展的效率。

在他们的实验中,MRU 始终低于 50%。也就是说,机器人有一半时间都处于空闲状态,在等待 Agent 思考。因此,更好的 harness 和更快的模型,会直接转化为实际收益。

PushT 是一个沿用已久的机器人操作基准。通常,要完成这个任务,需要大量人类示范数据,再加上数小时的行为克隆训练。

但他们看到,Codex、Claude Code 和 Kimi Code 都用一套基于规则的启发式方法,在不到 2 小时内「解决」了这个任务:不使用神经网络,不进行训练,也不依赖任何人类数据。

为了让更多人能在家尝试物理世界中的自动化研究,他们基于 @LeRobotHF 的 SO-101 套件 + NVIDIA Jetson Thor 开发了一整套全栈系统。这套系统可以完成 PushT 任务。

参考链接:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:杨文

相關問答

QNVIDIA ENPIRE 项目的核心目标是什么?

AENPIRE 项目的核心目标是实现机器人硬件上的自动化研究,即让编码智能体(Agent)自主驱动整个研究闭环,包括环境重置、搜索文献、实现想法、训练和部署策略、自我验证与迭代,最终在真实物理世界中可靠完成高精度灵巧任务,从而最大限度地减少人工干预,最终实现实验室在无人值守下的自主运行。

QENPIRE 系统的四个核心模块是什么?

AENPIRE 系统由四个核心模块构成闭环:1. 环境模块(EN),负责自动重置和验证物理场景;2. 策略改进模块(PI),启动策略优化;3. Rollout 模块(R),支持在单台或多台机器人上并行评估策略;4. 进化模块(E),让编码智能体分析日志、查阅文献、改进训练基础设施和算法代码以解决失败模式。

Q文章中提到在机器人研究中,重置环境为什么是一个关键观察?

A文章指出,对于许多机器人任务,重置环境往往比完成任务本身更容易。因此,ENPIRE 项目首先让智能体通过“代码即策略”的方式构建自动重置环境(例如拾放任务),然后将此环境放入沙箱,让智能体围绕奖励得分开展自动化研究。这为后续复杂的任务学习奠定了基础。

Q文章提出了哪两个新指标来衡量自动化研究的效率?它们的含义是什么?

A文章提出了两个新指标来衡量真实世界自动化研究的效率:1. 平均机器人利用率(MRU):指机器人实际运行实验的时间占总真实耗时的比例。2. 平均 Token 利用率(MTU):衡量智能体将计算和决策的 token 消耗转化为实际研究进展的效率。低 MRU 表明机器人有大量空闲时间在等待智能体决策,这是提升效率的关键瓶颈。

Q根据文章,增加并行机器人数量对任务解决有什么影响?项目在哪些任务上取得了高成功率?

A增加并行机器人数量能显著加快任务解决速度,这被称为一种“物理扩展定律”。例如,在插针任务中,使用8台机器人将达成近乎完美表现的时间从1.5小时以上缩短到约40分钟。该项目在PushT(推物)、将插针整理进针盒、使用切刀剪断扎带等真实世界灵巧操作任务中,实现了高达99%的成功率。

你可能也喜歡

英伟达CPU压境,中国RISC-V迎战:半导体深观察之四

英伟达即将向中国客户提供其首款专为AI设计的独立CPU Vera,基于Arm架构,单颗售价超2万美元。这凸显了中国在AI算力需求激增下,对CPU架构自主可控的迫切性。文章指出,除了x86和Arm,RISC-V正成为中国突破“不可能三角”(繁荣、可控、自主)的关键赛道。 RISC-V因其开源、模块化特性,被视为实现自主可控且有机会繁荣的路径。当前,中国已成为全球RISC-V发展的热点,受AI算力需求、出口管制压力、开源降本以及政策支持等多重因素推动。国内多家厂商的高性能RISC-V核心在SPEC定点跑分上已触及或超过15分的行业门槛,并实现了3GHz以上的主频,拿到了进入高性能计算俱乐部的“入场券”。 产业焦点已从单核性能转向完整的“计算子系统”,包括自研一致性片上网络(NoC)和满足数据中心要求的全栈RAS能力。已有厂商交付了40核、严格兼容RVA23国际标准的服务器处理器,体现了对生态统一性的重视。在视频编解码、加解密等特定负载上,部分国产RISC-V处理器已接近甚至超越x86/Arm同代产品。 挑战同样严峻。生态碎片化、EDA工具链不完善、验证复杂度高、单核能效追趕、以及先进工艺制约等都是必须啃下的“硬骨头”。业界清醒认识到,在数据中心领域超越成熟架构的周期将比预期更长。 结论是,面对英伟达Vera的敲门,中国自研CPU并非只有跟随Arm一条路。RISC-V赛道已在中国推开大门,并在高性能计算领域取得了实质性进展。虽然前路漫长,充满工程挑战,但它为中国提供了在下一轮算力革命中掌握主动权的可能性。

marsbit35 分鐘前

英伟达CPU压境,中国RISC-V迎战:半导体深观察之四

marsbit35 分鐘前

Stratosphere、Pudgy Penguins与Streamex于2026年ETHConf及纽约科技周期间举办创始人圆桌VIP晚宴

2026年6月9日,在ETHConf 2026和纽约科技周期间,Stratosphere、Pudgy Penguins和Streamex在纽约市联合举办了一场私密的“创始人桌”VIP晚宴,汇聚了数字资产、科技、人工智能、传统金融和机构资本领域的众多领导者。 此次仅限受邀者参加的晚宴,旨在将精选的创始人、运营商、基金、高管及机构领袖聚集一堂,在私密环境中促进自然交流。出席嘉宾包括来自花旗、BitMine、BitGo、未来资产证券(美国)、Experian、Pyth Network、Space and Time、MegaETH、B3、Stable、Antler、Delphi Digital、Fun、Linera、Vanta Trading、Streamex、PolyData、Horizen Labs、World Foundation、Zipcode、OpenLedger、Onyx、Definitive、Notalone Ventures等机构的代表。 晚宴由Stratosphere主办,Pudgy Penguins和Streamex联合举办。Stratosphere贡献了其广泛的创始人、运营商、投资者和机构网络;Pudgy Penguins带来了数字资产领域强大的消费品牌和社区;Streamex则聚焦于代币化黄金和大宗商品市场,引入了机构及现实世界资产的视角。 Stratosphere首席执行官哈桑·谢赫表示:“我对数字资产的下一阶段,尤其是商品代币化感到乐观。这类晚宴让我们能将基金、机构和创始人聚集在同一房间,探讨市场走向。”该“创始人桌”系列活动计划在全年主要全球会议期间持续举办,致力于在私密、以关系驱动的场合中连接创始人、资本、机构和领先品牌。 Stratosphere是一家服务于科技和金融行业领导者的生态合作伙伴与增长咨询公司。

TheNewsCrypto2 小時前

Stratosphere、Pudgy Penguins与Streamex于2026年ETHConf及纽约科技周期间举办创始人圆桌VIP晚宴

TheNewsCrypto2 小時前

Notion增长拆解:从一款笔记工具到1亿用户,Notion如何构建产品、模板与社区的三重增长飞轮

Notion的崛起并非依赖单点功能或强销售,而是构建了一个产品、模板与社区三重驱动的增长飞轮。其核心在于产品的高度“可塑性”,允许用户自由搭建工作系统,满足非标准化知识工作的需求。通过免费策略和产品自带的传播属性,Notion以PLG模式降低门槛,借助页面分享和协作邀请实现自然裂变。 模板生态是关键,它将产品的抽象能力转化为具体场景解决方案,降低了新用户激活成本,并通过用户生成内容覆盖海量细分场景,形成高效的搜索增长渠道和创作者经济。 社区则进一步将增长网络化,用户围绕Notion交流工作方法,形成身份认同。大使计划和本地化内容帮助其完成全球化扩张,使社区成为自我复制的增长引擎。 内容营销体系持续教育用户,拓展产品认知边界。其进入企业市场采取自下而上路径,凭借已有的内部用户基础降低销售阻力。AI能力的融入则提升了产品价值和模板的智能化,有望将Notion升级为AI时代的工作操作系统。 Notion的壁垒不在于功能,而在于其长期沉淀的用户知识资产、活跃的模板与创作者生态、以及深厚的社区文化所形成的综合增长系统,这使其从工具演变为一个不断自我强化的生态系统。

marsbit6 小時前

Notion增长拆解:从一款笔记工具到1亿用户,Notion如何构建产品、模板与社区的三重增长飞轮

marsbit6 小時前

交易

現貨
合約
活动图片