NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

marsbit發佈於 2026-06-18更新於 2026-06-18

文章摘要

NVIDIA GEAR实验室推出名为ENPIRE的项目，首次让编程Agent在真实机器人硬件上实现了全自动化的研究闭环。系统部署了8个Codex Agent组成机器人舰队，在仅给定“高效安全完成任务”的简单目标后，人类基本退出干预。Agent自主管理整个流程：自动重置环境、搜索文献、编写并改进代码、训练和部署策略、分析日志并持续迭代，最终在系扎带、插针整理等高精度灵巧操作任务中达到了99%的成功率。项目核心是由环境、策略改进、策略评估和进化四个模块构成的闭环框架，将真实世界机器人学习转化为由Agent管理的优化过程。研究中的一个关键发现是，对许多任务而言，重置环境比完成任务本身更容易，因此系统优先让Agent构建自动重置能力。实验还观察到“物理规模定律”，即增加并行机器人数量能显著加快任务解决速度。例如，插针任务在8台机器人并行下，达到完美表现的时间从1.5小时以上缩短至约40分钟。团队为此提出了平均机器人利用率（MRU）和平均Token利用率（MTU）两个新指标，以量化资源效率。目前，部分系统已能彻夜无人干预运行，未来目标是实现实验室完全自主运作。该项目计划开源，使普通开发者也有机会搭建类似系统。

自动化研究,这一次真正走出代码沙盒,进入了真实的物理世界。

最近,NVIDIA GEAR 实验室负责人 Jim Fan 介绍了一个名为 ENPIRE 的最新项目。这是他们首次在机器人硬件上实现了自动化研究。

他们把 8 个 Codex Agent 放到一个机器人舰队里,分配好 GPU 算力和充足的 token 预算,只给出一个简单目标:尽快解决任务、让机器人保持忙碌但确保安全、不要浪费算力。

接下来人类就基本退出干预。Agent 自主驱动整个闭环,包括自动重置场景、搜索文献、实现想法并搭建基础设施、训练和部署策略、自我验证、分析日志并改代码,不断迭代,直到在真实硬件上可靠完成高精度灵巧任务,比如系扎带、插针盒整理、安装 GPU 等。

他们还观察到一种「物理 scaling law」,增加并行机器人数量(例如从少量增加到 8 个),能显著加快任务解决速度。

目前,该实验室的部分系统已实现彻夜无人类干预的自我迭代,研究人员仅需在早晨查看报告即可。

Jim Fan 称,未来目标是让团队成员安心休假,甚至连 NVIDIA CEO 黄仁勋都察觉不到实验室仍在自主运行。

ENPIRE 项目计划完全开源,届时普通开发者也有望在家中搭建类似的自主机器人研究系统。

项目地址:https://research.nvidia.com/labs/gear/enpire/

ENPIRE 系统架构:四个模块构成闭环

ENPIRE 是一个专为编码 Agent 设计的框架系统,通过四个核心模块构建可重复的物理反馈循环:环境模块(EN)负责自动重置和验证,策略改进模块(PI)启动策略优化,Rollout 模块(R)支持单台或多台机器人并行评估策略,进化模块(E)则让编码 Agent 分析日志、查阅文献、改进训练基础设施和算法代码以解决失败模式。

这一闭环系统将真实世界机器人学习转化为一个由 Agent 管理的、可控的优化过程,从而最大限度减少人工投入,同时支持在不同训练配方和 Agent 变体之间开展公平的消融实验。

在 ENPIRE 的支持下,前沿编程 Agent 能够自主开发策略,并在 PushT、将插针整理进针盒、使用切刀剪断扎带等具有挑战性的真实世界灵巧操作任务中,实现 99% 的成功率。

关键发现:重置环境比完成任务本身更容易

其中一个关键观察是:对许多机器人任务而言,重置环境往往比完成任务本身更容易。

因此,ENPIRE 的做法是,先让 Agent 通过 Code-as-Policy 构建自动重置环境。很多情况下,所谓重置其实就是一个 pick-and-place 任务,可以由 Cap-X 解决。

随后,智能体会编写基于启发式规则的奖励函数。研究团队再将该环境放入沙箱,并启动 Agent 围绕得分开展自动化研究。

这也呼应了 Karpathy 对自动化研究的定义:这里所说的自动化研究,并不是简单调一个超参数,或改动某一小段代码。Agent 会从互联网上探索不同范式,并重写一切可能推动性能提升的部分,包括算法、训练目标,甚至数据加载器。

在插针任务中,一个 Agent 甚至自行编写了接触力安全控制器,其效果超过了单纯调节若干强化学习参数。

新指标MRU与MTU

ENPIRE 的扩展能力取决于 Agent 团队规模和算力资源,只不过在这里,真正稀缺的资源不是 GPU,而是机器人时间。

当研究团队为 Agent 提供 8 台机器人,而不是 1 台机器人时,插针任务达到接近完美表现所需的时间,从 1.5 小时以上缩短到了约 40 分钟。这些 Agent 通过 Git 进行协调:共享代码、放弃不理想的想法,并自主地挑选彼此的最佳运行结果。

这指向了一个更大的变化:机器人研究正在变成一种环境设计工作,即为 coding Agent 搭建可以在其中进行自动化研究的环境;算法工作则上移到了更高一层,转向构建一种 Agent 能够自行闭合的反馈循环。

而这个循环会不断复利式累积:Agent 今天掌握的一项技能,明天就会成为构建并重置更困难任务环境的基础模块。能力会自举出新的能力。

在这一范式下,真正的硬约束是真实世界交互预算。

因此,研究团队提出了两个指标:

平均机器人利用率(Mean Robot Utilization,MRU):机器人实际运行实验的时间占总真实耗时的比例。
平均 Token 利用率(Mean Token Utilization,MTU):衡量 Agent 将 token 转化为研究进展的效率。

在他们的实验中,MRU 始终低于 50%。也就是说,机器人有一半时间都处于空闲状态,在等待 Agent 思考。因此,更好的 harness 和更快的模型,会直接转化为实际收益。

PushT 是一个沿用已久的机器人操作基准。通常,要完成这个任务,需要大量人类示范数据,再加上数小时的行为克隆训练。

但他们看到,Codex、Claude Code 和 Kimi Code 都用一套基于规则的启发式方法,在不到 2 小时内「解决」了这个任务:不使用神经网络,不进行训练,也不依赖任何人类数据。

为了让更多人能在家尝试物理世界中的自动化研究,他们基于 @LeRobotHF 的 SO-101 套件 + NVIDIA Jetson Thor 开发了一整套全栈系统。这套系统可以完成 PushT 任务。

参考链接:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:杨文

你可能也喜歡

韩国15种山寨币交易量呈现爆发式增长！

韩国主要加密货币交易所Upbit和Bithumb上部分山寨币交易量出现显著增长。过去24小时内，最受欢迎的山寨币总交易额达到约3.477亿美元。其中，MetaDAO（META）交易量居首，仅在Upbit上的单日交易额就达6584万美元，占该交易所现货总交易量的12.39%。Euler（EUL）以4765万美元的总交易额位居第二，XRP以3811万美元位列第三，持续受到韩国投资者关注。其他交易量靠前的山寨币包括ThunderCore（TT）、Babylon（BABY）、Geodnet（GEOD）、Hyperlane（HYPER）、Momentum（MMT）、Ondo（ONDO）、柴犬币（SHIB）等。本文提供的信息不构成投资建议。

cryptonews.ru58 分鐘前

cryptonews.ru58 分鐘前

唐纳德·特朗普的公司再度出售大批比特币！

据报道，与美国总统唐纳德·特朗普的媒体公司Trump Media & Technology Group相关的地址，疑似向加密货币交易所CryptoCom转移了约2628枚比特币，价值约1.65亿美元。此前有分析称，该公司总计购买了11542枚比特币，平均成本为每枚11.85万美元。据称，2026年至今，相关地址已转出约7281枚比特币，目前仍持有约4261枚。 Trump Media在比特币投资上的已实现和未实现损失总额估计约为5.55亿美元。不过，将比特币转移至交易所并不一定意味着出售资产，也可能是为了托管、流动性管理或其他财务操作。目前尚无法确定其具体意图，但从冷钱包向中心化交易所转移通常被视为潜在的出售行为。 *本文不构成投资建议。

cryptonews.ru2 小時前

cryptonews.ru2 小時前

帕克·刘易斯解释为何比特币仍是最佳货币

知名比特币分析师帕克·刘易斯在访谈中批评了某些上市公司以“数字信贷”形式销售永续优先股的营销策略，认为这从根本上扭曲了比特币的本质。他指出，比特币在算法层面不具备法币收益性，承诺定期分红主要依赖牛市吸引新投资者来维持，风险极高。刘易斯引用数据说明此类衍生品的巨大风险：全球信贷市场规模达300万亿美元，而永续优先股市场仅约1万亿美元，这表明机构有意规避这种无还款期限的资产，将风险转嫁给信息不足的散户。针对“比特币波动性太大”的常见观点，他认为波动性是这一供应量严格受限的新资产被大规模采用过程中的自然数学结果。新人入场需出更高价从早期持有者手中购买，导致价格剧烈波动。他建议投资者直接持有比特币，这比投资MicroStrategy等公司发行的衍生品更安全。投资者将焦点从直接持有加密货币转向公司衍生品，会忽视法币急速贬值的真正威胁。刘易斯以自创的“肋眼牛排指数”为例，指出其本地超市一款牛排价格从2020年的19.99美元涨至37.99美元，反映年化约12-13%的真实通胀，远超官方平滑后的CPI数据。在全球通胀环境下，最明智、保守且安全的策略仍是直接持有比特币并完全掌控私钥。追逐加密货币国库股等公司工具的收益只会叠加隐性系统风险，而理解去中心化货币的本质才能有效保护财富免受宏观经济动荡影响。

cryptonews.ru3 小時前

cryptonews.ru3 小時前

比特币为何在美联储强硬暂停后守住 64,000 美元关口

比特币在美联储暂停加息后维持在64,000美元附近，结束了7月的交易。市场对美联储维持利率不变的决定反应剧烈，但并未获得政策即将转向的明确信号。在此背景下，资金重新流入比特币现货ETF，加密货币总市值保持在2.29万亿美元左右，主要山寨币走势分化。投资者目前处于观望状态。一方面，高利率和美联储的强硬立场抑制了风险偏好；另一方面，市场未出现恐慌性抛售、比特币ETF恢复资金净流入以及关键价位的韧性表明，数字资产市场尚未准备好大幅下跌。 **关键信息：** - 美联储维持利率在3.50%-3.75%，投票结果为9:3，三位委员支持加息。 - 比特币现货ETF净流入3210万美元，结束了连续流出；以太坊ETF则净流出约1865万美元。 - 比特币在63,000-66,000美元区间内盘整，63,000-63,500美元构成支撑，66,000美元是近期阻力。 - 以太坊价格在1,900美元附近承压，但其网络基本面（如质押意愿）保持稳定。 - 资金在主要加密货币间轮动，比特币重获机构青睐，Solana相关产品也有资金流入。 - 美国CLARITY Act法案审议被推迟至秋季，降低了其在2026年内通过的可能性。技术层面，比特币能否在63,000美元上方保持稳固、以太坊能否守住1,860美元以及机构资金流入能否持续，被视为市场能否在2026年下半年构筑复苏基础的关键信号。

cryptonews.ru3 小時前

cryptonews.ru3 小時前

ARK Invest公司凯西·伍德以683万美元购入约109,129股Circle股票

凯西·伍德领导的ARK Invest公司通过旗下三只交易所交易基金，购入约109,129股Circle股票，价值近683万美元。此次买入前，Circle刚获得纽约州金融服务部门颁发的信托运营许可证，其信托实体将更名为Circle New York Trust。公司首席执行官杰里米·阿莱尔称此为公司的长期目标。尽管获得监管批准，7月31日Circle股价仍下跌2.54%，收于62.61美元，市场反应显示投资者可能未将该许可视为股价上涨动力。同期，ARK Invest还趁科技股抛售潮，购入了价值约4020万美元的特斯拉、SpaceX和英伟达股票，并减持了Shopify、Cloudflare、CrowdStrike等公司的股份。

cryptonews.ru3 小時前

ARK Invest公司凯西·伍德以683万美元购入约109,129股Circle股票

cryptonews.ru3 小時前

交易

現貨

NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

文章摘要

ENPIRE 系统架构:四个模块构成闭环

关键发现:重置环境比完成任务本身更容易

新指标MRU与MTU

参考链接:

相關問答

你可能也喜歡

韩国15种山寨币交易量呈现爆发式增长！

唐纳德·特朗普的公司再度出售大批比特币！

帕克·刘易斯解释为何比特币仍是最佳货币

比特币为何在美联储强硬暂停后守住 64,000 美元关口

ARK Invest公司凯西·伍德以683万美元购入约109,129股Circle股票

交易

熱門分類

熱門標籤