NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

marsbit发布于2026-06-18更新于2026-06-18

文章摘要

NVIDIA GEAR实验室推出名为ENPIRE的项目，首次让编程Agent在真实机器人硬件上实现了全自动化的研究闭环。系统部署了8个Codex Agent组成机器人舰队，在仅给定“高效安全完成任务”的简单目标后，人类基本退出干预。Agent自主管理整个流程：自动重置环境、搜索文献、编写并改进代码、训练和部署策略、分析日志并持续迭代，最终在系扎带、插针整理等高精度灵巧操作任务中达到了99%的成功率。项目核心是由环境、策略改进、策略评估和进化四个模块构成的闭环框架，将真实世界机器人学习转化为由Agent管理的优化过程。研究中的一个关键发现是，对许多任务而言，重置环境比完成任务本身更容易，因此系统优先让Agent构建自动重置能力。实验还观察到“物理规模定律”，即增加并行机器人数量能显著加快任务解决速度。例如，插针任务在8台机器人并行下，达到完美表现的时间从1.5小时以上缩短至约40分钟。团队为此提出了平均机器人利用率（MRU）和平均Token利用率（MTU）两个新指标，以量化资源效率。目前，部分系统已能彻夜无人干预运行，未来目标是实现实验室完全自主运作。该项目计划开源，使普通开发者也有机会搭建类似系统。

自动化研究,这一次真正走出代码沙盒,进入了真实的物理世界。

最近,NVIDIA GEAR 实验室负责人 Jim Fan 介绍了一个名为 ENPIRE 的最新项目。这是他们首次在机器人硬件上实现了自动化研究。

他们把 8 个 Codex Agent 放到一个机器人舰队里,分配好 GPU 算力和充足的 token 预算,只给出一个简单目标:尽快解决任务、让机器人保持忙碌但确保安全、不要浪费算力。

接下来人类就基本退出干预。Agent 自主驱动整个闭环,包括自动重置场景、搜索文献、实现想法并搭建基础设施、训练和部署策略、自我验证、分析日志并改代码,不断迭代,直到在真实硬件上可靠完成高精度灵巧任务,比如系扎带、插针盒整理、安装 GPU 等。

他们还观察到一种「物理 scaling law」,增加并行机器人数量(例如从少量增加到 8 个),能显著加快任务解决速度。

目前,该实验室的部分系统已实现彻夜无人类干预的自我迭代,研究人员仅需在早晨查看报告即可。

Jim Fan 称,未来目标是让团队成员安心休假,甚至连 NVIDIA CEO 黄仁勋都察觉不到实验室仍在自主运行。

ENPIRE 项目计划完全开源,届时普通开发者也有望在家中搭建类似的自主机器人研究系统。

项目地址:https://research.nvidia.com/labs/gear/enpire/

ENPIRE 系统架构:四个模块构成闭环

ENPIRE 是一个专为编码 Agent 设计的框架系统,通过四个核心模块构建可重复的物理反馈循环:环境模块(EN)负责自动重置和验证,策略改进模块(PI)启动策略优化,Rollout 模块(R)支持单台或多台机器人并行评估策略,进化模块(E)则让编码 Agent 分析日志、查阅文献、改进训练基础设施和算法代码以解决失败模式。

这一闭环系统将真实世界机器人学习转化为一个由 Agent 管理的、可控的优化过程,从而最大限度减少人工投入,同时支持在不同训练配方和 Agent 变体之间开展公平的消融实验。

在 ENPIRE 的支持下,前沿编程 Agent 能够自主开发策略,并在 PushT、将插针整理进针盒、使用切刀剪断扎带等具有挑战性的真实世界灵巧操作任务中,实现 99% 的成功率。

关键发现:重置环境比完成任务本身更容易

其中一个关键观察是:对许多机器人任务而言,重置环境往往比完成任务本身更容易。

因此,ENPIRE 的做法是,先让 Agent 通过 Code-as-Policy 构建自动重置环境。很多情况下,所谓重置其实就是一个 pick-and-place 任务,可以由 Cap-X 解决。

随后,智能体会编写基于启发式规则的奖励函数。研究团队再将该环境放入沙箱,并启动 Agent 围绕得分开展自动化研究。

这也呼应了 Karpathy 对自动化研究的定义:这里所说的自动化研究,并不是简单调一个超参数,或改动某一小段代码。Agent 会从互联网上探索不同范式,并重写一切可能推动性能提升的部分,包括算法、训练目标,甚至数据加载器。

在插针任务中,一个 Agent 甚至自行编写了接触力安全控制器,其效果超过了单纯调节若干强化学习参数。

新指标MRU与MTU

ENPIRE 的扩展能力取决于 Agent 团队规模和算力资源,只不过在这里,真正稀缺的资源不是 GPU,而是机器人时间。

当研究团队为 Agent 提供 8 台机器人,而不是 1 台机器人时,插针任务达到接近完美表现所需的时间,从 1.5 小时以上缩短到了约 40 分钟。这些 Agent 通过 Git 进行协调:共享代码、放弃不理想的想法,并自主地挑选彼此的最佳运行结果。

这指向了一个更大的变化:机器人研究正在变成一种环境设计工作,即为 coding Agent 搭建可以在其中进行自动化研究的环境;算法工作则上移到了更高一层,转向构建一种 Agent 能够自行闭合的反馈循环。

而这个循环会不断复利式累积:Agent 今天掌握的一项技能,明天就会成为构建并重置更困难任务环境的基础模块。能力会自举出新的能力。

在这一范式下,真正的硬约束是真实世界交互预算。

因此,研究团队提出了两个指标:

平均机器人利用率(Mean Robot Utilization,MRU):机器人实际运行实验的时间占总真实耗时的比例。
平均 Token 利用率(Mean Token Utilization,MTU):衡量 Agent 将 token 转化为研究进展的效率。

在他们的实验中,MRU 始终低于 50%。也就是说,机器人有一半时间都处于空闲状态,在等待 Agent 思考。因此,更好的 harness 和更快的模型,会直接转化为实际收益。

PushT 是一个沿用已久的机器人操作基准。通常,要完成这个任务,需要大量人类示范数据,再加上数小时的行为克隆训练。

但他们看到,Codex、Claude Code 和 Kimi Code 都用一套基于规则的启发式方法,在不到 2 小时内「解决」了这个任务:不使用神经网络,不进行训练,也不依赖任何人类数据。

为了让更多人能在家尝试物理世界中的自动化研究,他们基于 @LeRobotHF 的 SO-101 套件 + NVIDIA Jetson Thor 开发了一整套全栈系统。这套系统可以完成 PushT 任务。

参考链接:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:杨文

你可能也喜欢

CARDS 5.35 亿美元 FDV 的残酷真相：净收入仅 4300 万，利润率腰斩

《CARDS 项目5.35亿美元估值的残酷现实：净收入仅4300万，利润率持续腰斩》核心数据显示，Collector Crypt（CC）平台累计总收入达6.35亿美元，但其中超过90.6%的资金通过即时卡牌回购在几秒内返还给用户，平台实际净收入仅4300万美元，留存率低至6.7%。用户活动高度集中，每日仅约420名活跃玩家，且大部分交易量由极少数高频钱包贡献。平台旨在结合实体收藏卡的“收藏家经济”并未形成。二级市场交易总额不足500万美元，eBay等外部平台销售额占比连续六个季度下降，表明用户行为主要是快速开包与回购的“赌博”循环，而非收藏与交易。平台的商业模式面临结构性挑战。随着交易量向更高面额（如1000美元）卡包集中，其混合净利率已从11.2%腰斩至5.8%，增长以牺牲利润率为代价。代币CARDS的价值捕获能力极其有限。通过代币燃烧和回购流向代币的总价值仅为140万美元，仅占平台净收入的3.4%。与此同时，与运营相关的钱包已转出4570万美元USDC。目前约5.35亿美元的全流通估值（FDV）是其年化净收入的7.3倍，但该估值建立在利润持续压缩、用户基础窄且高度集中、以及72%代币供应由内部人士锁定至2027年底的基础上。

Foresight News11分钟前

CARDS 5.35 亿美元 FDV 的残酷真相：净收入仅 4300 万，利润率腰斩

Foresight News11分钟前

卡尔达诺 Van Rossum 升级随着治理阶段推进更接近主网

卡尔达诺（Cardano）的 Van Rossum 升级正深入其治理和准备阶段，ADA交易者密切关注网络能否顺利将该协议变更推向主网激活。此次升级是卡尔达诺后伏尔泰（Voltaire）时代的关键一步，其重要性在于测试链上治理流程的实际运作。Intersect的最新生态更新显示，升级已在PreProd测试网上成功实施，工作重点正转向主网准备。对于交易者而言，升级过程本身与市场反应密切相关。顺利的部署可能增强对项目路线的信心，而沟通不畅或延迟则可能在市场疲软时打击情绪。ADA的价格走势不仅取决于技术里程碑，也受制于更广泛的市场环境。目前最稳妥的解读是升级已取得显著进展，但市场应避免将每一步治理进展都视同主网最终完成。PreProd测试网的成功为开发者和生态参与者提供了重要演练，而主网激活才是更重要的里程碑。接下来，来自Intersect和卡尔达诺治理渠道的官方沟通至关重要，交易所和基础设施提供商也需要充分准备以降低风险。对卡尔达诺而言，最理想的结果是平稳执行：完成基础设施升级、获得治理确认、保障交易所准备就绪，且用户无重大中断。对于一个将治理作为核心身份的网络而言，证明此流程有效运行本身就是关键的催化剂。

bitcoinist18分钟前

bitcoinist18分钟前

BitTorrent 推出 BTTInferGrid：用于可扩展 AI 推理的去中心化基础设施层

BitTorrent推出BTTInferGrid：面向可扩展AI推理的去中心化基础设施层 BitTorrent近日宣布战略推出BTTInferGrid，这是一个专为AI推理构建的去中心化GPU计算网络。该平台通过聚合全球闲置的GPU算力，旨在连接日益增长的AI工作负载需求，为全球开发者提供一个开放访问、可验证安全且按需付费的计算基础设施。 AI行业正经历从模型训练到推理部署的根本性转变，未来超过70%的算力需求将来自推理环节。然而，传统中心化云服务面临三大瓶颈：需求波动导致资源配置僵化与高成本；GPU租赁价格飞涨抑制创新；全球大量碎片化的闲置算力无法被有效利用。 BTTInferGrid采用去中心化边缘计算架构和DePIN模式来破解这些难题： * **供应端**：整合零散的闲置GPU资源，通过代币激励让硬件提供者将其转化为可产生收益的资产。 * **需求端**：为AI开发者提供成本更低、可扩展的按需推理服务，显著降低中小团队的进入门槛。该平台的核心优势包括：极低的准入门槛以实现快速GPU聚合；利用区块链技术进行任务验证和信誉评分，确保服务可靠与防篡改；以及建立在真实AI需求驱动之上的可持续经济模型。 BTTInferGrid的发展路线图将分三阶段进行：2026年启动网络并验证服务；2027年加强网络并扩展支持更多AI模型架构；2028年及以后，致力于成为Web3原生的基础AI设施层。平台基于久经考验的BitTorrent和BTFS（BitTorrent文件系统）构建，继承了其在大规模去中心化资源调度方面的成熟经验，旨在为去中心化AI时代提供基础性的算力支撑。

TheNewsCrypto47分钟前

BitTorrent 推出 BTTInferGrid：用于可扩展 AI 推理的去中心化基础设施层

TheNewsCrypto47分钟前

年化 15%-25%，贝莱德比特币收益 ETF 是机遇还是陷阱？

贝莱德推出比特币收益ETF（BITA），目标在捕获比特币至少70%上涨潜力的同时，实现15-25%的年化收益率。该产品基于其现货比特币基金IBIT，通过卖出备兑看涨期权赚取权利金，为投资者提供现金分红，但会限制比特币大幅上涨时的收益。支持者认为，该产品能将追求收益的资金转化为比特币需求，助推价格上涨，并引用机构资金流入和对比特币减半周期、未来高价的乐观预测作为依据。反对者则警告，这可能是“收益陷阱”：产品收益依赖金融工程，不增加比特币实际需求，反而可能分流现货资金，且投资者上涨空间受限，下跌风险完全暴露。此外，大量比特币集中于ETF也可能背离加密资产“自我托管”的原生理念。市场影响的关键在于BITA能否带来新增资金。若其与IBIT持续吸引资金流入，或表明机构买盘扎实；若仅分流现有资金，则空头观点可能被印证。当前比特币价位虽与2021年历史高点接近，但多空双方对市场所处阶段的判断截然不同。

Foresight News48分钟前

Foresight News48分钟前

Gate 研究院：交易形态分析与突破交易策略

本文系统介绍了技术分析中的图表形态与突破交易策略。形态分析是观察市场供需变化、判断趋势延续或反转的重要工具，其核心在于综合评估趋势、成交量、支撑阻力、时间周期和突破有效性，而非机械记忆图形。形态主要分为反转形态（如双顶/底、头肩顶/底）和持续形态（如旗形、三角形、矩形）。文章详细阐述了矩形、旗形、三角旗形、对称三角形、上升/下降三角形及头肩顶/底等常见形态的特征与市场含义。有效突破需具备明确支撑/阻力、充分整理、趋势背景及成交量确认等条件。突破交易策略涵盖入场、止损、止盈与持仓管理，强调风险管理的重要性，并区分了有效突破、回踩型突破与假突破三种情形。成交量、支撑阻力转换及动量指标（如ATR、MA、布林带、RSI）是验证突破有效性的关键工具。最后总结指出，形态分析应作为交易系统的一环，结合多重因素共振进行决策，并通过严格的仓位与风险管理来提升交易稳健性。

marsbit1小时前

交易

现货

合约