国内首张防爆资质、全球首个加油大脑方案，他们凭什么拿下两个“第一”

marsbit发布于2026-06-26更新于2026-06-26

文章摘要

据统计，今年国内具身智能领域融资总额已突破370亿元，行业正进入商业化落地的关键阶段。然而，如何让机器人真正进入加油站、油气场站等易燃易爆的高危场景，是首要挑战。这些场景要求机器人必须通过严苛的防爆认证，确保其硬件在设计上杜绝任何点火风险。在加油站场景中，机器人需要完成一系列精细连贯的操作，如开盖、取枪、加油、归位等，且需适应不同车型的差异。而在场站巡检场景，则要求机器人具备长时间自主巡逻、多异常识别和即时响应的综合能力。此外，港口等多机器人协同场景也对系统架构提出了更高要求。目前多数具身智能系统采用“流水线式”架构，在复杂长序列任务中容易因微小偏差导致连锁失败。为解决这一问题，前沿研究提出了世界模型驱动的预测方法，例如H-GAR架构。该框架通过“生成目标观测—合成中间过渡帧—交互感知动作精炼”三步，让机器人在执行前就能预测任务终态并规划完整视觉轨迹，从而实现“终态对齐”，显著提升长序列操作的稳定性和容错性。实现特种场景落地需要“大脑”（智能算法）与“本体”（机械硬件）的深度耦合，以及从底层设计满足防爆等安全要求。随着行业加速商业化，那些能率先跑通“大脑-本体-数据”闭环的企业，将在竞争中占据先机。

据统计,今年国内具身智能领域融资总额已突破370亿元。

工信部与国务院国资委联合启动「人形机器人与具身智能实景实训专项行动」,央广网直接把今年定义为「商业化落地关键年」。一级市场的钱、二级市场的故事,全都在喊同一个方向:落地、落地、落地。

但问题来了,具身智能到底应该怎么落地?

大家都比较认可的观点是,具身智能应该去攻克人类做不到的事,应该去替代人类做一些高危、繁重、重复,人不想干也不该干的活。

6月22日,第四届中国国际供应链促进博览会在北京开幕,首次设立人工智能专区。

但想法归想法,要让机器人真正「进得去」这些场景,第一道关卡就足够劝退大多数公司:防爆认证。

在加油站、油气场站、化工厂等易燃易爆环境中,机器人自身绝对不能成为潜在的点火源。这对产品硬件在设计之初就提出了极其严苛的要求。比如说:从电路层面就要做本质安全设计,限制回路能量,确保即便发生故障也不足以引燃环境气体;机械结构要满足隔爆要求,承受内部爆炸而不损坏外壳;所有连接点要做增安处理,防止正常运行中产生火花风险;关键部件还要通过浇封手段隔绝危险接触等等。

具身智能能去哪里

这个场景对机器人的挑战集中在「精细操作的连贯性」上。车主下单后,机器人要连续完成十多个动作:掀外盖、拧内盖、从枪座上摘下油枪、瞄准油口插入、等待加满、拔枪、挂回枪座、盖内盖、合外盖。每个动作的容差只有几毫米,任何一步卡住都意味着整条链中断。而且不同车型的油箱位置、盖板结构、开启方式千差万别,机器人不可能靠固定程序跑通所有情况。

场站巡检的痛点和加油站完全不同。加油站考验的是精细操作,场站考验的是「长时间自主巡逻+多种异常识别+现场即时响应」的综合能力。巡检员每天走固定路线,这份工作枯燥、危险,而且对注意力的要求极高,人连续巡检几个小时后遗漏率会显著上升。

港口场景:多机器人协同的探索

这个场景最特殊的地方在于,它天然需要多台机器人协同。

目前大多数具身智能系统的架构是「流水线式」的,视觉模块负责看,语言模块负责理解,动作模块负责执行。

这种架构处理短序列、低干扰的简单任务还行,一旦遇到十几步连续操作、环境高度动态、容错率极低的场景,中间任何一步的微小偏差都会像多米诺骨牌一样向后传导。传统流水线架构在这种量级的任务面前,几乎不可能保证端到端的稳定性。

世界模型驱动的预测能力

在加油站场景中,具身智能面对的任务链极长:停车引导、识别油箱位置、开外盖、开内盖、取枪、对准油口、插入、加注、拔出、收枪、关内盖、关外盖。任何一步的微小偏差都会向后传导。

这种能力在长序列任务中尤其关键。加油不是一个「抓取-放置」的简单操作,它是一整条有前后因果关系的动作链。世界模型让具身智能具备了「看三步走一步」的前瞻能力。

用一个比喻来理解:一个老司机加油,不管油箱盖开得顺不顺利,脑子里始终清楚最终要达到什么状态,中间的每一步都围绕这个终态来调整。让具身智能从「线性执行」变为「终态对齐」。

第一,生成目标观测。系统接收到任务指令和当前摄像头画面后,先去预测「任务完成后,世界应该变成什么样」。例如加油任务结束后,油枪应该归位、油箱盖应该合上。这个预测出来的「终态画面」就是目标观测,它为后续所有推理过程提供了一个明确的语义锚点。

第二,合成中间过渡帧。有了目标之后,系统再倒推中间应该经历哪些视觉状态。如果起点是「油箱盖关着」、终点是「油枪归位、油箱盖合上」,那中间就需要依次出现「油箱盖打开」「油枪取出」「油枪插入油口」等过渡画面。这些合成出来的中间观测帧,为动作生成提供了逐步对齐的视觉参考。

这套机制让机器人在动手之前就对整个任务过程有了完整的视觉想象,后续的动作规划都围绕这条「想象的轨迹」展开,从而大幅降低了长序列执行中的累积偏差。

(a)现有方法通常采用目标无关、整体式的预测范式。(b)H-GAR引入了目标条件观测合成器和交互感知动作优化器,从而实现了以目标为锚定的预测,并显式建模观测与动作之间的交互。

具体而言,H-GAR的工作流程分为三步:

H-GAR架构图

第一步:粗粒度动作草案。基于历史画面和任务指令,系统首先生成一组粗略的动作序列。这些动作描述了一条从当前状态到目标的「大致路径」,类似于人类加油时脑子里的粗略计划,知道大概要做哪些步骤,是执行前的准备。
第二步:目标条件观测合成(GOS模块)。拿到粗粒度动作后,系统在目标观测的引导下合成中间视觉帧。这一步的关键在于:合成的画面不是随便生成的,而是同时受到目标终态和粗动作的双重约束。这确保了中间过渡帧既符合动作逻辑,又对齐了最终目标。
第三步:交互感知动作精炼(IAAR模块)。最后一步将粗动作升级为精细的可执行指令。IAAR从两个方向获取反馈来精炼动作:一是中间观测帧提供的视觉上下文,让动作与实际场景对齐;二是历史动作记忆库,它记录了此前执行过的精细动作,确保当前生成的动作与历史轨迹保持时序一致性。当记忆库超过容量阈值时,系统采用相似度淘汰策略,合并最相似的相邻动作来保持记忆多样性。

论文地址:https://arxiv.org/pdf/2511.17079

真实场景里意外几乎是常态。油箱盖可能打开角度不对,车主停车位置可能偏移预期,甚至油口周围可能有异物遮挡。在实验室里一百次能成功九十九次的动作,放到户外真实环境可能打个七折。

尾声:知行合一

让具身智能走向特种场景,是一件需要有长期主义精神的事情。

要进入特种行业,机械结构设计必须从底层考虑安全性,必须要有研发具身本体的能力。而在特殊场景下执行任务,具身大脑更是不可或缺。大脑与本体的深度耦合已经超越了加分项,它就是准入条件。

当具身智能行业集体站在商业化落地的十字路口,那些最早跑通「大脑-本体-数据」闭环的玩家,大概率会在接下来的竞争中占据先手。

本文来自微信公众号: 机器之心 ,编辑:冷猫,作者:关注具身智能的,原文标题:《国内首张防爆资质、全球首个加油大脑方案,他们凭什么拿下两个「第一」》

你可能也喜欢

邢波再出手：上次「骂」完世界模型，这次轮到智能体了

邢波教授继去年批评世界模型后，近日与合作者发表新论文《智能体模型批评》，对当前被滥用的“智能体”概念提出系统性质疑与重构方案。论文尖锐指出，目前众多被称为“智能体”的系统（如编程助手、客服机器人）大多只具备“智能体外观”（agentic），而非真正的“能动性”（agentive）。前者能力依赖于外部预设的工具链和提示词，模型仅是嵌入流程的零件；后者的决策和目标则内生于系统自身。论文以“工卡员工”和“感应灯”为例，说明任务复杂度不同并非自主性的本质区别。基于此，论文从五个维度拆解主流智能体设计的不足，并提出了对应的“重建”思路： 1. **目标**：应从人类逐步喂指令，转变为一次性给予长期目标，由系统自主进行可调整的分层目标分解。 2. **身份**：自我认知不应固化于提示词，而应成为能根据经验持续演化的“活的自我评估”。 3. **决策方式**：驳斥仅靠延长思维链文字就能规划的观点，主张采用“模拟式推理”，即借助世界模型预测行动后果，再选择最优方案。 4. **节奏判断**：批评固定规划深度的做法，提出需引入独立的“元认知模块”（称为System III），让智能体自行判断何时该深思或速断。 5. **学习**：主张“持续自主学习”，让智能体自主决定何时在真实世界行动、何时退回模拟器训练、何时更新认知。为整合这些原则，团队提出了具体架构GIC（Goal-Identity-Configurator），包含信念编码器、目标分解器、身份演化器、配置器（System III）、模拟规划器（System II）和执行器（System I）六个组件，并以飞行员训练过程类比其成长路径。论文最后讨论了安全性，认为GIC架构通过将目标、身份、决策等模块显式化、可审查化，使安全问题变得可诊断、可修正，而非承诺绝对不出错。其核心论点是：真正的自主性不在于任务复杂度，而在于目标、身份与判断力是否内化于模型自身。当前大多数“智能体”可能仍停留在精准执行外部指令的阶段，而非真正理解与自主决策。

marsbit19分钟前

marsbit19分钟前

Collector Crypt 如何用「循环买回」制造增长幻觉

《Collector Crypt 如何用「循环买回」制造增长幻觉》摘要文章分析指出，Collector Crypt（CC）表面上是通过链上卡包抽卡推动增长，但其核心模式依赖“循环买回”——用户购买卡包后立即以约93%的价格卖回给平台，资金得以循环，从而快速推高GMV（商品交易总额）。然而，这种增长存在幻觉。数据显示，CC的净利率已从2025年第三季度的11.2%腰斩至2026年第二季度的5.6%。GMV的增长主要来自高价位卡包（如250美元、1000美元和2500美元档位），但这些卡包为平台带来的每美元留存率反而更低。增长主要由少数高频、大额消费的钱包驱动，而非广泛用户基础扩大。同时，实体卡牌赎回消耗了大量利润。2026年5月，赎回成本消耗了该月平台预烧净收入的41.6%。而且赎回活动高度集中，6月仅75个钱包执行了赎回，其中前四大用户就占了近一半。赎回使卡牌永久离开平台库存，迫使CC以可能更高的市场成本重新采购，增加了运营压力。面对GameStop等强大竞争对手进入同一市场、评级成本上升等压力，CC的经济模型显得脆弱。其B2B合作伙伴策略目前也未能带来可持续的订阅式收入，大部分整合仍将库存和履约负担留在CC身上。结论认为，CC需要证明其能吸引更广泛的收藏者、建立更深的二级市场，并使链上所有权真正创造价值，而非仅仅依赖“循环买回”来制造GMV增长的表面繁荣。

Foresight News42分钟前

Polygon今年销毁超1.07亿枚POL——为何其价格仍在暴跌？

Polygon（POL）在2026年已销毁超过1.07亿枚POL代币，网络活动强劲，5月稳定币支付量达1.98亿笔，甚至超过Solana等网络。尽管销毁量高于新增铸造量，使供应呈净通缩，且有大额质押和鲸鱼转账显示信心，但POL价格近期仍跌破0.07161美元支撑位，目前交易于0.06948美元附近。价格疲软主要源于技术面弱势：自2024年底以来持续下跌，并进入三角整理形态，卖压显著，累计成交量差（CVD）显示已有67万POL被抛售至交易所。因此，尽管基本面改善，技术性抛售仍导致价格停滞。

ambcrypto43分钟前

ambcrypto43分钟前

灰度最新研究：Solana 的下一个增长引擎是什么？

灰度最新发布研究报告《Solana：加密金融集市》，重新评估Solana的价值逻辑。报告指出，Solana正从单纯的高性能公链演变为承载大规模经济活动的应用平台。公链竞争的核心已从比拼TPS转向比拼真实经济活动。报告重点分析了三个代表性应用：Jupiter作为DeFi流动性枢纽；Pump.fun虽具Meme属性，但验证了吸引海量用户和创造稳定收入的能力；Helium等DePIN项目则连接现实世界基础设施，拓宽应用边界。这三者共同勾勒出Solana通过金融、消费应用和实体连接实现增长的新路径。Solana基金会近期也强调将重点发展AI Agent支付、稳定币、现实世界资产（RWA）和资产代币化等方向，旨在构建长期、可持续的增长模型。机构重新关注Solana，源于其应用层商业模式逐渐成熟、支付生态完善及开发者生态保持活跃。然而，Solana仍面临价值捕获、生态可持续性及与其他公链竞争等挑战。未来，其长期价值将取决于能否持续吸引开发者和用户，并孕育出更多具有网络效应和商业价值的应用。

marsbit1小时前

marsbit1小时前

为了赚这笔钱，他们等了7年

多家支付和科技巨头（Visa、Stripe、万事达、Coinbase、BlackRock等）宣布组建联盟，计划推出名为“Open USD”的美元稳定币，并将储备收益分给采用该币的公司。此举直接冲击了稳定币公司Circle的商业模式，因其主要收入依赖USDC储备资产的利息，导致其股价单日大跌近20%。这让人想起2019年Facebook主导的Libra项目。当时，类似的巨头联盟试图创建全球数字货币，但因监管压力、Facebook形象问题及联盟内部分歧而失败。然而，Libra的愿景并未消失。七年间，监管框架（如美国GENIUS法案）逐渐明晰，公链等基础设施成熟，支付公司也已积累相关经验。Open USD的叙事更为收敛，聚焦于合规的美元稳定币和企业结算管道，不再像Libra那样充满宏大但敏感的全球金融变革野心。不过，联盟模式固有的行动缓慢、利益协调困难等挑战依然存在。稳定币的成功关键在于建立流动性、信任和用户习惯，而非一纸华丽的成员名单。Open USD短期内更可能在企业间支付和特定链上场景中取得进展，而非迅速取代USDC。对Circle而言，市场正在重新评估其价值：它从“稳定币时代的稀缺门票”被拉回至“众多发行方之一”的竞争现实，其依赖单一收入模型（储备利息）和外部合作伙伴分发的脆弱性因此暴露。Open USD的出现，标志着稳定币领域从早期探索进入巨头合规入场、竞争加剧的新阶段。

marsbit1小时前