从代码到认知:机器人大脑进化的万字指南

marsbit发布于2026-06-07更新于2026-06-07

文章摘要

本文概述了机器人大脑从传统代码控制到现代人工智能模型驱动的演进历程。文章首先回顾了前大型语言模型(LLM)时代,机器人依赖手工编码的模块化技术栈(感知、状态估计、规划、控制)和行为树,虽稳定但泛化能力差。随后,深度学习改进了感知,强化学习和模仿学习进入了控制层,但策略仍较为狭窄。 ChatGPT的出现带来了转折。LLM最初被用作自然语言编译器,将指令转化为机器人可执行的原子技能序列(如谷歌的SayCan)。但更重要的突破是视觉-语言-动作模型(VLA),例如谷歌的RT-2和开源的OpenVLA,它能将视觉、语言信息融合,直接输出动作指令,实现了推理与行动的耦合。 目前最先进的系统采用“双脑”架构(如Figure AI的Helix、NVIDIA GR00T):一个慢速、参数多的“系统2”负责高层次推理和规划;一个快速、小巧的“系统1”负责高频动作生成。其下还可能有一个“系统0”反射层处理平衡等底层控制。出于延迟和可靠性考虑,安全关键的控制回路通常在机器人本地(如NVIDIA Jetson模块)运行,而对话界面和集群学习等任务可交由云端。 开源模型(如OpenVLA、GR00T、π0)降低了行业门槛,让初创公司能在其基础上用自有数据微调。然而,当前VLA机器人仍存在任务中途恢复能力弱、样本效率低、缺乏物理常识和长期规划能力等局限。 这催生了下一代方向:世界模型。这类模型(如NVIDIA Cosmos、Meta V-JEPA)能根据当前状态和动作预测未来结果,让机器人在行动前进行模拟和评估,从而改善恢复能力、泛化能力和长期规划。架构上主要分为像素级视频扩散、联合嵌入预测架构(JEPA)和潜在动作世界模型等流派。 文章最后指出,数据采集(特别是远程操作数据)是核心竞争力,仿真训练至关重要,机器人成本正在迅速下降。当前物理AI的发展阶段大约相当于“GPT-2时代”,虽未完全自主,但正通过架构的持续演进(从代码到感知、规划、策略,最终到世界模型),朝着更通用、更强大的方向稳步前进。

作者:Matt White, Linux Foundation 全球 AI 首席技术官

编译:Felix, PANews

王兴兴(宇树科技 CEO)与 Matt White

几周前在上海的时候,一位一起旅行的朋友(一位聪明、平时会看新闻和观察事物,但不怎么了解机器人技术),在晚餐时问了整个旅程中一直期待的问题。

“我们看到的到处跑的机器狗,在宇树办公室演示舞台上表演功夫的人形机器人,还有我们看到的叠衣服的机械臂。它们是怎么做到的?它们是由大型语言模型(LLM)驱动的吗?这到底是怎么运作的?是不是有某种语言模型在控制它们的动作?”

这是一个很好的问题,坦白说:某种程度上是这样,但真实的故事远比这有趣。你在社交媒体上看到的机器人并非穿着金属外壳的 ChatGPT。它们运行着一套技术栈(多层 AI 协同工作)。这套技术栈在过去三年里的变化比过去三十年还要大。语言模型是其中的一部分。视觉模型、动作模型、行为树、经典控制回路,以及一种名为“世界模型”的新兴系统家族,也都是其中的重要组成部分。而“世界模型”或许是所有发展中最重要的一项。

这是一篇长文,会从头说起,然后逐步讲述每一次重大变革,最终到达现在所处的阶段:机器人不仅能够对世界做出反应,还能想象世界。

一:前 LLM 时代 :当机器人还只是软件的时候

几十年来,制造机器人意味着编写大量代码,而且几乎所有这些代码都不需要学习。

经典的工业机器人是由精心设计的模块堆叠而成的塔状结构。比如上世纪 90 年代焊接丰田底盘的橙色机械臂,或者 2000 年代初波士顿动力公司的 BigDog。

  • 感知:过滤摄像机画面,进行边缘检测,利用几何匹配识别工件位置。
  • 状态估计:结合轮式编码器、陀螺仪和加速度计(传感器融合)来确定机器人的位置和移动速度。
  • 规划:给定目标姿态,使用 A* 或 RRT 等算法在已知地图中计算出一条无碰撞的路径。
  • 控制:在最底层,PID控制器每秒成百上千次地调整电机扭矩以遵循该路径。

这些层级通常由不同实验室的不同人员编写,并经过极其细致的拼接而成。行为(例如“如果杯子是红色的就拿起来,否则等待”)被编码为状态机或行为树:即机器人逐步执行的流程图。

这种方法的优势显而易见。它具有可预测性,符合安全标准。这就是为什么你的汽车配备了有效的 ABS 防抱死制动系统。

缺点同样显而易见。这样的机器人只能在工程师预想的场景下才能发挥其智能水平。一旦把它放到新的工厂、新的光照条件或新的杯子颜色中,它就会崩溃。它的泛化能力几乎为零。

二:机器学习悄然介入

在 2010 年代,深度学习开始着手解决感知层的问题。那些在 ImageNet 图像分类任务中击败人类的卷积神经网络(CNN),可以被重新训练,用于检测物体上的抓握点、分割房间内的家具,或者识别人的姿态。突然之间,位于技术栈顶端的“感知”层不再需要人工设计,你可以直接对其进行训练。

随后,学习机制蔓延到了“控制”层。伯克利大学、DeepMind 和 OpenAI 的研究人员表明,强化学习(让机器人智能体在模拟环境中尝试数百万次并强化有效行为)可以产生令人惊讶的娴熟步态、手部物体操作(OpenAI 在 2019 年单手解魔方是一个里程碑),以及适应不同地形的运动策略。

另一个并行的研究方向是模仿学习,通常被称为行为克隆:记录人类遥控机器人完成某项任务的几百次尝试,然后训练神经网络来预测人类根据机器人所观察到的情况会采取什么行动。

这一切的关键在于:每个学习到的策略都过于狭窄。训练一个网络去捡起一个红色积木,它就不知道该如何处理一个黄色杯子。训练它在草地上行走,它却会摔倒在瓷砖地上。泛化能力仍是亟待解决的难题。

值得一提的是,这一时期出现了一个基础架构,它至今仍支撑着几乎所有的东西:ROS,机器人操作系统(首次发布于 2007 年 11 月)。ROS 并不是 Windows 或 Linux 意义上的操作系统,而是一个中间件框架,一种通用的机器人管道系统。它允许“摄像头节点”、“导航节点”、“机械臂控制器节点”以及其他数十个节点通过共享总线发布和订阅消息。

当前版本 ROS2 运行于全球绝大多数科研和商用机器人的底层,从斯坦福大学的实验室到中国的人形机器人初创公司,无一例外。人们谈论机器人的“操作系统”时,几乎总是指 ROS2 加上其上运行的各种感知、规划和控制软件包。

ROS2:它不是操作系统,而是让独立的机器人软件相互通信的通用管道

三:LLM 在机器人领域的应用

接着,ChatGPT 诞生了。

突然间有了这样一个东西:LLM。它能够阅读简单的英语指令,进行多步骤推理,编写代码并调用函数。机器人专家几乎立刻意识到,这正是他们多年来一直在努力解决的缺失环节。让机器人在家庭或办公室里完成一些有用的任务,最难的部分通常不是电机控制,而是人机交互:人如何告诉机器人做什么,以及机器人如何将这个目标分解成它已经知道如何执行的原子动作?

第一波将 LLM 应用于机器人的工作,是将语言模型视为位于 ROS 之上的一种自然语言编译器。模式如下:

  1. 用户用英语说:“把厨房台面上的咖啡杯拿来,放到我的桌子上。”

  2. LLM 根据机器人可用原子技能列表生成计划:可以是函数调用序列、状态机,也可以是用 XML 编写的行为树。

  3. ROS2 节点会逐步执行该计划。如果某个步骤失败,则会将失败信息报告给 LLM,以便 LLM 重新规划。

谷歌 2022 年的 SayCan 项目是这一理念的一个非常简洁的版本:LLM 提出技能,一个独立的“可供性”模型评估每个技能当前成功的可能性,机器人选择联合得分最高的技能组合。华为研究实验室主导的 ROS-LLM、ROSGPT 和 ROSA 等开放框架推广了这种模式。

这的确是一项意义重大的飞跃。突然间,你可以告诉机器人“清理桌子,把可回收物放进蓝色垃圾桶”,它就会尝试执行一些合理的操作。但请注意,这里仍然存在一些问题:语言模型仍处于规划层。实际的动作指令仍由底层那些经过精心设计或专门训练的控制器生成。语言模型只是一个智能调度器,它并不负责驱动。

四:视觉-语言-动作模型(VLA),当大脑开始驱动机器人

Keenon XMAN-R1 机器人正在北京 Galbot 公司的自动化药房中从货架上取药。只需 10 万美元

下一次飞跃更艰难,也更重要。研究人员提出了一个更具雄心的问题:如果模型不仅能进行规划,还能直接生成动作指令呢?如果将摄像头图像和语言指令直接输入到一个神经网络中,然后就能得到下一毫秒的关节运动呢?

这就是视觉-语言-动作模型(VLA)。它现在是人形机器人和四足机器人领域的主流范式。

首个广为人知的视觉语言机器人是谷歌 DeepMind 于 2023 年推出的 RT-2。其巧妙之处在于:使用一个大型视觉语言模型(该模型已训练用于图像描述和问题解答),并继续使用机器人演示数据对其进行训练,但将机器人动作视为另一种需要预测的标记。同一个神经网络原本可以输出“猫坐在垫子上”,现在却可以输出一系列标记,编码“将右爪向前移动3厘米,合拢爪子,抬起5厘米”。推理和行动都在同一个模型中完成。

随后,在 2024 年中期,一个由斯坦福大学领导的团队发布了 OpenVLA ,这是一个拥有 70 亿参数的开源 VLA 模型,它基于 Open X-Embodiment 数据集进行训练。该数据集汇集了来自 21 个不同研究实验室、涵盖 22 种不同机器人身体的超过一百万个训练片段。这是谷歌以外的人首次可以下载通用机器人模型并开始进行修改。它一夜之间改变了整个领域。

如今,领先的 VLA 虽然数量不多,但发展迅速:

  • 来自 Physical Intelligence 的 π0 和 π0.5:出色的任务适应性。
  • NVIDIA Isaac GR00T N1.7:开放权重,商业授权,专为人形机器人设计,是大多数中国硬件公司目前正在使用其自身数据进行后训练的模型。
  • Figure AI 的 Helix 和更新的 Helix-02:专有技术,但在架构上非常重要。
  • AgiBot 的 Genie Envisioner:基于中国世界模型的平台。
  • SmolVLA、NORA、ACoT-VLA、CogACT:学术界涌现出越来越多的 VLA,它们探索着不同的设计方向。

VLA 的工作原理(不涉及数学公式)

可以将 VLA 想象成将三路输入信号融合为一路输出信号。

第一个数据流是视觉数据。RGB 摄像头(有时是深度传感器或激光雷达),有时是指尖上的触觉传感器,由视觉编码器(通常是像 DINOv2 或 SigLIP 这样的 Transformer 模型)进行处理,该编码器将每张图像压缩成几百个“视觉 token”,概括机器人所看到的内容。

第二个数据流是语言。你的指令(“把螺丝刀递给我”)就像在 ChatGPT 中一样被转换为 token。

这两个数据流被连接起来,并输入到一个 Transformer“主干”(通常是像 Qwen3 或 Llama 这样的小型开源语言模型)。这个主干负责推理,将它看到的信息与它被询问的信息结合起来。

第三个数据流:行动,从另一端流出。这里是各种架构设计产生分歧的地方:

  • 离散动作 token:模型直接生成可解码为关节角度或末端执行器位置的token,就像 ChatGPT 生成单词一样。这种方式简单,但在高频运行时会产生卡顿。
  • 扩散或流匹配(flow-matching)动作头:一个独立的微型网络接收主干的输出,并去噪生成一条平滑的关节位置轨迹,就像图像扩散模型一样,只不过生成的是运动。这就是 π0 的做法,产生的动作更平滑、更自然。
  • 动作分块:不预测下一个单一指令,而是一次性预测接下来半秒钟的指令集,从而平滑掉抖动。

在 VLA 模型中:两个输入流输入,运动指令输出,推理和行动融合在一个网络中。

这就是至关重要的架构转变:推理和行动不再分离。教会神经网络识别杯子,也教会了它如何抓取杯子。正是这种耦合使得 VLA 能够进行泛化,而它们的前身却无法做到。

五:双脑策略,LLM 和 VLA 如何协同工作

这里有一个营销中很少明确解释的细节。如今性能最佳的人形机器人并非运行单一的 VLA 系统,而是运行两个速度不同的模型,彼此通信。这有时被称为双系统或系统 1 / 系统 2 架构,借鉴自 Daniel Kahneman 的心理学框架,该框架认为人类拥有一个快速的直觉大脑和一个缓慢的深思熟虑的思考大脑。

Figure AI 的 Helix 让这种设计成为经典,现在它(及其变体)几乎被到处效仿。尤其重要的是,NVIDIA 的 GR00T N1.7 采用了这种设计,大多数中国人形机器人也采用了这种设计。其结构如下:

  • 系统 2(S2):慢思考大脑。 一个拥有 70 亿参数的视觉-语言模型,运行频率约为 7–9 Hz(即每秒 7 到 9 次)。它的工作是观察场景,解析指令,进行多步推理(如,“碗在麦片盒后面;我需要先移开盒子”),并发出高层次意图——通常是一组紧凑的内部向量,而不是文字本身。
  • 系统1(S1):快反应大脑。 一个小得多(约 8000 万参数)的视觉运动策略模型,运行频率为 200 Hz。它接收 S2 的意图向量加上最新的传感器数据,输出连续的关节指令。它没有任何实际意义上的“思考”,只是做出反应。

最近,Figure 公司的 Helix-02 增加了一个系统 0 (System 0 )。它位于双脑系统之下,是一个反射层,而非第三认知层。这是一个拥有 1000 万个参数、运行频率为 1 kHz 的网络,负责处理底层的平衡和全身协调,用神经控制器取代了超过十万行的手写运动控制 C++ 代码。你可以把 S0 想象成一条后天习得的脊髓:它不进行推理或计划,只是负责保持身体直立和协调,而思考则由上方的双脑系统完成。

现代人形机器人的双脑架构:系统 2 思考缓慢,系统 1 反应迅速——其下方还有一个系统 0 反射层,用于保持平衡、触觉接触和全身协调

这种划分源于物理学的限制。如果每 200 毫秒(这是一个大型 VLA 的运行速度)才发出一次运动指令,机器人的动作会像在水下移动一样迟缓。运动指令的更新速度必须快于它所控制关节的自然振荡,这意味着每秒需要成百上千次更新。没有任何一个 70 亿参数的 Transformer 模型能在电池驱动的机器人上跑得这么快。

因此,认知任务被分工:庞大而缓慢的模型负责思考;小巧而快速的模型负责行动。它们并非用英语交流,而是通过学习到的潜在向量进行沟通:缓慢的模型发出抽象的目标,而快速的模型则知道如何解读它。

六:云、边缘计算以及“大脑”的放置问题

所有这些计算究竟在哪里进行?

如今,机器人团队之间几乎形成了一种强烈的、近乎意识形态的共识,即攸关安全的核心控制回路必须在本地运行。原因有二:

延迟。WiFi 或蜂窝网络的往返传输时间,乐观估计也有 30-80 毫秒。而动作指令需要每 1-5 毫秒更新一次。这样的网络循环根本无法正常运行。

可靠性。 机器人在工厂、仓库、厨房、医院等场所运作。网络随时可能掉线。如果一断 Wi-Fi 机器人就停摆,那它将成为一种安全隐患。

所以,现代的划分大致如下:

板载(本地),运行在类似 NVIDIA Jetson Thor 或 AGX Thor 模块(约 2,000 TFLOPS,128 GB 内存,40–130 W 功耗)的设备上:

  • S0/S1 的所有功能:平衡、运动、精细动作控制。
  • VLA 本身(系统 2),为了适应硬件限制,越来越多地被量化到 FP8 或 FP4 格式。如今 20 亿到 70 亿参数范围的模型可以在设备端运行。
  • 感知、传感器融合,以及可以覆盖任何其他操作的安全监控程序。

云端或远程服务器(如果存在的话):

  • 对话式界面(“嘿,机器人,我晚饭该做什么?”):这些界面可以容忍延迟。
  • 集群学习:数千台机器人将远程操作数据发送回服务器,以便汇总到下一版本模型中。
  • 需要进行大规模的长期规划,可能会采用前沿规模模型。
  • 操作员仪表盘和监控。

此外,还有一个日益壮大的中间层:位于工厂或仓库中的本地边缘服务器,它们通过本地网络与机器人集群通信,延迟仅为个位数毫秒级。更大型的 LLM 可能就部署在这个层级,负责执行单个机器人无需自行管理的高级调度任务。

中国的人形机器人浪潮正是基于这一假设而构建的:宇树(Unitree)、智元(AgiBot)、小鹏 IRON、傅利叶(Fourier)、逐际动力(EngineAI)。它们的机器人配备了板载计算能力(通常是 Jetson,有时也使用华为 Ascend 等国产芯片),而云端则用于集群学习和对话界面,而非控制回路。

机器人大脑实际运行的位置:安全关键回路在本地运行,云端用于处理可以等待的事情

七:为什么开源模型悄然成为焦点

如果只看演示,你可能会认为这个领域是由少数几家资金雄厚的美国公司主导的。但事实远比这复杂。物理 AI 的发展速度在很大程度上是由任何人都可以下载和微调的开源权重模型决定的。

以下列举的模型虽不多,但意义重大:

  • OpenVLA(斯坦福大学):首个开源的 7B 通用机器人模型。
  • NVIDIA Isaac GR00T(N1、N1.5、N1.7):开源权重即将推出,商业授权也即将上线,该模型基于数万小时的人类自我中心视频进行训练。GR00T N1.7 于 2026 年 3 月发布,届时任何拥有人形机器人的用户都可以免费使用其双系统架构。
  • Physical Intelligence 的 π0:发布用于研究的权重。
  • NVIDIA Cosmos:开放世界基础模型。
  • AgiBot World:来自上海初创公司的庞大开源数据集,包含远程操控人形机器人的演示。
  • Hugging Face 的 LeRobot:一个开放的库,已成为上述所有平台的汇聚之地。
  • Mimic robotics 的 mimic-video:一种开源的视频-动作模型,其样本效率比传统 VLA 高出 10 倍。

之所以重要,有两个原因。首先,机器人初创公司不必再花费数千万美元来预训练一个基础模型:它们可以拿着 GR00T 或 π0,然后用自己机器人的数据对其进行后训练。宇树、逐际动力、Booster、Galbot 以及几十家规模较小的中国公司正是这样做的。这就是为什么一家只有几百名员工的公司,也能出产出能走路、能说话、能叠衣服的人形机器人的原因:他们是站在开源技术栈的肩膀上。

其次,开源模型是解决安全性问题的唯一现实途径。如果一个完全闭源的模型在某个工厂车间的机器人体内运行,而外界对它的推理逻辑毫无洞察能力,这无疑是一场监管噩梦。开放式模型让审计人员、研究人员和操作员能够真正检查机器人到底被训练了些什么。

八:还有哪些问题尚未解决

如果你看过足够多的机器人演示视频,你也一定看过很多机器人故障视频。当前这一代的 LLM+VLA 机器人确实令人印象深刻,但也确实存在明显的局限性。以下是它存在的问题:

  • 任务中途恢复。VLA 处理意外变化的能力比以前的任何技术都强。但当事情真正出错时(比如抓取失误、物体滚动、有人闯入工作区),重新回到正轨依然是弱项。机器人会盲目重复失败动作。
  • 样本效率。从零开始训练一个 VLA 需要上万小时的远程操作数据。而人类几分钟就能学会操作一个新工具。这个效率差距是巨大的。
  • 跨实体泛化。在斯坦福实验室里用 Franka 机械臂训练出来的模型,并不能完美迁移到深圳仓库里的宇树人形机器人上。两者的物理形态不同。
  • 长期任务。任何需要超过 30-60 秒的连贯行为,且包含多个子目标的任务,都容易偏离目标。“给我做早餐”这样的任务始终遥不可及。
  • 物理常识。VLA 接受的是模仿训练,而非理解训练。它并不真正理解“碰倒一杯水”时水会倒出来的原理。它只是见过一些例子,并根据模式匹配来预测接下来会发生什么。
  • 空间推理能力。尽管它们是多模态的,但在“绕过障碍物而不是穿过它”或“把这些东西叠起来不倒”之类的任务上却出奇地弱。

最后这一系列弱点,促使该领域开始押注于一种截然不同的模型。

九:世界模型

不妨设想一下:如果不训练机器人预测动作,而是训练它预测动作的后果,结果会如何?

世界模型(World Model)是一种神经网络,它根据当前世界状态(通常是一段视频或一连串帧图像)和预设动作,预测世界接下来的样子。简单来说,你可以把它想象成一个带有方向盘的学习型视频预测器。你给它看最后一秒的摄像头画面,并告诉它“机器人将手臂向前移动 10 厘米”,它就能生成一段逼真的视频,预测下一秒的画面。

这为什么重要?

因为一旦有了世界模型,机器人就能在行动前进行思考。它可以预先构思三到四种不同的候选行动,预测每种行动的结果,进行评分,并选择最佳方案。所有这些都在电机运动之前完成。这正是国际象棋引擎的运作方式:它不记忆棋步,而是模拟未来。以前在物理机器人领域从未拥有过这种能力,因为从未拥有过足够精确的模型,来模拟纷繁复杂的真实世界。

世界模型允许机器人模拟多种可能的未来场景,对其进行评分,并在任何电机启动之前选择最佳方案

2026 年的世界模型究竟是什么样子?

目前最先进的世界模型种类繁多,但发展迅速。以下是一些模型:

  • NVIDIA Cosmos:一系列的开放世界基础模型,包括 Cosmos Predict 2.5(生成模型)、Cosmos Transfer 2.5(可控仿真模型)、Cosmos Reason 2(用于机器人的视觉语言推理器)以及最新的 Cosmos Policy。Cosmos Policy 更进一步,通过对世界模型进行后训练,直接输出动作以进行控制。Cosmos 使用数万 GPU 小时的视频数据进行训练(Cosmos Predict 2.5 是该系列中的世界模型)。
  • DeepMind Genie 3:一款交互式世界模型,它能够根据文本提示生成完全可导航的环境,帧速率为每秒 24 帧,并能持续稳定运行数分钟。最初是为游戏环境而设计。
  • Meta V-JEPA 2:预训练时使用了超过一百万小时的网络视频,然后仅用 62 小时的机器人视频进行动作条件化训练。在不同实验室的真实机器人手臂上,无需任何特定任务训练,即可实现 80% 的零样本拾取放置成功率。“JEPA”方法在架构上与其他方法截然不同。
  • DeepMind Dreamer 4:仅使用离线数据,无需任何环境交互,就学会了在 Minecraft 中收集钻石(一项 2 万步的任务)。这证明了在虚拟世界中进行真正的强化学习是可行的。
  • AgiBot 的 Genie Envisioner:来自中国的统一世界模型平台,使用超过 3000 小时的真实世界人形机器人操作视频进行训练。它既可以生成预测的展开轨迹,也可以生成可执行的动作轨迹。 AgiBot 使用 NVIDIA Cosmos Predict 2 作为骨干网络,并使用自有数据进行后训练。这正是之前描述的“开源技术栈+自有数据”模式。
  • 丰田研究院基于 Cosmos 的世界模型:用于远程操作数据增强和导航。

2025-2026 年最重要的六个世界模型,每个模型都对机器应该如何学习物理学提出了不同的设想。

十:替代架构,因为该领域尚未定论

构建世界模型并没有统一的标准。架构之争是目前 AI 领域最有趣的争论之一,它直接影响着机器人未来能够做什么。以下三个阵营值得关注:

像素级视频扩散(Cosmos/Sora 学派):使用扩散模型预测未来帧的实际像素。优点是可作为合成数据生成器,可以渲染从未发生过的全新机器人演示。缺点是成本高昂,有时会违背物理规律,而且预测永远不会看到的像素是一种浪费。

联合嵌入预测架构,简称 JEPA(LeCun 学派):不预测像素,而是预测下一帧的抽象表征。抛弃纹理细节,只保留场景中事物的语义本质。优点是高效,专注于对行动至关重要的因素。缺点是使用起来较为困难。V-JEPA、V-JEPA 2 和新型 JEPA-VLA 混合模型正在探索这一领域。

潜在动作世界模型(Genie/Dreamer 流派):学习如何将整段视频压缩成一种潜在的“动作语言”,这种语言能够捕捉行为结构,然后训练世界模型,使其能够根据下一个潜在动作预测下一个潜在状态。优点是允许你使用无动作的网络视频进行训练,然后添加少量真实机器人数据。缺点是潜在动作无法被人类理解,安全分析变得复杂。

像素扩散、JEPA 和潜在动作:目标相同,构建世界模型的方式却截然不同

十一:基于世界模型的机器人实际应用

如果快进几年,前沿人形机器人的架构可能看起来像这样:

VLA 上搭载着一个世界模型。当机器人遇到新的情况时,它会执行类似以下的操作:

  • VLA提出了一些后续行动的候选方案(它仍是策略)。
  • 世界模型会获取每个候选动作,并模拟 1-3 秒的假想视频。
  • 价值判断者会根据设想的结果进行评分:杯子被拿起了吗?有东西掉下来了吗?人被撞到了吗?
  • 机器人会选择得分最高的行动,并且只执行其第一部分。
  • 真实传感器数据回流;循环重复。

这就是模型预测控制,这项技术多年来一直用于稳定火箭和四旋翼飞行器,但它用学习到的世界模型取代了人工推导的物理方程。它的可扩展性在于,世界模型是基于数百万小时的视频进行预训练的,而不是因为有人为厨房环境编写了纳维-斯托克斯方程(Navier-Stokes equations)。

其益处层层递进:

  • 恢复情况有所改善。如果抓取动作发生失误,世界模型可以设想多种纠正路径,并选择最有希望的路径。
  • 泛化能力得到提升。基于网络视频训练的世界模型所经历的“物理现象”比任何机器人远程操作数据集都要多几个数量级。
  • 长远规划变得可控。在想象中规划,而不是在现实中规划。
  • 模拟与现实之间的差距缩小了。以前需要用自己搭建的模拟器(例如 Isaac Sim、Newton 物理引擎)进行训练,然后寄希望于训练结果能够迁移到实际应用中,而现在则可以使用经过训练、能够与真实视频相匹配的模拟器进行训练。因此差距更小。
  • 合成数据呈爆炸式增长。一个世界模型几乎可以免费生成数百万条不同的机器人轨迹,涵盖不同的光照、材质和物体配置。这解决了该领域最大的瓶颈之一。

此外,它还具有一项重要的安全优势。能够模拟动作后果的机器人可以拒绝执行危险操作:并非因为预设规则的限制,而是因为它预想到未来可能会有人受伤。

两种移动方式:VLA 根据所见做出反应;世界模型机器人则在移动前进行思考

十二:还应该知道的事

数据问题才是真正的核心问题:如果无法给模型喂数据,世界上所有的架构创新都无济于事。目前,远程操作(人类穿戴 VR 设备远程木偶式操纵机器人)是主要的技术瓶颈。一家机器人公司的竞争护城河越来越取决于其数据采集流水线,而不是模型本身。智元机器人已经建立了充满操作员的仓库。英伟达 GR00T N1.7 的灵巧度扩展定律表明,更多的人类第一人称视角视频可以直接、可预测地提升机器人的灵巧度。这也是中国具有结构性优势的部分原因:更低的数据采集劳动力成本、更宽容的部署环境,以及国家在积极协调供应链。

仿真是一个平行宇宙。 NVIDIA 的 Isaac Sim、全新的开源 Newton 物理引擎(1.0 版本将于 2026 年 4 月正式发布)以及 Omniverse 平台,让企业能够在数百万个并行模拟环境中训练机器人,而无需将其部署到现实世界。大多数看似“机器人智能”的功能,实际上是在模拟环境中培养,然后移植到硬件上的。

经济效益开始显现。宇树在 2025 年交付了约 5500 台人形机器人,并计划在 2026 年达到 1 万至 2 万台。平均价格在两年内从 8.5 万美元降至 2.5 万美元。宇树的 R1 售价为 5900 美元。Noetix Bumi 的上市价格为 1400 美元。人形机器人硬件的价格正在接近消费电子产品的价格水平,而其内部的 AI 技术仍然落后于演示产品。这种差距终将缩小,届时,市场规模的提升将对整个行业产生显著影响。

故障模式看起来很奇怪。当基于 LLM 的机器人出现故障时,它们的故障方式往往是传统机器人无法做到的。例如,自信地做错事、“幻觉般地”感知到某些功能、陷入与自身规划器的对话循环。传统机器人界对此抱有相当程度的怀疑,这种怀疑不无道理,他们坚持认为学习系统必须被安全监控和行为约束。目前最可靠的已部署机器人是混合型的:VLA 大脑被放置在手工设计的安全笼内。

“ChatGPT时刻”的叙事是一个有用但带误导性的比喻:黄仁勋一直在告诉所有人,机器人的 ChatGPT 时刻已经到来。他之所以这么说,是因为英伟达卖的是铲子和镐头。更诚实的版本是:目前大约处于物理 AI 的 GPT-2 时代。它很强大,能让你感到惊艳;但还不够强大,无法在无人看管的情况下进行部署。它正在快速迭代,但还没有迎来病毒式普及的爆发点,而是一个缓慢而坚定的上升轨迹。

结语

宇树四足机器人的演进历程(从右至左)

在宇树办公室看到的演示中,五个 G1 人形机器人表演武术,其动作经过精心编排,机载 VLA 式控制器进行微调,远程操作员则确保一切顺利进行。从根本上来说,它并非完全自主。但整个流程:感知、规划、运动控制,都在被神经网络所取代。两年后,同样的机器人无需编排就能完成同样的动作,因为它已经预先构思好了整个动作,并选择了最佳版本。

本文所描述的整个发展历程:从手工编写的控制器,到机器学习感知,再到 LLM 规划器,再到 VLA,再到双系统架构,最终到世界模型,实际上是机器人智能所在位置的缓慢转变。它始于工程师的头脑,然后演变为手工编写的代码,接着进入感知层,进入规划器,进入策略层。而现在,它最终正朝着学习世界本身的模型发展。

每一次转变都使机器人变得更加通用、更具适应性、更加有用。如果世界模型转变奏效,它将真正赋予机器人强大的能力:强大到足以让问题不再是“机器人能做什么?” ,而是“我们应该让它们做什么?”

相关阅读:盘点30多家人形机器人公司:谁能在2026年胜出?

相关问答

Q文章中提到机器人的技术栈在过去三年经历了哪些重大变革?

A文章指出,过去三年机器人技术栈的变革远超过去三十年,主要包括:从传统手工编码的层级结构,到深度学习应用于感知层,再到大型语言模型用于自然语言指令解析和规划,然后发展到视觉-语言-动作模型直接融合推理与行动,并进一步演变为双脑系统(慢思考的大脑和快反应的大脑协同),目前正朝着世界模型的方向发展,使机器人能够在行动前进行模拟和预测。

Q什么是视觉-语言-动作模型,它在机器人技术中起到了什么关键作用?

A视觉-语言-动作模型是一种神经网络架构,它能够直接接收摄像头图像和语言指令作为输入,并输出下一时刻的关节运动指令,将推理和行动融合在一个模型中。它的关键作用是实现了更高层次的泛化能力,使机器人能够应对更复杂和多样化的任务,而不再局限于狭窄的预编程技能。

Q文章描述的双系统(系统1和系统2)架构是如何工作的?其主要优势是什么?

A双系统架构借鉴了人类认知的心理学框架。系统2是“慢思考大脑”,通常是一个大型的视觉-语言模型,运行频率较低(如7-9 Hz),负责观察场景、解析指令和进行多步推理,输出高层次意图。系统1是“快反应大脑”,是一个小型的视觉运动策略模型,运行频率很高(如200 Hz),接收系统2的意图和实时传感器数据,直接输出连续的动作指令。其主要优势在于解决了大型模型计算延迟与机器人动作需要高频更新的矛盾,实现了深思熟虑的规划与敏捷流畅的执行之间的高效协同。

Q世界模型是什么?它有望解决当前机器人技术面临的哪些主要问题?

A世界模型是一种神经网络,它能够根据当前的世界状态(如视频画面)和预设的动作,预测世界接下来会发生什么(生成预测视频)。它有望解决的主要问题包括:任务中途恢复能力弱、样本效率低、跨实体泛化困难、长期任务规划易偏离目标、物理常识缺乏以及空间推理能力不足。通过让机器人在行动前进行模拟和“思考”,世界模型可以提升其恢复能力、泛化能力和长期规划能力,并缩小仿真与现实的差距,还能生成大量合成数据用于训练。

Q根据文章,开源模型在机器人AI发展过程中扮演了什么重要角色?

A开源模型在机器人AI发展中扮演了至关重要的角色。首先,它极大地降低了技术门槛和成本,使得初创公司和研究机构无需投入巨资进行基础模型的预训练,可以直接在开源模型(如OpenVLA、NVIDIA GR00T)的基础上,利用自己的数据进行微调和后训练,从而快速开发出功能先进的机器人。其次,开源模型是确保安全性和透明度的关键,它允许审计人员、研究人员和操作员检查模型的内部逻辑和训练数据,这对于机器人在关键场景下的安全部署至关重要。

你可能也喜欢

BTC“数字黄金”的叙事是不是失败了?

这篇文章从三个核心问题探讨了比特币的现状与未来,强调提供的是思考框架而非投资建议。 **如何看待比特币资产?** 作者认为比特币是一种全新的、更优秀的“黄金”资产。其优势在于总量恒定、转移便捷、交易可审计。尽管早期与灰色地带关联,但合规化是趋势。目前全球数字货币渗透率仅3%-4%,类比互联网和电商的早期阶段,意味着比特币仍处于发展初期,潜力巨大但波动性也极高。 **如何理解本轮下跌?** 比特币自2025年10月高点(近12.6万美元)持续下跌,2026年2月一度跌破6.1万美元,单日跌幅达15%,随后又快速反弹。这被解读为遵循四年减半周期的共识性获利了结。特别之处在于,美国比特币ETF的批准引入了机构资金,也促使早期低成本持有者(如矿工和信仰者)进行大规模“换手”,这是资产迈向主流化的必经过程。历史数据显示,比特币历次大跌的幅度在收窄(从93%到当前的约50%),表明资产正在成熟,波动率逐步下降,但高波动仍是其获取超额回报的固有特征。 **长期如何看待发展?** 长期价值可对标黄金。当前比特币市值仅为黄金市值的约7%,若“数字黄金”叙事实现一半,上行空间依然显著。但作者提醒,短期市场脆弱,换手可能未完,底部无法预测。真正的风险并非资产归零(概率较低),而在于错误的仓位管理(如All-in或加杠杆)以及对资产缺乏深刻理解。投资者必须计算并承受潜在的最大回撤(例如从已跌50%的位置再跌50%),才能存活至长期价值兑现。 文章最后以亚马逊在互联网泡沫后暴涨为例,指出关键不在于比特币未来是否上涨,而在于投资者能否通过理性的仓位管理和深度认知,扛过剧烈波动存活到那一天。文末提问引导读者反思:当前黄金涨、比特币跌的局面,究竟意味着“数字黄金”叙事失败,还是资产进化过程中的换手阵痛?这取决于每个人对比特币最底层的信仰。

marsbit2小时前

BTC“数字黄金”的叙事是不是失败了?

marsbit2小时前

BTC“数字黄金”的叙事是不是失败了?

标题:BTC“数字黄金”的叙事是不是失败了? 作者:@wuk_Bitcoin 本文从三个核心问题出发,探讨比特币的现状与未来。 **如何看待比特币?** 作者认为比特币是一种全新的、更优秀的“黄金”类资产。其优势在于:总量恒定(2100万枚);资产可转移性极强,在全球不确定性时代具备溢价;所有交易链上可审计,透明度高。反驳了比特币主要用于灰色地带的过时观点,指出其正走向合规。目前全球数字货币渗透率仅约3%-4%,类比互联网和电商早期,意味着该资产类别仍处早期,潜力与巨大波动并存。 **如何理解本轮下跌?** 比特币自2025年10月高点(近12.6万美元)持续下跌,2026年2月初曾单日暴跌15%,跌破6.1万美元。这被视为遵循其四年减半周期的规律性回调,是长期持有者在周期高点锁定利润的结果。本轮下跌的特殊性在于:美国比特币ETF的批准引入了大量机构新资金,但也促使成本极低的早期持有者(矿工、OG)进行历史性抛售,即从“早期信仰者”向“长期配置机构”的换手过程。历史数据显示,比特币历次大回撤的跌幅在逐步收窄(从93%到目前的约50%),表明资产在成熟,波动率在下降,但高波动仍是获取超额回报的代价。 **长期怎么看?** 若将比特币视为“数字黄金”,其当前总市值(约1.4万亿美元)仅为黄金总市值(约20万亿美元)的7%。即使该叙事仅部分实现,上行空间依然可观。但作者强调短期风险:换手可能未结束,市场脆弱,不排除进一步下跌。真正的风险不在于资产归零(概率极低),而在于错误的仓位管理(如All-in、加杠杆)和对资产缺乏深度理解,这可能导致投资者无法承受巨大波动而提前被迫出局。 **最后对比** 作者以亚马逊在互联网泡沫破裂后股价跌95%又最终上涨42倍为例,指出关键在于“活着等到那一天”。对于比特币,核心同样是能否通过理性仓位管理活到其价值兑现之时。文末提问:当黄金大涨而比特币大跌,这究竟是“数字黄金”叙事的失败,还是资产进化过程中的阵痛?答案取决于每个人对比特币最底层的信仰。

链捕手2小时前

BTC“数字黄金”的叙事是不是失败了?

链捕手2小时前

AI 泡沫正在破裂

近期市场剧烈波动,“AI泡沫论”甚嚣尘上。桥水达利欧认为AI市场存在“相对较高”的泡沫,而英伟达黄仁勋则强调AI算力需求才刚刚开始。两者观点看似矛盾,实则揭示了技术革命初期的典型特征:市场因高估短期影响而产生泡沫,却往往低估其长期颠覆性力量。 回顾2000年互联网泡沫,纳指暴跌78%,超5万亿美元财富蒸发,大量公司破产。然而,泡沫破裂后留下的廉价电信基础设施(如海底光缆),却成为日后流媒体、云计算乃至移动互联网崛起的基石。这符合“阿玛拉定律”:人们高估技术的短期影响,低估其长期影响。泡沫是创新必须缴纳的“智商税”,其破裂能淘汰投机者,沉淀下坚固的基础设施,滋养真正伟大的公司。 当前AI行业同样呈现巨大的“投入-产出”不对称:2026年,五大云服务商的AI基础设施资本开支预计达6900亿美元,而头部纯AI厂商的总收入预计不超过400亿美元。但深层逻辑正在演变:AI推理成本在两年内暴跌超过99.7%,接近零的边际成本解锁了海量长尾需求,驱动企业AI支出翻倍增长。这印证了“杰文斯悖论”——效率提升导致总消耗量指数级上升。如今,各行业关心的已非“是否用AI”,而是如何更有效地整合AI。 市场已进入“幻灭的低谷”前夕,缺乏护城河的套壳公司正批量死亡,这是市场的自我净化。与此同时,价值转移正在发生:1. 从资本开支(CapEx,如硬件)向运营开支(OpEx,如解决垂直行业痛点的应用)转移;2. 高估值正被高速增长的业绩逐步消化。AI已深入制造业(缩短研发周期)、金融(微秒级定价)、法律、医疗等专业领域,成为实质性的生产力工具。 历史总在重演“创造性毁灭”。当下近7000亿美元的基建投资短期内无法全部转化为利润,市场洗牌不可避免。但洗牌之后,廉价的算力与高度优化的算法将赋能千行百业。正如互联网泡沫后我们迎来了数字时代,AI泡沫的喧嚣过后,我们将不可逆转地迈向一个所有行业都由AI深度赋能的智能全盛时代。泡沫终会破裂,但底层先进生产力的势能,没有水分。

链捕手2小时前

AI 泡沫正在破裂

链捕手2小时前

AI 泡沫正在破裂

近期市场对“AI泡沫论”讨论激烈。桥水基金创始人达利欧认为AI市场存在较高泡沫,而英伟达CEO黄仁勋则强调算力需求刚起步。两者观点看似矛盾,实则反映了技术革命初期的典型特征:短期存在投机泡沫,但长期看,AI是颠覆性的先进生产力。 文章以2000年互联网泡沫类比。当时大量.com公司破产,纳指暴跌,但泡沫破裂后留下的廉价基础设施(如光缆)滋养了后来的谷歌、亚马逊等巨头,推动了互联网时代的真正繁荣。这体现了“阿玛拉定律”——人们高估技术的短期影响,低估其长期影响。 当前AI领域同样存在巨大投入与收入不匹配的现象。2026年,主要云服务商的AI基础设施投资预计达6900亿美元,而头部AI公司的总收入仅约400亿美元。然而,这不能简单视为泡沫破裂的信号。关键变化在于AI推理成本急剧下降,两年内降幅超99.7%,这反而激发了海量的新应用需求,企业AI支出大幅增长。这符合“杰文斯悖论”:效率提升导致成本下降,进而刺激总需求上升。 如今,AI已深入各行各业,从生物医药到制造业,企业关注点已从“是否用AI”转向如何优化应用。市场正在进行自然净化,淘汰缺乏核心竞争力的套壳公司,价值将从基础设施层(CapEx)向解决实际问题的应用层(OpEx)转移。 尽管资本市场可能出现波动和估值调整,但AI技术本身正在扎实地提升各行业效率,例如缩短研发周期、优化金融服务等。如同互联网泡沫后开启了数字时代,当前AI领域的调整是为未来智能时代铺路。泡沫终会消退,但AI驱动的生产力革命已不可逆转。

marsbit2小时前

AI 泡沫正在破裂

marsbit2小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

548人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片