物理AI火了，我的一些新思考

marsbit发布于2026-05-18更新于2026-05-18

文章摘要

物理AI（Physical AI）概念正从学术走向产业，核心是让AI理解并作用于物理世界，在重力、摩擦力等真实环境中执行任务。这一概念2020年于《自然-机器智能》首次系统定义，历经六年传感器成本降低、算力工程化等发展，在2026年迎来“部署态元年”，关键标志是从演示走向实际“干活”。产业方面，国内外公司加速推进。智元机器人将其人形机器人投入真实3C产线直播作业，并宣布万台量产，其“全栈自研”路线旨在建立深度壁垒。美国Figure AI估值高涨，其Figure 03机器人展示了自主完成家务的能力，并转向自研的“本能-反射-思考”三层神经网络系统Helix。英伟达则与四大工业机器人巨头合作，意图通过仿真平台成为下一代工业自动化的“操作系统”。汽车供应链企业正跨界进入物理AI赛道，因其智能驾驶系统的感知、决策、执行模块与机器人技术同源，积累了可迁移的制造能力和供应链经验。特斯拉也计划利用其汽车制造经验，为人形机器人建设百万台产能生产线。技术底座的突破在于“世界模型”的工程化。此前它因算力需求大、不稳定而难以实用，如今英伟达Cosmos、蚂蚁灵波LingBot-World、阿里巴巴ABot-PhysWorld等模型或平台，能通过合成数据高效生成符合物理规律的训练场景，大幅降低了数据获取成本，使世界模型从离线渲染走向在线交互，成为物理AI发展的关键杠杆。这推动了机器人架构的范式变革：从传统的“感知-规划-控制”（工程师预设规则）转向“感知-推理-执行”（AI自主理解物理世界）。国际机构预测未来三年新机型将主要采用新架构。当前赛道方向已定但格局未成，演示与量产能力差异巨大，真实数据的高成本使得合成数据至关重要。同时，来自汽车、工业自动化等领域的技术与制造能力正加速涌入。基础设施提供商可能像上一波AI浪潮一样，捕获核心价值。2026年只是竞争的开始，未来格局仍存变数。

文 | 新眸，作者 | 鹿尧

最近有个词在圈子里传得很热，叫“物理AI”。

这个词其实在去年初的拉斯维加斯CES展会上，就被黄仁勋演讲时反复念叨了十多遍，但直到今年，“Physical AI”才迎来了真正意义上的爆发。

那么，“物理AI”究竟是什么？

前两天我看到一段机器人浇花的视频，机器人先走到水龙头前，拧开阀门，把水壶灌满，然后转身走到花盆边，调整角度，把水均匀地浇进去，壶嘴没有撞到花盆边缘，水也没有洒出来。

让一台机器理解“端一杯水”，它得知道杯子是圆柱形的，得算出该用多大的力捏住才不会滑也不会碎，得明白水是液体、晃动会洒出来，得在行走过程中实时调整手臂角度来抵消身体的起伏。

这些东西，人类三岁小孩凭直觉就能做到。但对AI来说，这是一个巨大的跨越。过去十年，AI学会了看、学会了听、学会了说话、学会了画图，但它始终困在屏幕里。物理AI要做的事情，就是把这个聪明的大脑，装进一个能在真实世界里跑、跳、抓、放的躯体里。

说白了，物理AI就是让AI理解并作用于物理世界。它不再只是处理文字和图片，而是要在重力、摩擦力、惯性都起作用的环境里，做出正确的动作。

一个很少被国内讨论的事实是，“Physical AI”这个提法并非出自某个芯片巨头的公关部门。这个概念最早见于2020年的一篇论文，发表在《Nature Machine Intelligence》上。文中第一次系统定义了Physical AI：

一类能够执行通常与智能生物体相关联任务的实体系统，核心在于把物理规律深度整合进人工智能系统，让机器不再是“物理盲”，能够完成从感知到行动的闭环。

从2020年学术圈的一声枪响，到2026年产业界全面接棒，中间隔了整整六年。这六年里，传感器成本降低了几个量级，端侧AI算力从理论走向工程化，机器人本体的可靠性和量产能力也悄悄走到了临界点——这些才是物理AI从论文走向产线的隐性推力。

从演示到干活

如果说2023年的大语言模型让AI学会了聊天，那2026年物理AI的关键词只有一个：干活。

事情的变化是肉眼可见的。

去年这个时候，机器人公司出来秀肌肉的方式还是拍Demo视频，设定好场景，反复排练，一镜到底。好看是好看，但你不知道它拍了多少遍。

而今年，玩法完全不同了。今年智元机器人在南昌的一条3C产线上做了一件事：把机器人扔进真实工厂，连续干了几个小时的活，全程直播。没有预设剧本，没有限定场景，就是工人日常面对的那条产线。几十万人次在线围观。

一个月后，智元在香港宣布人形机器人实现万台量产。从实验室里的一台原型机，到工厂产线上的一万台，这个坎翻过去，性质就变了。

智元的路线很有意思，大多数机器人创业公司聚焦在某个环节上，做本体的只管本体，做大模型的只管大模型，做灵巧手的只管手。智元选了另一条路：全栈都做，同时布局本体制造、AI模型、灵巧操作和数据采集四个方向，还投资了60多家产业链上下游公司。

这么做的代价也很直观，母公司员工一千多人，到今年底预计进一步突破人，光薪资一年就是十几到二十个亿。这条路烧钱，但一旦跑通，壁垒也最深。

智元创始人邓泰华提过一个叫“XYZ曲线”的分析框架。他说具身智能的发展分三个阶段：X是开发尝鲜期，大家还在玩Demo；Y是部署成长期，机器人开始真正进产线干活；Z是终局的智能涌现期。

他给2026年的定性是：“部署态元年，正式从‘能动’走向‘会干’”。“能动”和“能干”，差一个字，但差的是整个产业的成年礼。

海外也在冲刺，太平洋对岸的节奏一点不慢。

美国人形机器人公司Figure AI是这条赛道上一个绕不开的名字。去年9月，他们完成了一轮超过10亿美元的融资，估值干到了390亿美元，在那会儿是全球估值最高的人形机器人公司。

一个月后发布了新一代产品Figure 03，1米68的身高，差不多60公斤重，演示了浇花、端菜、叠衣服这些家务活。创始人Brett Adcock特意在社交媒体上补了一句：所有动作都是机器人自主完成的，没有人在背后遥控。

技术上值得留意的是，Figure做了一次重大的路线调整，终止了和OpenAI的合作，全面转向自研的神经网络系统Helix。

这套系统模仿人类认知做成了三层结构，最底层管平衡和本能反应，中间层把大脑指令翻译成每秒200次的电机控制，最高层是逻辑大脑，负责理解场景和做决策。这个“本能-反射-思考”的三层架构，思路挺巧妙的，相当于给机器人装了一个不会宕机的神经系统。

还有件事值得一提。今年英伟达在GTC大会上宣布了一个动作：和全球四大工业机器人巨头，ABB、库卡、安川、发那科，达成了深度合作。全球已经安装在产线上的超过200万台工业机器人，以后可以通过英伟达的仿真平台做虚拟调试和AI训练。

这四家公司加一块占了全球工业机器人市场超过一半的份额。接下来十年，这些机器人都会面临一轮从“传统编程”到“AI驱动”的升级换代。未来哪个软件平台能嵌进这个进程，就相当于拿到了下一代工业自动化的“操作系统”层。英伟达显然不想错过这张船票。

供应链的跨界抢跑

还有一个有意思的现象：汽车供应链企业正在成规模地涌进物理AI赛道。

今年北京车展上，安波福、法雷奥、地平线、千寻位置这些老牌汽车供应商，扎堆展示了机器人相关方案。当时不少业内人士都认识到，具身智能感知和汽车智驾的感知是一样的，汽车的解决方案可以直接用到人形机器人上。

仔细一想确实如此。汽车智能驾驶系统本质上就是一个“移动机器人”的感知-决策-执行闭环，其中的视觉感知、路径规划、实时控制三大模块，与传统工业机器人和人形机器人在技术架构上高度同源。

汽车供应商手中的摄像头、雷达、线控底盘和实时操作系统，稍加适配就能迁移到机器人领域。从这个意义上说，汽车产业过去十年在智能化上烧的上千亿研发费用，正在以“技术溢出”的方式流进物理AI赛道。

这或许能解释为什么中国的机器人公司能这么快冲进量产阶段。制造能力和供应链管理不是凭空长出来的，很多是现成的。那些已经在汽车产线上磨合了十几年的零部件供应商，现在换了个新战场。

国外有现成的案例，就拿特斯拉来说，它的第一代人形机器人Optimus也在加速入场。此前特斯拉在2026年第一季度财报电话会议上明确宣布，公司将向“以AI、自动驾驶出租车和人形机器人为核心的未来转型”，第一代机器人生产线将下线100万台产能，并取代现有Model S和Model X的生产线。

100万台的数字放到今天的语境里可能显得夸张，但特斯拉的逻辑是清楚的：它要把汽车制造领域积累的大规模生产能力和供应链管理经验，直接复制到人形机器人领域。

马斯克要的不是一台“能动的机器人”，而是一台能在工厂里和人类协同作业的“量产工具”。这条路一旦走通，它对制造业自动化格局的冲击将不亚于Model 3对燃油车市场的冲击。

世界模型为什么今年突然能用起来了

讲完了产业层面的大厂动作，不妨把镜头往深拉一层，这场物理AI竞赛的技术底座是什么？

如果用一句话概括，那就是：世界模型的工程化突破。我觉得这也是理解这波浪潮最关键的一点。

“世界模型”这个概念不新了，2018年就有人提出来，核心想法很简单：让AI学会一套对物理世界运转规律的内部理解，这样它就能预测“如果我推这个杯子一下，会发生什么”。但以前这东西基本只活在论文里——太吃算力，生成质量不稳定，做不了实时交互。

转折发生在最近一年。英伟达推出了一个叫Cosmos的系列模型，它的核心能力就是从文字或图像生成符合物理规律的动作数据。

举个例子：你想训练一台机器人学会在各种天气下搬箱子，不用真的在雨天、雪天、半夜去工厂里拍视频。在仿真环境里设定好参数，Cosmos可以直接生成海量的、高度逼真的训练数据，覆盖各种极端场景。

今年年初，蚂蚁灵波团队开源了一个叫LingBot-World的框架，专门做交互式世界模型。它能实现近10分钟连续稳定的视频生成，端到端交互延迟控制在秒单位。用户可以像打游戏一样，用键盘和鼠标实时控制虚拟角色，模型即时反馈场景变化。这个意义在于，世界模型从“离线渲染”变成了“在线交互”，训练效率提升了一个量级。

还有创业公司极佳视界发布了GigaWorld-1平台，定位是物理世界的“数字沙盒”。一个月后，阿里巴巴的ABot-PhysWorld在一个叫WorldArena的评测基准上超过了它，综合排名冲到了第一。竞争正在以月为单位往前拱。

这些开源项目的重要性不在于参数有多高，而在于它们把一个“只有巨头玩得起”的游戏，变成了“小团队也能上手”的工具。当造轮子的人足够多，真正跑起来的车才会多。

世界模型之所以在物理AI时代成为核心要件，是因为它回答了那个一直悬而未决的问题：如何让机器人以低成本、高效率的方式学会物理世界的复杂规律？

真实世界的训练数据获取成本极高，且天然带有分布偏差，你很难在现实中凑齐工厂暴雪夜班、物流仓库断电应急、产线工人突发介入等所有边缘场景。但合成数据可以。通过在仿真环境中用提示词操控场景参数，研究者可以在数小时内生成覆盖极端条件的大规模训练视频，这在传统实采路线下需要数月甚至数年。

这个突破的杠杆效应，可能超过一切单一算法改进。

范式变了

世界模型的突破，其实只是物理AI技术栈进化的一部分。底层技术的变化，正在推动整个机器人行业的架构重建。

传统机器人用的是“感知、规划、控制”三段式。先由传感器感知环境，工程师写好规则告诉机器怎么规划路径，最后执行动作。这在工厂流水线这种结构化环境里没问题，但场景一复杂就暴露短板，机器只会按预设剧本走，遇到没见过的状况直接卡住。

物理AI走的是另一条路：“感知、推理、执行”。感知之后不经过人类写死的规则，而是由训练过的神经网络自己推理出该做什么，然后执行。本质的区别在于，前者是“工程师替机器思考”，后者是“机器自己理解物理世界”。

国际机器人标准组织今年发布了一份技术路线图，预测未来三年内，80%的新机型将采用这种新架构，传统三段式方案会逐渐退出主流。这不是小修小补，是整套范式的换轨。

就像某位业内专家说的，我觉得总结得挺到位：物理AI是AI发展的终极模式，因为它不仅需要理解人的指令，还要理解物理世界的所有规律。

黄仁勋说机器人开发的ChatGPT时刻已然到来。”在我看来，物理AI和语言模型的“ChatGPT时刻”性质完全不同。语言模型的“那一刻”是让全世界普通人第一次亲手用上了AI。而物理AI的“那一刻”，是让AI第一次真正开始干活。

如今这个赛道处于一个很特殊的阶段：方向被锁定了，概念被认可了，但格局还没定。

一方面，做演示和做量产是两套完全不同的能力体系。一台样机能跑通，一万台产品在真实场景里考验的是制造一致性、供应链韧性、场景泛化能力、运维体系，这些跟AI算法没什么关系，但每一项都足够卡死一批玩家。另一方面，真实世界的数据采集成本高、周期长、覆盖面窄，这几乎注定了物理AI的大规模训练将严重依赖合成数据。

与此同时，从汽车供应链、传统工业自动化，到消费电子代工，这些看起来和“AI”关系不大的行业，正在以技术溢出的方式加速切入物理AI。它们的制造能力、供应链管理经验和场景资源，可能是决定物理AI落地速度的关键变量。

一个直觉性的判断是，你看2023年初ChatGPT引爆的那波AI浪潮，真正赚到最多价值的不是模型厂商，而是基础设施提供商。物理AI这波浪潮会不会重演同样的剧情？

英伟达的布局暗示着它正在赌这个方向，但故事还没写完。2026年是部署态元年，产业竞争才刚刚开始。三年后回看今天，哪些名字还在牌桌上，哪些已经出局，可能会出乎大多数人的意料。

你可能也喜欢

Upbit在内部钱包转账中重新平衡8640亿枚SHIB

韩国交易所Upbit在内部钱包地址之间重组了8640亿枚SHIB，尽管链上转移规模巨大且发生在SHIB价格上涨36%之后，但这实质上是一次正常的钱包余额整理，而非交易所抛售。具体涉及从热钱包转出3840亿SHIB至相关平台地址，以及从SHIB钱包转回480亿SHIB至同一热钱包，总价值约400万美元。文章强调，由于交易所经常出于流动性管理和安全目的在热钱包与冷钱包之间进行资产调配，此类内部转移不应被误读为市场卖出压力。此次转移之所以引发关注，主要源于SHIB近期大涨后市场对大型钱包动作的敏感性。核心观点在于，解读链上数据时必须结合钱包标签和具体背景，避免将常规操作误解为“巨鲸抛售”等市场信号。

bitcoinist8分钟前

bitcoinist8分钟前

生成模型也能端到端训练了？核心竟是一个for循环

长期以来，深度学习在图像分类、检测等任务上凭借端到端训练取得了巨大成功，但生成模型领域却始终是个例外。当前主流的自回归、扩散模型等训练时只学习预测“一小步”，推理时则需要反复展开数百上千步，这种训练与推理的不一致导致了“暴露偏差”等问题，使得生成模型一直未能实现真正的端到端训练。最近，一篇来自UIUC与哈佛大学的论文提出了“探索式建模（Explorative Modeling，XM）”新范式，其核心是一个简单到近乎朴素的for循环：在每个训练步骤中，模型生成K个候选样本，然后仅选取其中最接近真实数据的一个样本来计算损失和回传梯度。这种做法巧妙地绕开了传统生成模型中因使用重构损失（如平方误差）而导致的“模态模糊”问题——即模型倾向于输出多个可能答案的平均值，而这个平均值往往不属于任何真实的数据模式。 XM通过这种方式，在不拆分生成过程的前提下，直接提升了模型的“生成表达力”，即模型捕捉数据分布中多个独立模式的能力。论文将“探索”验证为继模型参数量、数据量之后的第三根可扩展轴。实验表明，随着模型规模、数据量和计算量的增大，探索带来的性能收益越发显著，在图像、视频、语言等多种任务上均能带来效率与质量的提升。更重要的是，当探索程度足够时，XM可以实现真正的端到端生成。在机器人控制等任务中，仅需一次网络前向传播的XM策略，其性能可媲美甚至超过需要上百次前向的扩散模型策略，实现了推理效率的飞跃。尽管“最佳K样本选择”的思想并非全新，但该研究的贡献在于清晰地揭示了这一简单机制如何直接解决生成模型的核心瓶颈，并为实现高效、端到端的生成模型开辟了新的可能性。随着模型规模的持续扩大，探索这一新维度可能将发挥越来越关键的作用。

marsbit8分钟前

marsbit8分钟前

每人最多20篇？ICLR新规遭DeepMind研究者「反讽」请愿

ICLR 2027 会议近日公布新规，规定每名作者最多只能提交20篇论文，超出限额的论文若未调整将被随机拒稿。此举旨在应对投稿量激增给评审系统带来的压力。ICLR 2026 投稿量较前一年增长约68%，达到19525篇，导致评审工作量巨大。新规引发了讨论。Google DeepMind 访问研究员 Dan Roy 在社交平台发起讽刺性“请愿”，反对此限制。他表面上称限制会阻碍 AI 发展，并主张应鼓励 AI Agent 大量生成渐进式论文，同时暗指评审工作也已由大语言模型处理，以此揶揄当前 AI 对学术环境的影响。此前，有分析显示 ICLR 2026 约21%的评审意见被怀疑完全由 AI 生成，引发了学术界对评审质量和 AI 滥用的担忧。Dan Roy 的讽刺性请愿实则抛出一个深层问题：当论文生产、投稿和评审都可能大量依赖 AI 时，单纯限制投稿数量或许并非根本解决之道。

marsbit12分钟前

marsbit12分钟前

Coldcard漏洞致8900万美元被盗，引爆FTX后最大链上迁移潮

Coldcard钱包漏洞导致约8900万美元比特币被盗，引发自FTX破产后最大规模的链上资金迁移。漏洞源于特定固件版本生成助记词随机性不足，导致4585个地址遭入侵，1367枚比特币被盗。为避险，用户大规模转移资产，导致链上小额交易、活跃地址数及交易所存款激增，干扰了市场指标并加剧看跌情绪。追赃工作中，美国AI模型的安全限制阻碍调查，团队被迫使用中国开源模型进行分析，凸显了防御方在利用AI工具时面临的合规与效率矛盾。此次事件暴露了冷钱包的安全隐患及AI在网络攻防中的不对称挑战。

marsbit58分钟前

marsbit58分钟前

年薪百万抢电工，Meta急到自己办技校

AI竞赛正面临新的瓶颈：工地。美国正面临严重的电工、建筑工等技术工人短缺，这已成为微软、Meta、OpenAI等公司快速建设超大规模AI数据中心（如OpenAI耗资160亿美元的“星际之门”项目）的“头号障碍”。尽管AI公司愿支付高薪（如电工年薪可达24-28万美元），远超传统行业，但熟练技工仍供不应求。麦肯锡预测，美国在2023-2030年间需额外培养13万名电工和24万名建筑工，而劳工统计局预计每年仍有8万个电工岗位空缺。这种短缺导致项目延迟，每月可能造成数百万美元的收入损失。 AI数据中心建设复杂，需应对巨大功耗（一座设施耗电堪比数十万户家庭）、复杂的配电系统以及高密度散热（需液冷技术）等挑战，因此亟需大量技术娴熟的工人。为此，科技巨头开始亲自下场培养人才。例如，Meta投入1.15亿美元建立建筑工人培训学校，提供免费培训及生活补贴，以快速输送工人上岗。OpenAI则与建筑工会合作，提前锁定熟练劳动力。同时，企业也将招聘目光投向高中生，鼓励年轻人投身技工行业。这些举措已见成效，Z世代对技工职业的兴趣显著上升。然而，更深层的挑战在于电力。AI数据中心用电量正以惊人速度增长，已推高部分地区的电价。此外，数据中心建设是项目制的，建设期需要成千上万的工人，但建成后仅需少量常驻人员。这意味着未来可能面临熟练工人短期过剩、并流向其他行业压低薪资的风险。如何实现劳动力与电力资源的长期平衡，仍是悬而未决的问题。

marsbit1小时前

marsbit1小时前

交易

现货

物理AI火了，我的一些新思考

文章摘要

从演示到干活

供应链的跨界抢跑

世界模型为什么今年突然能用起来了

范式变了

热门币种推荐

相关问答

你可能也喜欢

Upbit在内部钱包转账中重新平衡8640亿枚SHIB

生成模型也能端到端训练了？核心竟是一个for循环

每人最多20篇？ICLR新规遭DeepMind研究者「反讽」请愿

Coldcard漏洞致8900万美元被盗，引爆FTX后最大链上迁移潮

年薪百万抢电工，Meta急到自己办技校

交易

热门文章

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

从H2A到A2A：AI Agent经济体与Crypto新机遇

美股TradFi：传统金融在AI IPO浪潮下的稳健锚点

相关讨论

热门问答

热门分类

热门标签