物理AI火了,我的一些新思考

marsbit发布于2026-05-18更新于2026-05-18

文章摘要

物理AI(Physical AI)概念正从学术走向产业,核心是让AI理解并作用于物理世界,在重力、摩擦力等真实环境中执行任务。这一概念2020年于《自然-机器智能》首次系统定义,历经六年传感器成本降低、算力工程化等发展,在2026年迎来“部署态元年”,关键标志是从演示走向实际“干活”。 产业方面,国内外公司加速推进。智元机器人将其人形机器人投入真实3C产线直播作业,并宣布万台量产,其“全栈自研”路线旨在建立深度壁垒。美国Figure AI估值高涨,其Figure 03机器人展示了自主完成家务的能力,并转向自研的“本能-反射-思考”三层神经网络系统Helix。英伟达则与四大工业机器人巨头合作,意图通过仿真平台成为下一代工业自动化的“操作系统”。 汽车供应链企业正跨界进入物理AI赛道,因其智能驾驶系统的感知、决策、执行模块与机器人技术同源,积累了可迁移的制造能力和供应链经验。特斯拉也计划利用其汽车制造经验,为人形机器人建设百万台产能生产线。 技术底座的突破在于“世界模型”的工程化。此前它因算力需求大、不稳定而难以实用,如今英伟达Cosmos、蚂蚁灵波LingBot-World、阿里巴巴ABot-PhysWorld等模型或平台,能通过合成数据高效生成符合物理规律的训练场景,大幅降低了数据获取成本,使世界模型从离线渲染走向在线交互,成为物理AI发展的关键杠杆。 这推动了机器人架构的范式变革:从传统的“感知-规划-控制”(工程师预设规则)转向“感知-推理-执行”(AI自主理解物理世界)。国际机构预测未来三年新机型将主要采用新架构。 当前赛道方向已定但格局未成,演示与量产能力差异巨大,真实数据的高成本使得合成数据至关重要。同时,来自汽车、工业自动化等领域的技术与制造能力正加速涌入。基础设施提供商可能像上一波AI浪潮一样,捕获核心价值。2026年只是竞争的开始,未来格局仍存变数。

文 | 新眸,作者 | 鹿尧

最近有个词在圈子里传得很热,叫“物理AI”。

这个词其实在去年初的拉斯维加斯CES展会上,就被黄仁勋演讲时反复念叨了十多遍,但直到今年,“Physical AI”才迎来了真正意义上的爆发。

那么,“物理AI”究竟是什么?

前两天我看到一段机器人浇花的视频,机器人先走到水龙头前,拧开阀门,把水壶灌满,然后转身走到花盆边,调整角度,把水均匀地浇进去,壶嘴没有撞到花盆边缘,水也没有洒出来。

让一台机器理解“端一杯水”,它得知道杯子是圆柱形的,得算出该用多大的力捏住才不会滑也不会碎,得明白水是液体、晃动会洒出来,得在行走过程中实时调整手臂角度来抵消身体的起伏。

这些东西,人类三岁小孩凭直觉就能做到。但对AI来说,这是一个巨大的跨越。过去十年,AI学会了看、学会了听、学会了说话、学会了画图,但它始终困在屏幕里。物理AI要做的事情,就是把这个聪明的大脑,装进一个能在真实世界里跑、跳、抓、放的躯体里。

说白了,物理AI就是让AI理解并作用于物理世界。它不再只是处理文字和图片,而是要在重力、摩擦力、惯性都起作用的环境里,做出正确的动作。

一个很少被国内讨论的事实是,“Physical AI”这个提法并非出自某个芯片巨头的公关部门。这个概念最早见于2020年的一篇论文,发表在《Nature Machine Intelligence》上。文中第一次系统定义了Physical AI:

一类能够执行通常与智能生物体相关联任务的实体系统,核心在于把物理规律深度整合进人工智能系统,让机器不再是“物理盲”,能够完成从感知到行动的闭环。

从2020年学术圈的一声枪响,到2026年产业界全面接棒,中间隔了整整六年。这六年里,传感器成本降低了几个量级,端侧AI算力从理论走向工程化,机器人本体的可靠性和量产能力也悄悄走到了临界点——这些才是物理AI从论文走向产线的隐性推力。

从演示到干活

如果说2023年的大语言模型让AI学会了聊天,那2026年物理AI的关键词只有一个:干活。

事情的变化是肉眼可见的。

去年这个时候,机器人公司出来秀肌肉的方式还是拍Demo视频,设定好场景,反复排练,一镜到底。好看是好看,但你不知道它拍了多少遍。

而今年,玩法完全不同了。今年智元机器人在南昌的一条3C产线上做了一件事:把机器人扔进真实工厂,连续干了几个小时的活,全程直播。没有预设剧本,没有限定场景,就是工人日常面对的那条产线。几十万人次在线围观。

一个月后,智元在香港宣布人形机器人实现万台量产。从实验室里的一台原型机,到工厂产线上的一万台,这个坎翻过去,性质就变了。

智元的路线很有意思,大多数机器人创业公司聚焦在某个环节上,做本体的只管本体,做大模型的只管大模型,做灵巧手的只管手。智元选了另一条路:全栈都做,同时布局本体制造、AI模型、灵巧操作和数据采集四个方向,还投资了60多家产业链上下游公司。

这么做的代价也很直观,母公司员工一千多人,到今年底预计进一步突破人,光薪资一年就是十几到二十个亿。这条路烧钱,但一旦跑通,壁垒也最深。

智元创始人邓泰华提过一个叫“XYZ曲线”的分析框架。他说具身智能的发展分三个阶段:X是开发尝鲜期,大家还在玩Demo;Y是部署成长期,机器人开始真正进产线干活;Z是终局的智能涌现期。

他给2026年的定性是:“部署态元年,正式从‘能动’走向‘会干’”。“能动”和“能干”,差一个字,但差的是整个产业的成年礼。

海外也在冲刺,太平洋对岸的节奏一点不慢。

美国人形机器人公司Figure AI是这条赛道上一个绕不开的名字。去年9月,他们完成了一轮超过10亿美元的融资,估值干到了390亿美元,在那会儿是全球估值最高的人形机器人公司。

一个月后发布了新一代产品Figure 03,1米68的身高,差不多60公斤重,演示了浇花、端菜、叠衣服这些家务活。创始人Brett Adcock特意在社交媒体上补了一句:所有动作都是机器人自主完成的,没有人在背后遥控。

技术上值得留意的是,Figure做了一次重大的路线调整,终止了和OpenAI的合作,全面转向自研的神经网络系统Helix。

这套系统模仿人类认知做成了三层结构,最底层管平衡和本能反应,中间层把大脑指令翻译成每秒200次的电机控制,最高层是逻辑大脑,负责理解场景和做决策。这个“本能-反射-思考”的三层架构,思路挺巧妙的,相当于给机器人装了一个不会宕机的神经系统。

还有件事值得一提。今年英伟达在GTC大会上宣布了一个动作:和全球四大工业机器人巨头,ABB、库卡、安川、发那科,达成了深度合作。全球已经安装在产线上的超过200万台工业机器人,以后可以通过英伟达的仿真平台做虚拟调试和AI训练。

这四家公司加一块占了全球工业机器人市场超过一半的份额。接下来十年,这些机器人都会面临一轮从“传统编程”到“AI驱动”的升级换代。未来哪个软件平台能嵌进这个进程,就相当于拿到了下一代工业自动化的“操作系统”层。英伟达显然不想错过这张船票。

供应链的跨界抢跑

还有一个有意思的现象:汽车供应链企业正在成规模地涌进物理AI赛道。

今年北京车展上,安波福、法雷奥、地平线、千寻位置这些老牌汽车供应商,扎堆展示了机器人相关方案。当时不少业内人士都认识到,具身智能感知和汽车智驾的感知是一样的,汽车的解决方案可以直接用到人形机器人上。

仔细一想确实如此。汽车智能驾驶系统本质上就是一个“移动机器人”的感知-决策-执行闭环,其中的视觉感知、路径规划、实时控制三大模块,与传统工业机器人和人形机器人在技术架构上高度同源。

汽车供应商手中的摄像头、雷达、线控底盘和实时操作系统,稍加适配就能迁移到机器人领域。从这个意义上说,汽车产业过去十年在智能化上烧的上千亿研发费用,正在以“技术溢出”的方式流进物理AI赛道。

这或许能解释为什么中国的机器人公司能这么快冲进量产阶段。制造能力和供应链管理不是凭空长出来的,很多是现成的。那些已经在汽车产线上磨合了十几年的零部件供应商,现在换了个新战场。

国外有现成的案例,就拿特斯拉来说,它的第一代人形机器人Optimus也在加速入场。此前特斯拉在2026年第一季度财报电话会议上明确宣布,公司将向“以AI、自动驾驶出租车和人形机器人为核心的未来转型”,第一代机器人生产线将下线100万台产能,并取代现有Model S和Model X的生产线。

100万台的数字放到今天的语境里可能显得夸张,但特斯拉的逻辑是清楚的:它要把汽车制造领域积累的大规模生产能力和供应链管理经验,直接复制到人形机器人领域。

马斯克要的不是一台“能动的机器人”,而是一台能在工厂里和人类协同作业的“量产工具”。这条路一旦走通,它对制造业自动化格局的冲击将不亚于Model 3对燃油车市场的冲击。

世界模型为什么今年突然能用起来了

讲完了产业层面的大厂动作,不妨把镜头往深拉一层,这场物理AI竞赛的技术底座是什么?

如果用一句话概括,那就是:世界模型的工程化突破。我觉得这也是理解这波浪潮最关键的一点。

“世界模型”这个概念不新了,2018年就有人提出来,核心想法很简单:让AI学会一套对物理世界运转规律的内部理解,这样它就能预测“如果我推这个杯子一下,会发生什么”。但以前这东西基本只活在论文里——太吃算力,生成质量不稳定,做不了实时交互。

转折发生在最近一年。英伟达推出了一个叫Cosmos的系列模型,它的核心能力就是从文字或图像生成符合物理规律的动作数据。

举个例子:你想训练一台机器人学会在各种天气下搬箱子,不用真的在雨天、雪天、半夜去工厂里拍视频。在仿真环境里设定好参数,Cosmos可以直接生成海量的、高度逼真的训练数据,覆盖各种极端场景。

今年年初,蚂蚁灵波团队开源了一个叫LingBot-World的框架,专门做交互式世界模型。它能实现近10分钟连续稳定的视频生成,端到端交互延迟控制在秒单位。用户可以像打游戏一样,用键盘和鼠标实时控制虚拟角色,模型即时反馈场景变化。这个意义在于,世界模型从“离线渲染”变成了“在线交互”,训练效率提升了一个量级。

还有创业公司极佳视界发布了GigaWorld-1平台,定位是物理世界的“数字沙盒”。一个月后,阿里巴巴的ABot-PhysWorld在一个叫WorldArena的评测基准上超过了它,综合排名冲到了第一。竞争正在以月为单位往前拱。

这些开源项目的重要性不在于参数有多高,而在于它们把一个“只有巨头玩得起”的游戏,变成了“小团队也能上手”的工具。当造轮子的人足够多,真正跑起来的车才会多。

世界模型之所以在物理AI时代成为核心要件,是因为它回答了那个一直悬而未决的问题:如何让机器人以低成本、高效率的方式学会物理世界的复杂规律?

真实世界的训练数据获取成本极高,且天然带有分布偏差,你很难在现实中凑齐工厂暴雪夜班、物流仓库断电应急、产线工人突发介入等所有边缘场景。但合成数据可以。通过在仿真环境中用提示词操控场景参数,研究者可以在数小时内生成覆盖极端条件的大规模训练视频,这在传统实采路线下需要数月甚至数年。

这个突破的杠杆效应,可能超过一切单一算法改进。

范式变了

世界模型的突破,其实只是物理AI技术栈进化的一部分。底层技术的变化,正在推动整个机器人行业的架构重建。

传统机器人用的是“感知、规划、控制”三段式。先由传感器感知环境,工程师写好规则告诉机器怎么规划路径,最后执行动作。这在工厂流水线这种结构化环境里没问题,但场景一复杂就暴露短板,机器只会按预设剧本走,遇到没见过的状况直接卡住。

物理AI走的是另一条路:“感知、推理、执行”。感知之后不经过人类写死的规则,而是由训练过的神经网络自己推理出该做什么,然后执行。本质的区别在于,前者是“工程师替机器思考”,后者是“机器自己理解物理世界”。

国际机器人标准组织今年发布了一份技术路线图,预测未来三年内,80%的新机型将采用这种新架构,传统三段式方案会逐渐退出主流。这不是小修小补,是整套范式的换轨。

就像某位业内专家说的,我觉得总结得挺到位:物理AI是AI发展的终极模式,因为它不仅需要理解人的指令,还要理解物理世界的所有规律。

黄仁勋说机器人开发的ChatGPT时刻已然到来。”在我看来,物理AI和语言模型的“ChatGPT时刻”性质完全不同。语言模型的“那一刻”是让全世界普通人第一次亲手用上了AI。而物理AI的“那一刻”,是让AI第一次真正开始干活。

如今这个赛道处于一个很特殊的阶段:方向被锁定了,概念被认可了,但格局还没定。

一方面,做演示和做量产是两套完全不同的能力体系。一台样机能跑通,一万台产品在真实场景里考验的是制造一致性、供应链韧性、场景泛化能力、运维体系,这些跟AI算法没什么关系,但每一项都足够卡死一批玩家。另一方面,真实世界的数据采集成本高、周期长、覆盖面窄,这几乎注定了物理AI的大规模训练将严重依赖合成数据。

与此同时,从汽车供应链、传统工业自动化,到消费电子代工,这些看起来和“AI”关系不大的行业,正在以技术溢出的方式加速切入物理AI。它们的制造能力、供应链管理经验和场景资源,可能是决定物理AI落地速度的关键变量。

一个直觉性的判断是,你看2023年初ChatGPT引爆的那波AI浪潮,真正赚到最多价值的不是模型厂商,而是基础设施提供商。物理AI这波浪潮会不会重演同样的剧情?

英伟达的布局暗示着它正在赌这个方向,但故事还没写完。2026年是部署态元年,产业竞争才刚刚开始。三年后回看今天,哪些名字还在牌桌上,哪些已经出局,可能会出乎大多数人的意料。

相关问答

Q什么是物理AI?它的核心目标是什么?

A物理AI(Physical AI)是一类能够执行通常与智能生物体相关联任务的实体系统,其核心在于将物理规律深度整合进人工智能系统,让机器理解并作用于真实的物理世界。它的目标是让AI不再只是处理文字和图片,而是能够在重力、摩擦力、惯性都起作用的环境里,完成从感知到行动的闭环,做出正确的物理动作。

Q文章中提到2026年是物理AI发展的哪个关键阶段?这一阶段有什么特点?

A文章将2026年定性为物理AI的“部署态元年”。这一阶段的关键特点是从‘能动’走向‘能干’。它标志着物理AI从实验室演示(Demo阶段)正式进入在真实场景(如工厂产线)中部署和成长,机器人开始真正地“干活”,这是整个产业迈向成熟的标志。

Q汽车供应链企业涌入物理AI赛道的原因是什么?这带来了什么优势?

A原因在于汽车智能驾驶系统(一个“移动机器人”)的感知、决策、执行技术,与机器人的技术架构高度同源。汽车供应商的摄像头、雷达、线控底盘和实时操作系统等,稍加适配就能迁移到机器人领域。这带来了“技术溢出”的优势,使得中国等地的机器人公司能快速利用现成的制造能力和供应链管理经验,加速进入量产阶段。

Q“世界模型”的工程化突破对物理AI发展有何关键意义?

A世界模型的工程化突破是物理AI浪潮的关键技术底座。它的意义在于,能以低成本、高效率的方式让AI学会物理世界的复杂规律。通过在仿真环境中生成海量、逼真且覆盖极端场景的训练数据(合成数据),解决了真实世界数据采集成本高、周期长、覆盖面窄的难题,极大提升了机器人的训练效率和泛化能力,使其从“离线渲染”走向“在线交互”。

Q物理AI的技术架构与传统机器人有何根本不同?这种“范式”变化意味着什么?

A根本不同在于决策路径。传统机器人采用“感知、规划、控制”三段式,由工程师预设规则,机器按剧本执行。物理AI采用“感知、推理、执行”的新架构,感知后由训练过的神经网络自主推理并执行动作。这意味着从“工程师替机器思考”变为“机器自己理解物理世界”。这种范式变化推动整个行业架构重建,是实现机器在复杂非结构化环境中自主作业的关键。

你可能也喜欢

霍斯金森否认退出卡尔达诺的传闻:'我不会离开'

卡尔达诺创始人查尔斯·霍斯金森在6月4日的直播中否认了关于他将离开生态系统的传言,称自己只是减少公开沟通,并非辞职。此前他在X平台发布的“休息一下”帖子引发了社区担忧。 霍斯金森在直播中表示,他决定远离社交媒体主要是因为X平台上的毒性环境已难以忍受。他分析了自己近期帖子的约130条回复,发现近三分之一充满敌意、辱骂或污言秽语,部分甚至显示出有组织的攻击迹象。他认为在这种环境下进行有意义的交流几乎不可能。 他强调自己并未离开卡尔达诺,仍致力于包括RealFi、比特币可编程化、Midnight等项目的研究与开发工作。但他明确表示,自己的热情并非推动ADA价格上涨以满足投机者,他从未将此视为自己的职责。 霍斯金森描述了“两个卡尔达诺”的现状:一方面,自2021年以来协议、工程基础、去中心化和研究栈取得了显著进步;另一方面,市场价格表现导致批评者称该项目失败。这种差距造成了“认知失调”,他认为社区需要解决这个问题。 他呼吁生态系统需要做出改变:放弃以X为主要讨论场所、重新思考建设者激励、调整部分管理文化,并制定一个新的路线图以凝聚共识。他特别批评了卡尔达诺基金会,称其治理结构是自己职业生涯中“最糟糕的错误”,社区缺乏对其董事会、优先事项和人员的有效问责机制。 霍斯金森表示将暂时远离公开视频、采访和社交媒体,继续专注于Midnight的工作。他计划进行反思和恢复,未来再提出关于卡尔达诺发展的建议,范围可能从渐进式改革到更彻底的变革。他强调自己的底线是必须得到尊重和尊严,只愿留在能确保这一点的沟通渠道中。

bitcoinist51分钟前

霍斯金森否认退出卡尔达诺的传闻:'我不会离开'

bitcoinist51分钟前

美国参议员敦促银行监管机构制定‘公平’的加密货币资本规则

美国参议员呼吁制定“公平”的加密资本规则。由参议院数字资产小组委员会主席辛西娅·卢米斯牵头,多名共和党参议员致信美联储、联邦存款保险公司(FDIC)及货币监理署(OCC)负责人,要求为银行从事加密资产活动建立更清晰、公平的资本框架。 信中批评了巴塞尔银行监管委员会现行的加密资产资本标准,该标准对加密资产施加了1250%的风险权重,参议员们认为这并非基于实际风险评估,而像是一种按资产类别“一刀切”的惩罚,实质上阻碍了银行持有此类资产,与监管机构倡导的“技术中立”原则相悖。 议员们赞赏了监管机构近期关于代币化证券的联合指引,该指引明确了此类资产应获得与其非代币化对应物同等的资本待遇。他们敦促监管机构将这一风险导向原则一致性地应用于其他数字资产,并基于近期在加密市场结构法案方面的进展,开始为银行的资产负债表加密资产活动制定新的资本框架。 与此同时,FDIC、OCC和美联储负责人近期在国会作证时,概述了其转向更“基于风险”的监管方向,旨在改革监管框架以提高效率,并审查过去的监管措施。他们强调,强有力的资本标准对保障银行体系韧性和支持经济增长至关重要,同时监管应促进而非阻碍负责任的创新。

bitcoinist2小时前

美国参议员敦促银行监管机构制定‘公平’的加密货币资本规则

bitcoinist2小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

545人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片