李飞飞的世界模型宣言

marsbit发布于2026-06-09更新于2026-06-09

文章摘要

AI专家李飞飞近期发表技术博客,引用维特根斯坦“世界即所发生的一切”的观点,指出当前生成式AI虽能熟练处理语言,却缺乏对物理世界本质的理解。她强调,真正的“世界模型”应让机器超越文本统计,掌握物理空间与时间规律,这是实现具身智能的关键。 针对“世界模型”概念日益模糊的现状,李飞飞提出了一个基于“部分可观测马尔可夫决策过程”的清晰框架,并拆解出其三大核心组件:渲染器、模拟器和规划器。 * **渲染器**:负责生成视觉上合理、美观的像素画面(如Sora等视频生成模型),但可能缺乏物理真实性。 * **模拟器**:追求对物理规律的严格遵循,是连接渲染与规划的枢纽,也是当前最薄弱但至关重要的环节,英伟达的Omniverse是该领域的代表。 * **规划器**:负责决策与行动输出,是机器从“观察者”变为“实践者”的关键。 李飞飞认为,模拟器是实现AI工业化的核心,但其发展面临高质量3D物理数据稀缺、生成内容存在物理错误(如“穿模”)等巨大挑战。她同时预测,渲染、模拟与规划三者的界限正变得模糊,未来将趋向于一个统一的、可交互的基础模型,能无缝切换于视觉表现与物理仿真之间。 最终,李飞飞指出,构建世界模型的竞争本质是定义物理世界数字标准的竞争,这是AI从“谈论世界”走向“理解并与世界交互”的必经之路,是迈向通用人工智能(AGI)的重要一步,但前路依然漫长。

“世界即所发生的一切。”

1921年,路德维希·维特根斯坦在《逻辑哲学论》中写下了这句名言。一个世纪后,这句话被AI领军人物之一李飞飞引用,成为了最新一篇技术博客的开篇。

在深度学习的版图里,人们近三年已经习惯了AI对语言的降维打击,始于ChatGPT赋予了机器远超人类的表达、编程和推理能力。

然而,数字奇迹的背后,一个盲区往往会被忽视:机器能谈论世界,却对世界的物理本质一无所知。李飞飞发布的这篇博客,像是一次冷静的降温。

在生成式AI已经成为全球必不可少的工具的今天,行业内部对“世界模型”的定义正在变得越来越混乱。无论是视频生成还是具身智能,各家公司都在争夺这一概念的解释权。

在李飞飞发布这篇博客之后,不少人都认为她在试图重新抢回“世界模型”的定义权。但恰恰相反,我想,李飞飞真正想要做的,是借此向人们发出一次宣言:世界并非由语言构成,而是由严密的物理空间和时间规律构成。

机器要想真正踏入人类的物理世界,就必须摆脱文本统计的舒适区,转而理解光影的折射、物体的惯性和碰撞的逻辑。这不仅是技术上的范式转移,也是AI迈向具身智能的必经之路。

01

人们需要一套分类法

必须承认的是,在AI的词典里,“世界模型”已经沦为一个万能代词,任何涉及到生成图像和模拟环境的项目似乎都能与它联系起来。而这种模糊性,正是源自于人们对“世界”定义的多维需求。

在一项技术刚刚起步时,自然不会有统一的法条来将它束缚在一个明确的界限之内。“世界模型”定义的这种混乱,在历史上也并不罕见。古希腊哲学家在争论世界的本质是水、火亦或是不可分割的原子时,其实他们就是在为自己的推理找基石。

AI领域现在遇到的也是同样的问题:当一个视频生成模型产出的效果在视觉上极其逼真,但在物理法则上完全不可能存在时,人们该如何定义它?李飞飞的博客中提及了一个古老而稳健的定义基础:部分可观测马尔可夫决策过程(POMDP)。

这也是强化学习机制的核心公理,它揭示了一个智能体与物理世界交互的永恒闭环:智能体采取行动(Action),导致世界状态(State)发生改变。然而,智能体没有上帝视角,只能通过观测(Observation)来构建对现实的局部感知。

所谓世界模型,本质上就是机器为了在这个闭环中生存,而在其“大脑”中构建的关于世界的抽象模型。如果这个闭环的某一环没有被明确定义,那么所谓的世界模型就仍然是像素的盲目堆叠。

02

构建智能的三大支柱

这个闭环听起来很简单,每一环的功能都易于理解。然而,若是仔细分析,内部都有无数个定义模糊不清的细节。为了解释其中的混乱,李飞飞拆解出了世界模型的三个核心组件,它们既是技术上的分类,也是AI通往具身智能的三大支柱。

1.渲染器(Renderer)

渲染器的核心逻辑就是视觉上的合理性。它的输出即为像素,致力于让画面在人类眼中显得自然、连贯、美观。

这也是目前商业化最成熟的领域。像是我们熟知的视频生成模型OpenAI的Sora和字节跳动的Seedance 2.0、图像生成模型OpenAI的GPT-image-2和Google的Nano Banana 2,本质上都是目前最精密的视觉概率机器。它们通过学习数以亿计的互联网图片和视频,最终掌握了光影和形态的分布规律。

看似美好的现实,李飞飞却指出,这是有代价的。这些顶级模型虽然能生成华丽的建筑,但如果试图在其生成的物理结构中进行交互,建筑大概率会因为缺乏支撑结构而瞬间坍塌。换句话说,它们并不理解何为“支撑”,生成的也只是观众“看到”的样子,而不是世界“存在”的样子。

2.模拟器(Simulator)

模拟器追求的,正是渲染器缺乏的结构忠诚度。它对视频好不好看完全不关心,唯一在乎的只有世界是否遵循物理规律。当一个模拟器输出一个再常见不过的杯子时,也必须包含杯子的质量分布、材质摩擦系数、重力响应以及碰撞时的物理边界。

有了模拟器,视频中的内容才有真实性可言。然而,模拟器在如今的AI浪潮中不仅被严重低估,还经常被无视。

从上面这个杯子的案例来看,模拟器的存在让“讨论艺术”变成了“研究物理”。要构造一个严格符合物理规律的模拟器,需要的计算资源和标注成本都是难以想象的。但对于机器人来说,视觉美观几乎是一个无用属性,物理精度才能决定一切。

模拟器不够精确,在其中训练的机器人就永远无法进入现实世界。Sim-to-Real挑战是客观存在的,实验室里100%通过的测试动作,到了现实世界,微小的摩擦力就能让机器人彻底瘫痪,这就是我们常说的“莫拉维克悖论”。

3.规划器(Planner)

规划器负责的是行动输出。作为感知和反馈的连接点,它需要解决“下一步该做什么”这个永远没有标准答案的核心问题。在李飞飞的框架中,这也是整个“感知-行动”闭环的最后一个环节,同时也是最具前沿挑战的领域。

目前所有的视觉-语言-动作(VLA)模型,都在尝试让系统在非结构化的复杂世界中做出决策。规划器不仅仅是预测未来,更是在无数种可能性中选择出一条最能达成目标的路径。它是机器从“观察者”进化为“实践者”的关键。

03

千亿美金的枢纽

在李飞飞给出的三个分类中,渲染器和规划器对应的模型已经比较常见;剩下的模拟器,理所当然地成为了最难实现的环节。李飞飞也给出了一个极具洞察力的判断:模拟器是连接渲染与规划的纽带,也是整个体系的核心枢纽。

在模拟器这一领域上做的最出色的,不是OpenAI、Anthropic和Google,而是黄仁勋的NVIDIA。

英伟达的Omniverse宣称能够支撑起万亿级的数字孪生梦想,原因就是它掌握了模拟器的本质。在英伟达的平台上,工厂、供应链和仓库的运作都已经变成完整的数字镜像。对于工业界而言,这就不再是视觉上的demo演示,而是生产力的核心基础设施。

这并非夸大其词,而是摆在所有人眼前的万亿市场的机会。

从建筑工程的虚拟可视化,到制药行业的分子动力学模拟,再到自动驾驶的场景测试。这些行业缺乏的不是栩栩如生的生图生视频模型,而是一个极高保真的模拟器。不夸张地说,掌握了物理世界的模拟能力,就等于掌握了AI工业化的优先入场券。

但现实中的困难使得这个领域几乎没有技术乐观主义者。李飞飞也坦言,巨大的鸿沟始终存在。

首先就是我们此前反复提及过的具身智能数据问题。互联网上的视频数据数不胜数,但带有明确几何结构、材料属性和物理反馈标注的3D数据却极度稀缺。

其次,生成式AI的应用永远会伴随着隐形风险。AI生成的几何模型最多只能做到视觉上的完美,但在物理结构上往往是不合理的,比如杯子与桌面的相交、物体碰撞失去体积感。在人类口中,短短两个字“穿模”就可以概括这些诡异的现象,但在真实的工业应用中,这就意味着灾难。

04

通向统一世界模型

纵使困难重重,李飞飞还是给出了对行业趋势的积极预判:渲染、模拟与规划之间的界限正在变得模糊不清。

这不是美好的远景,而是已经在发生的现实。李飞飞的World Labs团队经过探索,认为人类已经在迈向一个统一的基础模型。在这个架构中,想象力和逻辑能够合二为一。

未来的模型不再是单一功能的叠加和拼凑,而是一个统一的神经网络基础。它能一边通过高斯溅射渲染出逼真的场景,一边实时生成物理引擎所需的碰撞网格。简单来说,统一基础模型将会在人类所需的视觉模式和物理引擎所需的状态模式之间实现无缝切换。

从另一个角度来看,传统的模型都是静态的,而未来的世界模型将具备更强大的可交互性。渲染器将不再是被动的视频生成器,逐渐开始接受行动指令;模拟器变得更加可编辑和可控;规划器也能进行逻辑思考,根据环境变化自动调整策略。

05

空间智能的漫长弧线

最后,回到宏观层面来看,有关“世界模型”的这一切为什么重要?

在李飞飞看来,人类过去几十年的AI研究,都一直在寻找那一把能让机器走入物理世界的钥匙。如今,我们已经拥有善于处理逻辑的语言模型,接下来需要的就是处理空间的模型。空间智能的核心,就在于机器如何与其所处的物理世界进行交互。

这场仗,比的不是谁拥有更多的算力,而是谁能定义物理世界的数字标准。

世界模型绝不是一场简单的算法优化,而是一次AI进化的壮举。

“语言赋予了机器谈论这个世界的能力,而世界模型则是机器最终理解、想象、推理并与物理世界交互的方式。”

这个时代的每一个人,都在从谈论世界的阶段,走向真正理解并重构世界的新纪元。

尽管如此,世界模型也只是通往AGI道路上的一个中间节点,而人类创造出的AI离真正意义上的“世界模型”也还有很长的距离。在这里,另一位世界模型的领军人物杨立昆略显偏激的观点值得分享:

乐观来看,至少还要五到十年,机器的智能才能勉强接近一只小狗。

本文来自微信公众号“硅基星芒”,作者:思齐

相关问答

Q李飞飞在她关于世界模型的技术博客中,引用了哪位哲学家的名言来开篇?

A李飞飞引用了奥地利哲学家路德维希·维特根斯坦在其著作《逻辑哲学论》中的名言:“世界即所发生的一切。”

Q根据文章,目前生成式AI存在的一个主要“盲区”或局限性是什么?

A根据文章,目前生成式AI(如大语言模型)存在的主要盲区是:机器能谈论世界,却对世界的物理本质一无所知。它们擅长语言、编程和推理,但不理解物理空间、时间规律和物体间的相互作用。

Q李飞飞提出了构建世界模型的哪三大核心支柱或组件?

A李飞飞提出了构建世界模型的三大核心支柱:1. **渲染器**:负责生成视觉上合理、美观的图像或视频,关注光影和形态的分布规律。2. **模拟器**:负责确保内容的物理真实性,遵循物理规律(如质量、重力、碰撞),关注结构忠诚度。3. **规划器**:负责行动决策,在复杂环境中选择达成目标的最佳路径,是连接感知与行动的关键。

Q在李飞飞的分类中,哪个组件被认为是连接渲染与规划的“核心枢纽”,并且哪个公司在此领域表现出色?

A在李飞飞的分类中,**模拟器**被认为是连接渲染与规划的“核心枢纽”。文章指出,在这一领域表现出色的公司是**英伟达**,其Omniverse平台致力于构建高保真的物理模拟器,服务于数字孪生和工业应用。

Q文章中提到,要实现真正的具身智能和高级世界模型,面临的主要困难是什么?

A文章提到实现真正的具身智能和世界模型面临两大主要困难:1. **数据问题**:互联网上视频数据丰富,但带有精确几何结构、材料属性和物理反馈标注的3D数据极度稀缺。2. **物理保真度问题**:当前生成式AI(渲染器)生成的模型在视觉上完美,但物理结构上常常不合理(如物体“穿模”、缺乏支撑结构),这在工业应用中会导致严重问题。此外,构建高精度模拟器所需的计算和标注成本也极高。

你可能也喜欢

当LP用豆包教我投资:一位私募GP的转行自述

文章标题:当LP用豆包教我投资:一位私募GP的转行自述 摘要: 本文通过一位前小型私募美元基金普通合伙人(GP)“二狗”的转行经历,探讨了AI工具普及对私募基金行业,特别是采用主观策略的小型基金与有限合伙人(LP)之间关系的冲击。 二狗指出,小型美元私募基金本就面临募资困境,原因包括其采用的“原始”开曼架构对亚洲LP吸引力不足,以及量化策略基金(尤其是AI赋能后)更受市场青睐。AI的普及进一步加剧了这一挑战。过去,GP的核心价值在于为LP提供专业的研究和决策支持。如今,AI工具实现了“信息平权”,LP能轻易获取分析并质疑GP的判断,导致双方摩擦增加,甚至引发撤资。 文章以二狗清退一位使用AI结论频繁质疑其操作的LP为例,说明了这种新型矛盾。LP群体“成分复杂”,包括高净值个人、企业主等,他们在AI辅助下,有时会过度自信,特别是在牛市散户收益可能超越基金时,更容易动摇对GP的信任。 然而,二狗认为问题关键不在于AI能力,而在于多数LP并未正确使用它。他们可能依赖“豆包”等陪伴式AI,这些工具为提供情绪价值可能产生“机器幻觉”,其逻辑自洽的分析未必符合事实。投资者往往是在寻求认同而非真相。 最终,AI未必会完全取代GP,因为资产管理本质是基于信任的服务业。但行业需适应变化:GP应善用AI提升自身,同时,在AI追求效率最大化的未来,“人类私募”或许也需要加强提供情绪价值的能力。

Odaily星球日报6分钟前

当LP用豆包教我投资:一位私募GP的转行自述

Odaily星球日报6分钟前

王川:当隔壁老王投资存储股票赚了三十倍后,如何还能不焦虑 (七)- 四分之一世纪的轮回

本文是系列文章的第七篇,探讨投资泡沫中的风险与人性弱点。文章以“净美元留存率”等概念为例,指出泡沫上升期企业和市场常存在浮夸与“反身性”需求,即需求与投机行为相互强化,推动价格非理性上涨。这种由恐慌和流动性驱动的需求以及对应的“反身性”投机者,共同制造了市场的极端价格。 作者进一步分析,存储、半导体等硬件行业面临更大风险,其周期并非由代码固定,复苏可能极其漫长。以美光、英特尔、思科为例,它们在21世纪初的股价高点,经历了超过25年才被突破,期间伴随超过80%的深度回撤。这背后是“牛鞭效应”(需求骤减但产能调整滞后导致严重过剩)和“叙事迁移”(资金追逐新故事,高估值叙事灵魂早逝)的共同作用。 文章指出,在泡沫中获利容易给人植入两大危险“思维钢印”:一是误将短期强劲增长等同于长期趋势;二是认为赚快钱、赚大钱很容易。这种心态使人如参加没有指针时钟的舞会,沉醉于狂欢,难以在逆转前离场。最终,市场逆转时,估值体系崩溃,可能面临巨额亏损和长达数十年的等待。 文末以“隔壁老王”为例,描绘了杠杆爆仓或急于翻本导致资源耗尽的典型结局。最后引用叔本华的比喻警示:同样的戏法看第二、第三次时,便失去了欺骗性,其魔力亦荡然无存。

marsbit29分钟前

王川:当隔壁老王投资存储股票赚了三十倍后,如何还能不焦虑 (七)- 四分之一世纪的轮回

marsbit29分钟前

美股太贵?这位顶尖CIO翻遍全球,找出了5支比英伟达更香的股票

Main Street Research首席投资官James Demmert认为,尽管他仍看好美股(标普500指数年内目标看至8100点),但当前海外市场存在更优的投资机会。他建议投资者将投资组合的45%配置于海外,以抓住估值更低、增长潜力更佳的机会。 Demmert重点推荐了五支国际股票: 1. **ASML**(荷兰):作为全球芯片制造关键设备供应商,是参与AI革命并提供美元资产分散化的核心标的。若只能持有一支股票五年,他会选择ASML。 2. **汇丰控股**(HSBC,英国):市盈率仅9倍,估值优于摩根大通,且在亚洲拥有强大业务网络,增长前景看好。 3. **西门子能源**(Siemens Energy,德国):受益于全球AI、加密货币及电动汽车带来的电力紧缺,核心业务是电网建设,回调时是优先买入选择。 4. **必和必拓**(BHP Group,澳大利亚):市盈率16倍。作为全球主要铜矿商,其需求直接受数据中心建设驱动,是隐形的“AI衍生品”投资。 5. **阿斯利康**(AstraZeneca,英国):市盈率18倍,年增长超20%。医疗板块长期被低估,且预计下半年AI在医疗领域的应用将提振板块表现。 Demmert指出,国际股市跑赢美股不仅是估值优势,也因欧美政策分化:美国财政紧缩,而欧洲正进行大规模财政刺激以维持增长。他建议投资者增加海外配置,避免过度集中于美股。

marsbit34分钟前

美股太贵?这位顶尖CIO翻遍全球,找出了5支比英伟达更香的股票

marsbit34分钟前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.5k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片