李飞飞的世界模型宣言

marsbit发布于2026-06-09更新于2026-06-09

文章摘要

AI专家李飞飞近期发表技术博客，引用维特根斯坦“世界即所发生的一切”的观点，指出当前生成式AI虽能熟练处理语言，却缺乏对物理世界本质的理解。她强调，真正的“世界模型”应让机器超越文本统计，掌握物理空间与时间规律，这是实现具身智能的关键。针对“世界模型”概念日益模糊的现状，李飞飞提出了一个基于“部分可观测马尔可夫决策过程”的清晰框架，并拆解出其三大核心组件：渲染器、模拟器和规划器。 * **渲染器**：负责生成视觉上合理、美观的像素画面（如Sora等视频生成模型），但可能缺乏物理真实性。 * **模拟器**：追求对物理规律的严格遵循，是连接渲染与规划的枢纽，也是当前最薄弱但至关重要的环节，英伟达的Omniverse是该领域的代表。 * **规划器**：负责决策与行动输出，是机器从“观察者”变为“实践者”的关键。李飞飞认为，模拟器是实现AI工业化的核心，但其发展面临高质量3D物理数据稀缺、生成内容存在物理错误（如“穿模”）等巨大挑战。她同时预测，渲染、模拟与规划三者的界限正变得模糊，未来将趋向于一个统一的、可交互的基础模型，能无缝切换于视觉表现与物理仿真之间。最终，李飞飞指出，构建世界模型的竞争本质是定义物理世界数字标准的竞争，这是AI从“谈论世界”走向“理解并与世界交互”的必经之路，是迈向通用人工智能（AGI）的重要一步，但前路依然漫长。

“世界即所发生的一切。”

1921年,路德维希·维特根斯坦在《逻辑哲学论》中写下了这句名言。一个世纪后,这句话被AI领军人物之一李飞飞引用,成为了最新一篇技术博客的开篇。

在深度学习的版图里,人们近三年已经习惯了AI对语言的降维打击,始于ChatGPT赋予了机器远超人类的表达、编程和推理能力。

然而,数字奇迹的背后,一个盲区往往会被忽视:机器能谈论世界,却对世界的物理本质一无所知。李飞飞发布的这篇博客,像是一次冷静的降温。

在生成式AI已经成为全球必不可少的工具的今天,行业内部对“世界模型”的定义正在变得越来越混乱。无论是视频生成还是具身智能,各家公司都在争夺这一概念的解释权。

在李飞飞发布这篇博客之后,不少人都认为她在试图重新抢回“世界模型”的定义权。但恰恰相反,我想,李飞飞真正想要做的,是借此向人们发出一次宣言:世界并非由语言构成,而是由严密的物理空间和时间规律构成。

机器要想真正踏入人类的物理世界,就必须摆脱文本统计的舒适区,转而理解光影的折射、物体的惯性和碰撞的逻辑。这不仅是技术上的范式转移,也是AI迈向具身智能的必经之路。

01 人们需要一套分类法

必须承认的是,在AI的词典里,“世界模型”已经沦为一个万能代词,任何涉及到生成图像和模拟环境的项目似乎都能与它联系起来。而这种模糊性,正是源自于人们对“世界”定义的多维需求。

在一项技术刚刚起步时,自然不会有统一的法条来将它束缚在一个明确的界限之内。“世界模型”定义的这种混乱,在历史上也并不罕见。古希腊哲学家在争论世界的本质是水、火亦或是不可分割的原子时,其实他们就是在为自己的推理找基石。

AI领域现在遇到的也是同样的问题:当一个视频生成模型产出的效果在视觉上极其逼真,但在物理法则上完全不可能存在时,人们该如何定义它?李飞飞的博客中提及了一个古老而稳健的定义基础:部分可观测马尔可夫决策过程(POMDP)。

这也是强化学习机制的核心公理,它揭示了一个智能体与物理世界交互的永恒闭环:智能体采取行动(Action),导致世界状态(State)发生改变。然而,智能体没有上帝视角,只能通过观测(Observation)来构建对现实的局部感知。

所谓世界模型,本质上就是机器为了在这个闭环中生存,而在其“大脑”中构建的关于世界的抽象模型。如果这个闭环的某一环没有被明确定义,那么所谓的世界模型就仍然是像素的盲目堆叠。

02 构建智能的三大支柱

这个闭环听起来很简单,每一环的功能都易于理解。然而,若是仔细分析,内部都有无数个定义模糊不清的细节。为了解释其中的混乱,李飞飞拆解出了世界模型的三个核心组件,它们既是技术上的分类,也是AI通往具身智能的三大支柱。

1.渲染器(Renderer)

渲染器的核心逻辑就是视觉上的合理性。它的输出即为像素,致力于让画面在人类眼中显得自然、连贯、美观。

这也是目前商业化最成熟的领域。像是我们熟知的视频生成模型OpenAI的Sora和字节跳动的Seedance 2.0、图像生成模型OpenAI的GPT-image-2和Google的Nano Banana 2,本质上都是目前最精密的视觉概率机器。它们通过学习数以亿计的互联网图片和视频,最终掌握了光影和形态的分布规律。

看似美好的现实,李飞飞却指出,这是有代价的。这些顶级模型虽然能生成华丽的建筑,但如果试图在其生成的物理结构中进行交互,建筑大概率会因为缺乏支撑结构而瞬间坍塌。换句话说,它们并不理解何为“支撑”,生成的也只是观众“看到”的样子,而不是世界“存在”的样子。

2.模拟器(Simulator)

模拟器追求的,正是渲染器缺乏的结构忠诚度。它对视频好不好看完全不关心,唯一在乎的只有世界是否遵循物理规律。当一个模拟器输出一个再常见不过的杯子时,也必须包含杯子的质量分布、材质摩擦系数、重力响应以及碰撞时的物理边界。

有了模拟器,视频中的内容才有真实性可言。然而,模拟器在如今的AI浪潮中不仅被严重低估,还经常被无视。

从上面这个杯子的案例来看,模拟器的存在让“讨论艺术”变成了“研究物理”。要构造一个严格符合物理规律的模拟器,需要的计算资源和标注成本都是难以想象的。但对于机器人来说,视觉美观几乎是一个无用属性,物理精度才能决定一切。

模拟器不够精确,在其中训练的机器人就永远无法进入现实世界。Sim-to-Real挑战是客观存在的,实验室里100%通过的测试动作,到了现实世界,微小的摩擦力就能让机器人彻底瘫痪,这就是我们常说的“莫拉维克悖论”。

3.规划器(Planner)

规划器负责的是行动输出。作为感知和反馈的连接点,它需要解决“下一步该做什么”这个永远没有标准答案的核心问题。在李飞飞的框架中,这也是整个“感知-行动”闭环的最后一个环节,同时也是最具前沿挑战的领域。

目前所有的视觉-语言-动作(VLA)模型,都在尝试让系统在非结构化的复杂世界中做出决策。规划器不仅仅是预测未来,更是在无数种可能性中选择出一条最能达成目标的路径。它是机器从“观察者”进化为“实践者”的关键。

03 千亿美金的枢纽

在李飞飞给出的三个分类中,渲染器和规划器对应的模型已经比较常见;剩下的模拟器,理所当然地成为了最难实现的环节。李飞飞也给出了一个极具洞察力的判断:模拟器是连接渲染与规划的纽带,也是整个体系的核心枢纽。

在模拟器这一领域上做的最出色的,不是OpenAI、Anthropic和Google,而是黄仁勋的NVIDIA。

英伟达的Omniverse宣称能够支撑起万亿级的数字孪生梦想,原因就是它掌握了模拟器的本质。在英伟达的平台上,工厂、供应链和仓库的运作都已经变成完整的数字镜像。对于工业界而言,这就不再是视觉上的demo演示,而是生产力的核心基础设施。

这并非夸大其词,而是摆在所有人眼前的万亿市场的机会。

从建筑工程的虚拟可视化,到制药行业的分子动力学模拟,再到自动驾驶的场景测试。这些行业缺乏的不是栩栩如生的生图生视频模型,而是一个极高保真的模拟器。不夸张地说,掌握了物理世界的模拟能力,就等于掌握了AI工业化的优先入场券。

但现实中的困难使得这个领域几乎没有技术乐观主义者。李飞飞也坦言,巨大的鸿沟始终存在。

首先就是我们此前反复提及过的具身智能数据问题。互联网上的视频数据数不胜数,但带有明确几何结构、材料属性和物理反馈标注的3D数据却极度稀缺。

其次,生成式AI的应用永远会伴随着隐形风险。AI生成的几何模型最多只能做到视觉上的完美,但在物理结构上往往是不合理的,比如杯子与桌面的相交、物体碰撞失去体积感。在人类口中,短短两个字“穿模”就可以概括这些诡异的现象,但在真实的工业应用中,这就意味着灾难。

04 通向统一世界模型

纵使困难重重,李飞飞还是给出了对行业趋势的积极预判:渲染、模拟与规划之间的界限正在变得模糊不清。

这不是美好的远景,而是已经在发生的现实。李飞飞的World Labs团队经过探索,认为人类已经在迈向一个统一的基础模型。在这个架构中,想象力和逻辑能够合二为一。

未来的模型不再是单一功能的叠加和拼凑,而是一个统一的神经网络基础。它能一边通过高斯溅射渲染出逼真的场景,一边实时生成物理引擎所需的碰撞网格。简单来说,统一基础模型将会在人类所需的视觉模式和物理引擎所需的状态模式之间实现无缝切换。

从另一个角度来看,传统的模型都是静态的,而未来的世界模型将具备更强大的可交互性。渲染器将不再是被动的视频生成器,逐渐开始接受行动指令;模拟器变得更加可编辑和可控;规划器也能进行逻辑思考,根据环境变化自动调整策略。

05 空间智能的漫长弧线

最后,回到宏观层面来看,有关“世界模型”的这一切为什么重要?

在李飞飞看来,人类过去几十年的AI研究,都一直在寻找那一把能让机器走入物理世界的钥匙。如今,我们已经拥有善于处理逻辑的语言模型,接下来需要的就是处理空间的模型。空间智能的核心,就在于机器如何与其所处的物理世界进行交互。

这场仗,比的不是谁拥有更多的算力,而是谁能定义物理世界的数字标准。

世界模型绝不是一场简单的算法优化,而是一次AI进化的壮举。

“语言赋予了机器谈论这个世界的能力,而世界模型则是机器最终理解、想象、推理并与物理世界交互的方式。”

这个时代的每一个人,都在从谈论世界的阶段,走向真正理解并重构世界的新纪元。

尽管如此,世界模型也只是通往AGI道路上的一个中间节点,而人类创造出的AI离真正意义上的“世界模型”也还有很长的距离。在这里,另一位世界模型的领军人物杨立昆略显偏激的观点值得分享:

乐观来看,至少还要五到十年,机器的智能才能勉强接近一只小狗。

本文来自微信公众号“硅基星芒”,作者:思齐

你可能也喜欢

当LP用豆包教我投资：一位私募GP的转行自述

文章标题：当LP用豆包教我投资：一位私募GP的转行自述摘要：本文通过一位前小型私募美元基金普通合伙人（GP）“二狗”的转行经历，探讨了AI工具普及对私募基金行业，特别是采用主观策略的小型基金与有限合伙人（LP）之间关系的冲击。二狗指出，小型美元私募基金本就面临募资困境，原因包括其采用的“原始”开曼架构对亚洲LP吸引力不足，以及量化策略基金（尤其是AI赋能后）更受市场青睐。AI的普及进一步加剧了这一挑战。过去，GP的核心价值在于为LP提供专业的研究和决策支持。如今，AI工具实现了“信息平权”，LP能轻易获取分析并质疑GP的判断，导致双方摩擦增加，甚至引发撤资。文章以二狗清退一位使用AI结论频繁质疑其操作的LP为例，说明了这种新型矛盾。LP群体“成分复杂”，包括高净值个人、企业主等，他们在AI辅助下，有时会过度自信，特别是在牛市散户收益可能超越基金时，更容易动摇对GP的信任。然而，二狗认为问题关键不在于AI能力，而在于多数LP并未正确使用它。他们可能依赖“豆包”等陪伴式AI，这些工具为提供情绪价值可能产生“机器幻觉”，其逻辑自洽的分析未必符合事实。投资者往往是在寻求认同而非真相。最终，AI未必会完全取代GP，因为资产管理本质是基于信任的服务业。但行业需适应变化：GP应善用AI提升自身，同时，在AI追求效率最大化的未来，“人类私募”或许也需要加强提供情绪价值的能力。

Odaily星球日报6分钟前

因为 AI 裁员？研究显示 AI 比它替代的人更贵

今年已有近5万名员工因AI被裁员，但企业逐渐发现AI的实际使用成本高于其替代的人力。Uber在四个月内耗尽了全年AI预算，微软因成本过高削减了多个部门的Claude Code许可证。Anthropic内部甚至有员工单月API花费达15万美元，相当于需完成11名普通工程师的工作量才能平衡成本。调查显示，45%的企业每月AI支出超10万美元，但仅8%的标普500公司披露了AI相关收入，半数企业难以评估AI投资回报。Match Group CEO坦言，虽年投入500万至1000万美元，却难量化收益。随着成本压力增大，中国大模型因价格仅为美国模型的1/10至1/30而受到青睐。数据显示，中国模型在开发者中的使用占比从2024年的约1%跃升至今年5月的超60%，80%的美国AI初创公司已采用中国开源模型。Scott Galloway预测，企业将转向更经济的中国方案，这可能引发特朗普政府的限制措施。

marsbit20分钟前

marsbit20分钟前

王川：当隔壁老王投资存储股票赚了三十倍后，如何还能不焦虑 (七）- 四分之一世纪的轮回

本文是系列文章的第七篇，探讨投资泡沫中的风险与人性弱点。文章以“净美元留存率”等概念为例，指出泡沫上升期企业和市场常存在浮夸与“反身性”需求，即需求与投机行为相互强化，推动价格非理性上涨。这种由恐慌和流动性驱动的需求以及对应的“反身性”投机者，共同制造了市场的极端价格。作者进一步分析，存储、半导体等硬件行业面临更大风险，其周期并非由代码固定，复苏可能极其漫长。以美光、英特尔、思科为例，它们在21世纪初的股价高点，经历了超过25年才被突破，期间伴随超过80%的深度回撤。这背后是“牛鞭效应”（需求骤减但产能调整滞后导致严重过剩）和“叙事迁移”（资金追逐新故事，高估值叙事灵魂早逝）的共同作用。文章指出，在泡沫中获利容易给人植入两大危险“思维钢印”：一是误将短期强劲增长等同于长期趋势；二是认为赚快钱、赚大钱很容易。这种心态使人如参加没有指针时钟的舞会，沉醉于狂欢，难以在逆转前离场。最终，市场逆转时，估值体系崩溃，可能面临巨额亏损和长达数十年的等待。文末以“隔壁老王”为例，描绘了杠杆爆仓或急于翻本导致资源耗尽的典型结局。最后引用叔本华的比喻警示：同样的戏法看第二、第三次时，便失去了欺骗性，其魔力亦荡然无存。

marsbit29分钟前

王川：当隔壁老王投资存储股票赚了三十倍后，如何还能不焦虑 (七）- 四分之一世纪的轮回

marsbit29分钟前

美股太贵？这位顶尖CIO翻遍全球，找出了5支比英伟达更香的股票

Main Street Research首席投资官James Demmert认为，尽管他仍看好美股（标普500指数年内目标看至8100点），但当前海外市场存在更优的投资机会。他建议投资者将投资组合的45%配置于海外，以抓住估值更低、增长潜力更佳的机会。 Demmert重点推荐了五支国际股票： 1. **ASML**（荷兰）：作为全球芯片制造关键设备供应商，是参与AI革命并提供美元资产分散化的核心标的。若只能持有一支股票五年，他会选择ASML。 2. **汇丰控股**（HSBC，英国）：市盈率仅9倍，估值优于摩根大通，且在亚洲拥有强大业务网络，增长前景看好。 3. **西门子能源**（Siemens Energy，德国）：受益于全球AI、加密货币及电动汽车带来的电力紧缺，核心业务是电网建设，回调时是优先买入选择。 4. **必和必拓**（BHP Group，澳大利亚）：市盈率16倍。作为全球主要铜矿商，其需求直接受数据中心建设驱动，是隐形的“AI衍生品”投资。 5. **阿斯利康**（AstraZeneca，英国）：市盈率18倍，年增长超20%。医疗板块长期被低估，且预计下半年AI在医疗领域的应用将提振板块表现。 Demmert指出，国际股市跑赢美股不仅是估值优势，也因欧美政策分化：美国财政紧缩，而欧洲正进行大规模财政刺激以维持增长。他建议投资者增加海外配置，避免过度集中于美股。

marsbit34分钟前

marsbit34分钟前

a16z 合伙人：加密项目找 PMF 的三条活路

a16z Crypto运营合伙人Jason Rosenthal提出，加密项目找到产品市场匹配（PMF）是其生存发展的关键，并分享了三条当前验证有效的路径。首先，**绑定顶级客户，按需共建**。与所在领域最成熟的潜在客户（如大型金融机构）合作，根据他们的具体需求来定义产品。这种深度合作虽慢，但其采纳和验证比任何宣传或数据都更有价值，能精准指向PMF。其次，**抢占指数增长曲线的先机**。在市场完全爆发前，提前洞察趋势并卡位。当前最明确的曲线是AI Agent正在成为自主的经济行为体。例如，项目如AgentCash正在构建让AI Agent能用加密货币自主支付的基础设施，为即将到来的Agent经济铺设底层轨道。最后，**自己做第一个且最好的客户**。最持久的基础设施公司会先利用自身技术解决自己的实际问题，以此验证能力，再向外推广。例如，Matter Labs没有抽象地推销ZKsync技术，而是先用它构建了具体的代币化存款应用Cari Network，成功吸引了多家银行使用，从而证明了其基础设施的价值。核心逻辑在于，找到PMF的最快路径不是盲目试错，而是选择正确的战场，通过深度合作、前瞻布局或自身实践，带着信念坚定执行。

marsbit34分钟前

marsbit34分钟前

交易

现货

合约

李飞飞的世界模型宣言

文章摘要

01

人们需要一套分类法

02

构建智能的三大支柱

03

千亿美金的枢纽

04

通向统一世界模型

05

空间智能的漫长弧线

相关问答

你可能也喜欢

当LP用豆包教我投资：一位私募GP的转行自述

因为 AI 裁员？研究显示 AI 比它替代的人更贵

王川：当隔壁老王投资存储股票赚了三十倍后，如何还能不焦虑 (七）- 四分之一世纪的轮回

美股太贵？这位顶尖CIO翻遍全球，找出了5支比英伟达更香的股票

a16z 合伙人：加密项目找 PMF 的三条活路

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签