李飞飞的世界模型宣言

marsbit发布于2026-06-09更新于2026-06-09

文章摘要

AI专家李飞飞近期发表技术博客，引用维特根斯坦“世界即所发生的一切”的观点，指出当前生成式AI虽能熟练处理语言，却缺乏对物理世界本质的理解。她强调，真正的“世界模型”应让机器超越文本统计，掌握物理空间与时间规律，这是实现具身智能的关键。针对“世界模型”概念日益模糊的现状，李飞飞提出了一个基于“部分可观测马尔可夫决策过程”的清晰框架，并拆解出其三大核心组件：渲染器、模拟器和规划器。 * **渲染器**：负责生成视觉上合理、美观的像素画面（如Sora等视频生成模型），但可能缺乏物理真实性。 * **模拟器**：追求对物理规律的严格遵循，是连接渲染与规划的枢纽，也是当前最薄弱但至关重要的环节，英伟达的Omniverse是该领域的代表。 * **规划器**：负责决策与行动输出，是机器从“观察者”变为“实践者”的关键。李飞飞认为，模拟器是实现AI工业化的核心，但其发展面临高质量3D物理数据稀缺、生成内容存在物理错误（如“穿模”）等巨大挑战。她同时预测，渲染、模拟与规划三者的界限正变得模糊，未来将趋向于一个统一的、可交互的基础模型，能无缝切换于视觉表现与物理仿真之间。最终，李飞飞指出，构建世界模型的竞争本质是定义物理世界数字标准的竞争，这是AI从“谈论世界”走向“理解并与世界交互”的必经之路，是迈向通用人工智能（AGI）的重要一步，但前路依然漫长。

“世界即所发生的一切。”

1921年,路德维希·维特根斯坦在《逻辑哲学论》中写下了这句名言。一个世纪后,这句话被AI领军人物之一李飞飞引用,成为了最新一篇技术博客的开篇。

在深度学习的版图里,人们近三年已经习惯了AI对语言的降维打击,始于ChatGPT赋予了机器远超人类的表达、编程和推理能力。

然而,数字奇迹的背后,一个盲区往往会被忽视:机器能谈论世界,却对世界的物理本质一无所知。李飞飞发布的这篇博客,像是一次冷静的降温。

在生成式AI已经成为全球必不可少的工具的今天,行业内部对“世界模型”的定义正在变得越来越混乱。无论是视频生成还是具身智能,各家公司都在争夺这一概念的解释权。

在李飞飞发布这篇博客之后,不少人都认为她在试图重新抢回“世界模型”的定义权。但恰恰相反,我想,李飞飞真正想要做的,是借此向人们发出一次宣言:世界并非由语言构成,而是由严密的物理空间和时间规律构成。

机器要想真正踏入人类的物理世界,就必须摆脱文本统计的舒适区,转而理解光影的折射、物体的惯性和碰撞的逻辑。这不仅是技术上的范式转移,也是AI迈向具身智能的必经之路。

01 人们需要一套分类法

必须承认的是,在AI的词典里,“世界模型”已经沦为一个万能代词,任何涉及到生成图像和模拟环境的项目似乎都能与它联系起来。而这种模糊性,正是源自于人们对“世界”定义的多维需求。

在一项技术刚刚起步时,自然不会有统一的法条来将它束缚在一个明确的界限之内。“世界模型”定义的这种混乱,在历史上也并不罕见。古希腊哲学家在争论世界的本质是水、火亦或是不可分割的原子时,其实他们就是在为自己的推理找基石。

AI领域现在遇到的也是同样的问题:当一个视频生成模型产出的效果在视觉上极其逼真,但在物理法则上完全不可能存在时,人们该如何定义它?李飞飞的博客中提及了一个古老而稳健的定义基础:部分可观测马尔可夫决策过程(POMDP)。

这也是强化学习机制的核心公理,它揭示了一个智能体与物理世界交互的永恒闭环:智能体采取行动(Action),导致世界状态(State)发生改变。然而,智能体没有上帝视角,只能通过观测(Observation)来构建对现实的局部感知。

所谓世界模型,本质上就是机器为了在这个闭环中生存,而在其“大脑”中构建的关于世界的抽象模型。如果这个闭环的某一环没有被明确定义,那么所谓的世界模型就仍然是像素的盲目堆叠。

02 构建智能的三大支柱

这个闭环听起来很简单,每一环的功能都易于理解。然而,若是仔细分析,内部都有无数个定义模糊不清的细节。为了解释其中的混乱,李飞飞拆解出了世界模型的三个核心组件,它们既是技术上的分类,也是AI通往具身智能的三大支柱。

1.渲染器(Renderer)

渲染器的核心逻辑就是视觉上的合理性。它的输出即为像素,致力于让画面在人类眼中显得自然、连贯、美观。

这也是目前商业化最成熟的领域。像是我们熟知的视频生成模型OpenAI的Sora和字节跳动的Seedance 2.0、图像生成模型OpenAI的GPT-image-2和Google的Nano Banana 2,本质上都是目前最精密的视觉概率机器。它们通过学习数以亿计的互联网图片和视频,最终掌握了光影和形态的分布规律。

看似美好的现实,李飞飞却指出,这是有代价的。这些顶级模型虽然能生成华丽的建筑,但如果试图在其生成的物理结构中进行交互,建筑大概率会因为缺乏支撑结构而瞬间坍塌。换句话说,它们并不理解何为“支撑”,生成的也只是观众“看到”的样子,而不是世界“存在”的样子。

2.模拟器(Simulator)

模拟器追求的,正是渲染器缺乏的结构忠诚度。它对视频好不好看完全不关心,唯一在乎的只有世界是否遵循物理规律。当一个模拟器输出一个再常见不过的杯子时,也必须包含杯子的质量分布、材质摩擦系数、重力响应以及碰撞时的物理边界。

有了模拟器,视频中的内容才有真实性可言。然而,模拟器在如今的AI浪潮中不仅被严重低估,还经常被无视。

从上面这个杯子的案例来看,模拟器的存在让“讨论艺术”变成了“研究物理”。要构造一个严格符合物理规律的模拟器,需要的计算资源和标注成本都是难以想象的。但对于机器人来说,视觉美观几乎是一个无用属性,物理精度才能决定一切。

模拟器不够精确,在其中训练的机器人就永远无法进入现实世界。Sim-to-Real挑战是客观存在的,实验室里100%通过的测试动作,到了现实世界,微小的摩擦力就能让机器人彻底瘫痪,这就是我们常说的“莫拉维克悖论”。

3.规划器(Planner)

规划器负责的是行动输出。作为感知和反馈的连接点,它需要解决“下一步该做什么”这个永远没有标准答案的核心问题。在李飞飞的框架中,这也是整个“感知-行动”闭环的最后一个环节,同时也是最具前沿挑战的领域。

目前所有的视觉-语言-动作(VLA)模型,都在尝试让系统在非结构化的复杂世界中做出决策。规划器不仅仅是预测未来,更是在无数种可能性中选择出一条最能达成目标的路径。它是机器从“观察者”进化为“实践者”的关键。

03 千亿美金的枢纽

在李飞飞给出的三个分类中,渲染器和规划器对应的模型已经比较常见;剩下的模拟器,理所当然地成为了最难实现的环节。李飞飞也给出了一个极具洞察力的判断:模拟器是连接渲染与规划的纽带,也是整个体系的核心枢纽。

在模拟器这一领域上做的最出色的,不是OpenAI、Anthropic和Google,而是黄仁勋的NVIDIA。

英伟达的Omniverse宣称能够支撑起万亿级的数字孪生梦想,原因就是它掌握了模拟器的本质。在英伟达的平台上,工厂、供应链和仓库的运作都已经变成完整的数字镜像。对于工业界而言,这就不再是视觉上的demo演示,而是生产力的核心基础设施。

这并非夸大其词,而是摆在所有人眼前的万亿市场的机会。

从建筑工程的虚拟可视化,到制药行业的分子动力学模拟,再到自动驾驶的场景测试。这些行业缺乏的不是栩栩如生的生图生视频模型,而是一个极高保真的模拟器。不夸张地说,掌握了物理世界的模拟能力,就等于掌握了AI工业化的优先入场券。

但现实中的困难使得这个领域几乎没有技术乐观主义者。李飞飞也坦言,巨大的鸿沟始终存在。

首先就是我们此前反复提及过的具身智能数据问题。互联网上的视频数据数不胜数,但带有明确几何结构、材料属性和物理反馈标注的3D数据却极度稀缺。

其次,生成式AI的应用永远会伴随着隐形风险。AI生成的几何模型最多只能做到视觉上的完美,但在物理结构上往往是不合理的,比如杯子与桌面的相交、物体碰撞失去体积感。在人类口中,短短两个字“穿模”就可以概括这些诡异的现象,但在真实的工业应用中,这就意味着灾难。

04 通向统一世界模型

纵使困难重重,李飞飞还是给出了对行业趋势的积极预判:渲染、模拟与规划之间的界限正在变得模糊不清。

这不是美好的远景,而是已经在发生的现实。李飞飞的World Labs团队经过探索,认为人类已经在迈向一个统一的基础模型。在这个架构中,想象力和逻辑能够合二为一。

未来的模型不再是单一功能的叠加和拼凑,而是一个统一的神经网络基础。它能一边通过高斯溅射渲染出逼真的场景,一边实时生成物理引擎所需的碰撞网格。简单来说,统一基础模型将会在人类所需的视觉模式和物理引擎所需的状态模式之间实现无缝切换。

从另一个角度来看,传统的模型都是静态的,而未来的世界模型将具备更强大的可交互性。渲染器将不再是被动的视频生成器,逐渐开始接受行动指令;模拟器变得更加可编辑和可控;规划器也能进行逻辑思考,根据环境变化自动调整策略。

05 空间智能的漫长弧线

最后,回到宏观层面来看,有关“世界模型”的这一切为什么重要?

在李飞飞看来,人类过去几十年的AI研究,都一直在寻找那一把能让机器走入物理世界的钥匙。如今,我们已经拥有善于处理逻辑的语言模型,接下来需要的就是处理空间的模型。空间智能的核心,就在于机器如何与其所处的物理世界进行交互。

这场仗,比的不是谁拥有更多的算力,而是谁能定义物理世界的数字标准。

世界模型绝不是一场简单的算法优化,而是一次AI进化的壮举。

“语言赋予了机器谈论这个世界的能力,而世界模型则是机器最终理解、想象、推理并与物理世界交互的方式。”

这个时代的每一个人,都在从谈论世界的阶段,走向真正理解并重构世界的新纪元。

尽管如此,世界模型也只是通往AGI道路上的一个中间节点,而人类创造出的AI离真正意义上的“世界模型”也还有很长的距离。在这里,另一位世界模型的领军人物杨立昆略显偏激的观点值得分享:

乐观来看,至少还要五到十年,机器的智能才能勉强接近一只小狗。

本文来自微信公众号“硅基星芒”,作者:思齐

你可能也喜欢

深度解读 FWA：把 NFT 变成"链上扭蛋"的有趣实验

FWA（Fake World Assets）是一个基于以太坊的创新型项目，它将NFT与“链上扭蛋机”机制结合，为闲置NFT提供了新的流动性解决方案。 **核心玩法：** 项目中有两种主要角色： 1. **存款人（庄家）**：将白名单内的NFT与一笔自选的ETH保证金（Backing）一起存入，形成一个“仓位”。保证金越高，该NFT被抽中的概率越低，但能持续分享手续费收益；保证金越低，则越容易被抽走。 2. **抽奖人（玩家）**：支付由系统实时计算的统一价格进行抽奖，必随机获得一个仓位。抽中后，玩家可选择留下NFT，或按该仓位保证金85%的“常设回购价”将NFT卖还给原主人，获得ETH或项目代币$FWA。 **关键机制与代币经济：** * **定价与概率**：抽奖价格由所有仓位保证金的调和平均数决定，这使得池中即使有高价值NFT，抽奖成本也能保持较低。被抽中的概率与保证金成反比。 * **收益分配**：抽奖费用的一部分会均分给所有活跃存款人，保证金最高的“皇冠”仓位可获得额外奖励。 * **$FWA代币**：代币主要通过参与协议获得。当抽奖人选择以$FWA结算回购款时，系统会用ETH在市场上买入$FWA，形成持续买盘，将协议活跃度与代币价值绑定。 * **协议收入**：主要来自抽奖费用抽成、NFT被留下时的结算费，以及卖回时的结算折扣。 **设计亮点：** 该项目通过“反向权重+均分收益”平衡大小额存款人利益；用“常设回购”机制降低参与风险；并通过代币的“非对称买卖”（早期只能卖出）确保$FWA主要流向真实用户，助力协议冷启动。

marsbit4分钟前

marsbit4分钟前

三星旗下公司与Upbit运营商探讨稳定币基础设施建设

三星集团IT服务子公司三星SDS正与韩国最大加密货币交易所Upbit的运营商Dunamu探讨合作，涉及稳定币基础设施、数字资产系统及基于AI的支付模式。三星SDS首席执行官李俊熙在第二季度财报电话会议上表示，公司已通过韩国证券存管机构的代币化证券平台项目及对稳定币从发行到结算的全流程验证，积累了差异化的数字资产基础设施能力。他预计此次合作将助力三星SDS拓展数字资产基础设施市场。此前，三星电子已宣布计划在三星钱包中增加稳定币支持。今年5月，三星证券、三星SDS和三星信用卡联合收购了Dunamu 4%的股份，加深了三星附属公司与韩国数字资产领域的联系。李俊熙强调，此次投资是战略举措而非财务投资，双方计划共同完善数字金融基础设施的潜在商业模式，结合三星SDS的IT服务、云和安全能力与Dunamu的区块链技术，以引领市场。与此同时，三星SDS在AI和云服务领域的扩张持续推动业绩增长，第二季度收入同比增长5.9%至3.72万亿韩元（约26亿美元），其中外部云业务收入激增75%。公司还计划大幅扩展AI基础设施，从当前的110兆瓦增至2029年的230兆瓦，并在2031年超过800兆瓦，彰显其在数字金融服务之外构建AI基础设施的雄心。

cointelegraph5分钟前

cointelegraph5分钟前

10万科学家免费用1年，OpenAI把科研流水线搬进ChatGPT

OpenAI于7月29日推出“ChatGPT for Academic Researchers”计划，旨在为10万名高校科研人员提供为期一年的免费高级模型使用权。首批名额1万个，目标在2027年达到10万。入选机构包括巴黎高师、普林斯顿高等研究院等知名学府。获批研究者将获得包含ChatGPT、ChatGPT Work、Codex在内的一整套集成工作区，并配备扩容版Deep Research、更高使用限额和更大上下文窗口。该工作区集成了超过75个生命科学专用技能，并能连接Zotero、GitHub、公共数据库等多种科研常用工具。模型方面，GPT-5.6系列分工明确，其中旗舰型号Sol Pro在专业数学和生物数据分析基准测试中表现出色。 OpenAI数据显示，每周约有130万人使用ChatGPT进行高等科学与数学研究，相关论文致谢ChatGPT的数量亦快速增长。分析认为，该计划旨在培养科研人员的工作习惯，通过深度绑定其工作流程，在免费期结束后形成高迁移成本。此次免费提供的是产品使用权，而非无限额度或API访问，更不包含模型权重。申请者需为高校教职或博士后，通过机构验证并提交近期学术论文。此举被指绕开了AI基础研究人员对模型权重和训练数据的核心诉求。相比之下，Anthropic的“AI for Science”计划主要提供API额度。两者均未开放模型权重，理由是为防止滥用。最终，这份工具红利虽能显著提升科研效率，但也引发了关于用户依赖性和AI研究透明度的思考。

marsbit9分钟前

marsbit9分钟前

大股东套现44亿后回购20亿，兆易创新这是什么操作？

兆易创新近期上演了一出“高抛低吸”的资本操作，引发市场广泛关注。公司实控人朱一明于5月6日至6月12日期间，减持约1111万股，套现约44亿元。随后，在公司股价自6月底历史高点846.66元大幅下跌至350元附近后，朱一明于7月29日抛出“不低于10亿元增持计划”并提议公司“10亿至20亿元回购”，同时承诺12个月内不减持。市场分析股价暴跌主要原因有三：一是被视为“影子股”的长鑫科技正式登陆科创板，资金分流效应明显；二是摩根士丹利报告警示存储芯片周期可能见顶；三是实控人大额减持严重打击市场信心。尽管公司2026年上半年业绩亮眼，净利润同比暴增1099%，但其中包含约20.5亿元的非经常性损益，且存储行业强周期属性令未来业绩存有不确定性。从规则看，减持程序合规，但市场质疑其合理性。套现44亿后推出总额最高30亿的稳市方案，且增持因法规限制需等待6个月，被指“净套现14亿”，加剧了投资者对公司诚意与股价前景的担忧。文章指出，虽然兆易创新在存储芯片国产替代中具备竞争力，但投资者需警惕成为高位减持的“接盘方”。信任一旦受损，重建艰难。

marsbit10分钟前

marsbit10分钟前

FT：持有价值11亿美元比特币矿企股票的对冲基金，在AI股抛售后寻求融资

由前OpenAI研究员Leopold Aschenbrenner于2024年创立的对冲基金“Situational Awareness”在近期人工智能股票遭抛售中蒙受重大损失后，正寻求新的资本。据《金融时报》报道，该基金已接触投资者和贷款方，并给予部分投资者购买其投资组合资产的选项。截至6月初，该基金管理资产约200亿美元，今年前六个月扣除费用后回报率达439%，但由于使用杠杆，7月AI股暴跌时损失被放大。该基金重仓押注支持AI的电力与数据中心领域，包括转型AI计算的比特币矿企。3月的一份监管文件显示，其在七家比特币矿企股票的头寸约11.1亿美元，涉及IREN、Core Scientific、Riot Platforms和CleanSpark等公司。Aschenbrenner认为，此次抛售也创造了有吸引力的投资机会。

cointelegraph20分钟前

cointelegraph20分钟前

交易

现货

李飞飞的世界模型宣言

文章摘要

01

人们需要一套分类法

02

构建智能的三大支柱

03

千亿美金的枢纽

04

通向统一世界模型

05

空间智能的漫长弧线

热门币种推荐

相关问答

你可能也喜欢

深度解读 FWA：把 NFT 变成"链上扭蛋"的有趣实验

三星旗下公司与Upbit运营商探讨稳定币基础设施建设

10万科学家免费用1年，OpenAI把科研流水线搬进ChatGPT

大股东套现44亿后回购20亿，兆易创新这是什么操作？

FT：持有价值11亿美元比特币矿企股票的对冲基金，在AI股抛售后寻求融资

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签