李飞飞的世界模型宣言

marsbit发布于2026-06-09更新于2026-06-09

文章摘要

AI专家李飞飞近期发表技术博客,引用维特根斯坦“世界即所发生的一切”的观点,指出当前生成式AI虽能熟练处理语言,却缺乏对物理世界本质的理解。她强调,真正的“世界模型”应让机器超越文本统计,掌握物理空间与时间规律,这是实现具身智能的关键。 针对“世界模型”概念日益模糊的现状,李飞飞提出了一个基于“部分可观测马尔可夫决策过程”的清晰框架,并拆解出其三大核心组件:渲染器、模拟器和规划器。 * **渲染器**:负责生成视觉上合理、美观的像素画面(如Sora等视频生成模型),但可能缺乏物理真实性。 * **模拟器**:追求对物理规律的严格遵循,是连接渲染与规划的枢纽,也是当前最薄弱但至关重要的环节,英伟达的Omniverse是该领域的代表。 * **规划器**:负责决策与行动输出,是机器从“观察者”变为“实践者”的关键。 李飞飞认为,模拟器是实现AI工业化的核心,但其发展面临高质量3D物理数据稀缺、生成内容存在物理错误(如“穿模”)等巨大挑战。她同时预测,渲染、模拟与规划三者的界限正变得模糊,未来将趋向于一个统一的、可交互的基础模型,能无缝切换于视觉表现与物理仿真之间。 最终,李飞飞指出,构建世界模型的竞争本质是定义物理世界数字标准的竞争,这是AI从“谈论世界”走向“理解并与世界交互”的必经之路,是迈向通用人工智能(AGI)的重要一步,但前路依然漫长。

“世界即所发生的一切。”

1921年,路德维希·维特根斯坦在《逻辑哲学论》中写下了这句名言。一个世纪后,这句话被AI领军人物之一李飞飞引用,成为了最新一篇技术博客的开篇。

在深度学习的版图里,人们近三年已经习惯了AI对语言的降维打击,始于ChatGPT赋予了机器远超人类的表达、编程和推理能力。

然而,数字奇迹的背后,一个盲区往往会被忽视:机器能谈论世界,却对世界的物理本质一无所知。李飞飞发布的这篇博客,像是一次冷静的降温。

在生成式AI已经成为全球必不可少的工具的今天,行业内部对“世界模型”的定义正在变得越来越混乱。无论是视频生成还是具身智能,各家公司都在争夺这一概念的解释权。

在李飞飞发布这篇博客之后,不少人都认为她在试图重新抢回“世界模型”的定义权。但恰恰相反,我想,李飞飞真正想要做的,是借此向人们发出一次宣言:世界并非由语言构成,而是由严密的物理空间和时间规律构成。

机器要想真正踏入人类的物理世界,就必须摆脱文本统计的舒适区,转而理解光影的折射、物体的惯性和碰撞的逻辑。这不仅是技术上的范式转移,也是AI迈向具身智能的必经之路。

01

人们需要一套分类法

必须承认的是,在AI的词典里,“世界模型”已经沦为一个万能代词,任何涉及到生成图像和模拟环境的项目似乎都能与它联系起来。而这种模糊性,正是源自于人们对“世界”定义的多维需求。

在一项技术刚刚起步时,自然不会有统一的法条来将它束缚在一个明确的界限之内。“世界模型”定义的这种混乱,在历史上也并不罕见。古希腊哲学家在争论世界的本质是水、火亦或是不可分割的原子时,其实他们就是在为自己的推理找基石。

AI领域现在遇到的也是同样的问题:当一个视频生成模型产出的效果在视觉上极其逼真,但在物理法则上完全不可能存在时,人们该如何定义它?李飞飞的博客中提及了一个古老而稳健的定义基础:部分可观测马尔可夫决策过程(POMDP)。

这也是强化学习机制的核心公理,它揭示了一个智能体与物理世界交互的永恒闭环:智能体采取行动(Action),导致世界状态(State)发生改变。然而,智能体没有上帝视角,只能通过观测(Observation)来构建对现实的局部感知。

所谓世界模型,本质上就是机器为了在这个闭环中生存,而在其“大脑”中构建的关于世界的抽象模型。如果这个闭环的某一环没有被明确定义,那么所谓的世界模型就仍然是像素的盲目堆叠。

02

构建智能的三大支柱

这个闭环听起来很简单,每一环的功能都易于理解。然而,若是仔细分析,内部都有无数个定义模糊不清的细节。为了解释其中的混乱,李飞飞拆解出了世界模型的三个核心组件,它们既是技术上的分类,也是AI通往具身智能的三大支柱。

1.渲染器(Renderer)

渲染器的核心逻辑就是视觉上的合理性。它的输出即为像素,致力于让画面在人类眼中显得自然、连贯、美观。

这也是目前商业化最成熟的领域。像是我们熟知的视频生成模型OpenAI的Sora和字节跳动的Seedance 2.0、图像生成模型OpenAI的GPT-image-2和Google的Nano Banana 2,本质上都是目前最精密的视觉概率机器。它们通过学习数以亿计的互联网图片和视频,最终掌握了光影和形态的分布规律。

看似美好的现实,李飞飞却指出,这是有代价的。这些顶级模型虽然能生成华丽的建筑,但如果试图在其生成的物理结构中进行交互,建筑大概率会因为缺乏支撑结构而瞬间坍塌。换句话说,它们并不理解何为“支撑”,生成的也只是观众“看到”的样子,而不是世界“存在”的样子。

2.模拟器(Simulator)

模拟器追求的,正是渲染器缺乏的结构忠诚度。它对视频好不好看完全不关心,唯一在乎的只有世界是否遵循物理规律。当一个模拟器输出一个再常见不过的杯子时,也必须包含杯子的质量分布、材质摩擦系数、重力响应以及碰撞时的物理边界。

有了模拟器,视频中的内容才有真实性可言。然而,模拟器在如今的AI浪潮中不仅被严重低估,还经常被无视。

从上面这个杯子的案例来看,模拟器的存在让“讨论艺术”变成了“研究物理”。要构造一个严格符合物理规律的模拟器,需要的计算资源和标注成本都是难以想象的。但对于机器人来说,视觉美观几乎是一个无用属性,物理精度才能决定一切。

模拟器不够精确,在其中训练的机器人就永远无法进入现实世界。Sim-to-Real挑战是客观存在的,实验室里100%通过的测试动作,到了现实世界,微小的摩擦力就能让机器人彻底瘫痪,这就是我们常说的“莫拉维克悖论”。

3.规划器(Planner)

规划器负责的是行动输出。作为感知和反馈的连接点,它需要解决“下一步该做什么”这个永远没有标准答案的核心问题。在李飞飞的框架中,这也是整个“感知-行动”闭环的最后一个环节,同时也是最具前沿挑战的领域。

目前所有的视觉-语言-动作(VLA)模型,都在尝试让系统在非结构化的复杂世界中做出决策。规划器不仅仅是预测未来,更是在无数种可能性中选择出一条最能达成目标的路径。它是机器从“观察者”进化为“实践者”的关键。

03

千亿美金的枢纽

在李飞飞给出的三个分类中,渲染器和规划器对应的模型已经比较常见;剩下的模拟器,理所当然地成为了最难实现的环节。李飞飞也给出了一个极具洞察力的判断:模拟器是连接渲染与规划的纽带,也是整个体系的核心枢纽。

在模拟器这一领域上做的最出色的,不是OpenAI、Anthropic和Google,而是黄仁勋的NVIDIA。

英伟达的Omniverse宣称能够支撑起万亿级的数字孪生梦想,原因就是它掌握了模拟器的本质。在英伟达的平台上,工厂、供应链和仓库的运作都已经变成完整的数字镜像。对于工业界而言,这就不再是视觉上的demo演示,而是生产力的核心基础设施。

这并非夸大其词,而是摆在所有人眼前的万亿市场的机会。

从建筑工程的虚拟可视化,到制药行业的分子动力学模拟,再到自动驾驶的场景测试。这些行业缺乏的不是栩栩如生的生图生视频模型,而是一个极高保真的模拟器。不夸张地说,掌握了物理世界的模拟能力,就等于掌握了AI工业化的优先入场券。

但现实中的困难使得这个领域几乎没有技术乐观主义者。李飞飞也坦言,巨大的鸿沟始终存在。

首先就是我们此前反复提及过的具身智能数据问题。互联网上的视频数据数不胜数,但带有明确几何结构、材料属性和物理反馈标注的3D数据却极度稀缺。

其次,生成式AI的应用永远会伴随着隐形风险。AI生成的几何模型最多只能做到视觉上的完美,但在物理结构上往往是不合理的,比如杯子与桌面的相交、物体碰撞失去体积感。在人类口中,短短两个字“穿模”就可以概括这些诡异的现象,但在真实的工业应用中,这就意味着灾难。

04

通向统一世界模型

纵使困难重重,李飞飞还是给出了对行业趋势的积极预判:渲染、模拟与规划之间的界限正在变得模糊不清。

这不是美好的远景,而是已经在发生的现实。李飞飞的World Labs团队经过探索,认为人类已经在迈向一个统一的基础模型。在这个架构中,想象力和逻辑能够合二为一。

未来的模型不再是单一功能的叠加和拼凑,而是一个统一的神经网络基础。它能一边通过高斯溅射渲染出逼真的场景,一边实时生成物理引擎所需的碰撞网格。简单来说,统一基础模型将会在人类所需的视觉模式和物理引擎所需的状态模式之间实现无缝切换。

从另一个角度来看,传统的模型都是静态的,而未来的世界模型将具备更强大的可交互性。渲染器将不再是被动的视频生成器,逐渐开始接受行动指令;模拟器变得更加可编辑和可控;规划器也能进行逻辑思考,根据环境变化自动调整策略。

05

空间智能的漫长弧线

最后,回到宏观层面来看,有关“世界模型”的这一切为什么重要?

在李飞飞看来,人类过去几十年的AI研究,都一直在寻找那一把能让机器走入物理世界的钥匙。如今,我们已经拥有善于处理逻辑的语言模型,接下来需要的就是处理空间的模型。空间智能的核心,就在于机器如何与其所处的物理世界进行交互。

这场仗,比的不是谁拥有更多的算力,而是谁能定义物理世界的数字标准。

世界模型绝不是一场简单的算法优化,而是一次AI进化的壮举。

“语言赋予了机器谈论这个世界的能力,而世界模型则是机器最终理解、想象、推理并与物理世界交互的方式。”

这个时代的每一个人,都在从谈论世界的阶段,走向真正理解并重构世界的新纪元。

尽管如此,世界模型也只是通往AGI道路上的一个中间节点,而人类创造出的AI离真正意义上的“世界模型”也还有很长的距离。在这里,另一位世界模型的领军人物杨立昆略显偏激的观点值得分享:

乐观来看,至少还要五到十年,机器的智能才能勉强接近一只小狗。

本文来自微信公众号“硅基星芒”,作者:思齐

相关问答

Q李飞飞在她关于世界模型的技术博客中,引用了哪位哲学家的名言来开篇?

A李飞飞引用了奥地利哲学家路德维希·维特根斯坦在其著作《逻辑哲学论》中的名言:“世界即所发生的一切。”

Q根据文章,目前生成式AI存在的一个主要“盲区”或局限性是什么?

A根据文章,目前生成式AI(如大语言模型)存在的主要盲区是:机器能谈论世界,却对世界的物理本质一无所知。它们擅长语言、编程和推理,但不理解物理空间、时间规律和物体间的相互作用。

Q李飞飞提出了构建世界模型的哪三大核心支柱或组件?

A李飞飞提出了构建世界模型的三大核心支柱:1. **渲染器**:负责生成视觉上合理、美观的图像或视频,关注光影和形态的分布规律。2. **模拟器**:负责确保内容的物理真实性,遵循物理规律(如质量、重力、碰撞),关注结构忠诚度。3. **规划器**:负责行动决策,在复杂环境中选择达成目标的最佳路径,是连接感知与行动的关键。

Q在李飞飞的分类中,哪个组件被认为是连接渲染与规划的“核心枢纽”,并且哪个公司在此领域表现出色?

A在李飞飞的分类中,**模拟器**被认为是连接渲染与规划的“核心枢纽”。文章指出,在这一领域表现出色的公司是**英伟达**,其Omniverse平台致力于构建高保真的物理模拟器,服务于数字孪生和工业应用。

Q文章中提到,要实现真正的具身智能和高级世界模型,面临的主要困难是什么?

A文章提到实现真正的具身智能和世界模型面临两大主要困难:1. **数据问题**:互联网上视频数据丰富,但带有精确几何结构、材料属性和物理反馈标注的3D数据极度稀缺。2. **物理保真度问题**:当前生成式AI(渲染器)生成的模型在视觉上完美,但物理结构上常常不合理(如物体“穿模”、缺乏支撑结构),这在工业应用中会导致严重问题。此外,构建高精度模拟器所需的计算和标注成本也极高。

你可能也喜欢

王川:当隔壁老王投资存储股票赚了三十倍后,如何还能不焦虑 (七)- 四分之一世纪的轮回

本文探讨了科技硬件投资中存在的“反身性”现象及其巨大风险。文章指出,在行业泡沫上升期,企业常夸大“净美元留存率”等指标吸引投资,而市场需求和股价上涨常由探索性、恐慌性资金驱动,形成供需与金融层面的双重“反身性”正反馈。一旦遭遇瓶颈,这种反馈会迅速逆转,引发雪崩式下跌。 作者以存储、半导体行业为例,指出硬件行业受“牛鞭效应”影响,需求消失快,产能调整慢,可能导致长期产能过剩。更关键的是,支撑高估值的“叙事”会随增长放缓而迁移,资金迅速转向其他热门领域。例如英特尔、美光、思科等公司多年后利润虽增,股价却远未回到历史高点,说明高估值灵魂早已离去。 新手投资者在泡沫中易形成两大思维钢印:误将短期强劲需求等同于长期持续增长,以及认为赚快钱很容易。这种心态使人像参加舞会的灰姑娘,沉迷狂欢却无视时钟。文章警告,当前阶段继续博弈,可能面临80%以上的价格回撤和长达数十年的回本等待。文中的“隔壁老王”即便短期获利丰厚,也可能因杠杆或急于翻本的心态而最终损失殆尽。 最后引用叔本华的比喻,提醒投资者:同样的市场戏法看过多次后,便不再新鲜,也无法再骗人。

链捕手4分钟前

王川:当隔壁老王投资存储股票赚了三十倍后,如何还能不焦虑 (七)- 四分之一世纪的轮回

链捕手4分钟前

早报 | BitMine 上周增持 126,971 枚 ETH;交易员 Eugene 宣布退出加密市场

**重要资讯摘要:** - **交易员动态:** 知名交易员 Eugene 宣布退出加密货币市场,转而更看好股票市场的机会。 - **安全事件:** Syscoin 跨链桥遭遇攻击,涉及约 50 亿枚 SYS,目前桥接服务已暂停。 - **融资动态:** AI 公司 Moonshot AI 寻求新一轮最高 20 亿美元融资,估值目标达 300 亿美元。 - **机构持仓:** BitMine 上周大幅增持 126,971 枚 ETH,使其以太坊总持仓量增至 554.38 万枚,占以太坊总供应量的 4.59%,正在接近其持有 5% 供应量的战略目标。 - **公司动向:** 数字银行 Revolut 计划按约 1150 亿美元估值进行二级股权出售,允许早期投资者和员工部分套现。 - **提案获批:** Strategy 公司关于将 STRC 股息支付频率从每月改为每半月的提案已获股东批准,首次支付日期为 7 月 15 日。 - **其他要闻:** FTX 创始人 SBF 已正式提交总统特赦申请;Strategy 上周斥资约 1.013 亿美元购入了 1550 枚比特币。 **市场数据(Meme热门榜):** 根据 GMGN 数据,截至 6 月 9 日 09:00,过去 24 小时内: - **ETH 链**热门代币前五为:HEX、SHIB、LINK、PEPE、mUSD。 - **Solana 链**热门代币前五为:TROLL、WORLDCUP、neet、Buttcoin、PBTC。 - **Base 链**热门代币前五为:toby、ELSA、SKI、cbETH、CYPR。 **深度阅读推荐:** 文章探讨了股市“鱼尾行情”(市场顶部阶段)的原理与风险,并分析了在人工智能推理成为稀缺资源的背景下,价值将在算力栈的哪一层沉淀。

链捕手33分钟前

早报 | BitMine 上周增持 126,971 枚 ETH;交易员 Eugene 宣布退出加密市场

链捕手33分钟前

Michael Saylor最新长文:谁在定义比特币的灵魂?

迈克尔·塞勒在其文章中阐述了比特币社区内四种主要意识形态:比特币最大主义者、比特币资本主义者、比特币技术主义者和比特币原教旨主义者,并分析了它们各自的核心信念、世界观、强调重点、优势与风险。 最大主义者视比特币为占主导地位的数字货币网络,是解决货币贬值和实现经济赋权的道德与技术突破。资本主义者认为比特币需深度融入全球经济(如资本市场、信贷、企业资产负债表)才能发挥全部潜力,强调机构采用和金融整合。技术主义者关注比特币协议的持续改进,以增强可扩展性、隐私、安全性等功能性,应对未来挑战。原教旨主义者则致力于捍卫比特币的核心原则,如去中心化、自托管、抗审查和货币属性,防止其被机构俘获或协议妥协。 文章指出,这四种观点分别回应了比特币生态的不同需求:最大主义者提供信念,资本主义者推动采用,技术主义者解决技术挑战,原教旨主义者守护协议完整性。每种意识形态若走向极端都可能带来风险,如排他性、鲁莽金融化、过度干预或停滞。 塞勒认为,比特币的成功需要平衡这些视角:在保持底层协议稳定和安全(原教旨主义)的前提下,承认其主导地位(最大主义),通过高层创新与全球金融系统整合(资本主义),并适时进行谨慎的技术改进(技术主义)。最终目标是让比特币在服务于个人、企业、机构及国家等多重角色的同时,不丧失其核心价值与独特性。

marsbit1小时前

Michael Saylor最新长文:谁在定义比特币的灵魂?

marsbit1小时前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.5k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片