李飞飞团队厘清“世界模型”概念，Sora只能算渲染器

marsbit发布于2026-06-04更新于2026-06-04

文章摘要

斯坦福大学教授李飞飞团队联合发布概念分析文章《世界模型的功能分类法》，指出“世界模型”是AI领域最重要且被严重滥用的术语之一。文章将当前各类被称为“世界模型”的系统，依据其在部分可观马尔可夫决策过程中的功能，归约为三类：渲染器、模拟器和规划器。渲染器（如OpenAI的Sora、各类文生视频模型）的核心是生成面向人类视觉的高保真像素画面，但缺乏物理精确性，无法用于需要真实物理计算的任务。模拟器（如NVIDIA Omniverse）的核心是生成精确的物理状态数据，用于数字孪生、工程分析等，但受限于高质量3D物理数据的稀缺。规划器（如各类机器人控制模型）则根据观测和目标输出具体动作指令。文章指出，概念混乱源于各类系统只承载了“理解世界”完整认知循环中的一个环节，却被营销和叙事包装为完整模型。例如，Sora仅能沿视频数据固有序列“被动续写”，无法基于外部动作进行状态转移预测，因此本质上是渲染器，而非真正的世界模拟器。澄清概念有助于技术选型、投资判断和建立可比基准，避免因能力误解导致决策失误。未来的方向是三类功能的融合，但当前认清各自边界更为重要。

2026年6月3日,World Labs团队与斯坦福大学教授李飞飞联合发布了一篇概念分析文章,标题直白到几乎没有修饰:《世界模型的功能分类法》。文章开篇第一句话就戳破了一个行业默契:“世界模型是当今人工智能领域最重要、也最被滥用的术语之一。”

这句话的背景,但凡关注过AI行业的人都不陌生。

2024年2月,OpenAI发布视频生成模型Sora,技术报告标题赫然写着“视频生成模型作为世界模拟器”。NVIDIA机器人总监Jim Fan当时在LinkedIn上留下一句后来被反复引用的评论:Sora本质上是一个“只允许无操作作为唯一动作的世界模型”。另一头,据公开报道,特斯拉AI团队在公开场合多次将全自动驾驶系统内部的预测组件称为“世界模型”或“世界模拟器”。游戏引擎、3D生成工具、具身智能模型,各类产品和技术都被塞进同一个筐里,贴上了同一张标签。

一个视频生成器,一个自动驾驶预测网络,一个机器人控制模型,一个物理引擎,它们有什么共同点?几乎没有。但它们都被叫做“世界模型”。

这场持续两年多的概念混乱,终于有人试图系统性地梳理清楚。李飞飞团队这次没有发布新模型,没有公布新基准,没有演示任何产品功能。他们做了一件更基础的事:回到部分可观马尔可夫决策过程这一理论源头,把所有市面上被称作“世界模型”的系统,归约为同一个认知循环的三种不同功能投影。

三种投影分别是:渲染器、模拟器、规划器。在World Labs的分类框架下,Sora及其同类视频生成模型,属于渲染器。

一个术语为什么能装下如此多彼此矛盾的含义

要理解这场混乱的根源,需要先追问一个更基础的问题:当一家公司在说“我们在做世界模型”时,它到底在说什么?

对OpenAI来说,Sora的目标是“理解并在视频中呈现物理世界”。从技术报告看,Sora通过学习海量视频数据中的统计规律,能够生成符合视觉常识的画面,杯子掉在地上会碎,纸飞机脱手会飞,人在走路时双腿交替摆动。这些画面看起来“懂物理”。

对特斯拉来说,“世界模型”是FSD系统中预测道路参与者在未来数秒内运动轨迹的神经网络。它需要输出精确的3D位置、速度、朝向,供路径规划模块计算安全的驾驶决策。这个模型不需要输出像素,它输出的是向量和概率分布。

对机器人公司来说,“世界模型”是让机械臂能够预判“如果我把这个杯子向左推5厘米,它会倒吗”的内部模拟机制。它需要理解物体属性、接触力学和稳定性,输出的是动作可行性评估。

三类公司的目标完全不同。视频生成公司关心像素保真度,自动驾驶公司关心物理状态预测的精度,机器人公司关心动作后果的可推演性。它们都在做“世界模型”,但做的根本不是同一件事。

World Labs在文章中直指问题核心:这些系统之所以都被冠以同一个名字,是因为它们确实都承载了“理解世界”的某一个侧面。但它们各自只完成了完整认知循环中的一个环节,却被营销语言、媒体报道和资本叙事包装成了完整的世界模型。

概念混乱的另一个推手是术语本身的张力。“世界模型”这个词自带宏大叙事属性,听上去比“视频生成模型”或“视频预测模型”更有想象空间,更能支撑高估值和融资故事。当技术能力无法匹配公众期待时,概念沦为宣传工具就成了必然。

回到1960年代,完整的“世界模型”应该是什么

World Labs的分类框架建立在一个看似古老的理论基础上:部分可观马尔可夫决策过程。

这个框架描述的是一个智能体与环境交互的完整循环。智能体处于某种环境状态中,它执行一个动作,动作改变环境状态,智能体通过传感器获得部分观测,观测触发内部状态更新,更新后的认知驱动下一个动作。循环往复。

在这个框架下,“世界模型”的完整功能应该包含三个环节:从状态生成观测(人眼看到或传感器采集到的像素、点云等),从动作和当前状态推演下一状态(预测物理变化),从观测和目标生成动作(决策规划)。

语言模型学习的是文本序列的统计规律,世界模型学习的则是空间和时间的统计特性。光照如何在不同材质表面反射,物体在重力作用下如何运动,刚体碰撞后能量如何传递,这些才是世界模型要捕捉的规律。

World Labs团队在文章中指出,当前市面上所有被称作“世界模型”的系统,实际上只是上述完整循环中某一个功能环节的投影。有的系统只做“从状态到观测”的渲染,有的只做“从动作到下一状态”的状态推演,有的只做“从观测到动作”的规划。它们各自截取了循环的一段弧线,却被各自贴上了代表完整圆形的标签。

这个分析框架的价值在于,它提供了一个超越营销话术的比较坐标系。不管一家公司怎么包装自己的产品,只要把它放回POMDP循环里,看它输入什么、输出什么、缺什么环节,它的能力边界就暴露无遗。

渲染器、模拟器、规划器,三种投影的能力边界

World Labs的分类法中,第一类被定义为“渲染器”。它的核心目标是生成面向人类视觉感知的高保真像素输出。输入是某种环境状态的表征(可以是文本描述、3D场景参数或隐式编码),输出是一帧一帧的连续画面。

渲染器优化的方向是视觉逼真度而非物理精确度。World Labs文章明确指出,渲染器生成的建筑可能“摇摇欲坠”,因为它并不真正解算结构力学方程;它生成的液体泼溅可能看起来很真实,但液体体积、流速和冲击力可能与真实物理量完全不对应。所以这类模型不能用于建筑设计,不能用于机器人训练,不能用于需要物理上精确模拟的任务。

Google的Genie 3、各类文本转视频模型、以及几乎所有AI视频生成工具,都属于这一类别。Sora当然也在其中。

第二类是“模拟器”。它的核心目标不是生成给人看的画面,而是生成可供后续计算使用的精确状态。输入是当前环境状态和外部作用力(或动作),输出是物理和几何上忠实于真实世界规律的下一状态。模拟器输出的状态可以用来做应力分析、能耗计算、碰撞检测,也可以作为渲染器的输入来生成可视化画面,但它的核心价值在于状态本身的可计算性。

NVIDIA Omniverse是这类系统的典型代表。它不是AI原生模型,而是一个融合了传统物理引擎和AI加速计算的数字孪生平台。World Labs在文章中评价,模拟器是连接渲染和规划的桥梁,但高质量3D物理标注数据的稀缺是主要瓶颈。据World Labs在文章中估计,用于训练这类模型的数据,比互联网上可获取的视频数据少几个数量级。

第三类是“规划器”。它的输入是观测数据(摄像头画面、激光雷达点云、触觉传感器读数等)和目标指令,输出是下一步该执行什么动作。VLA(视觉-语言-动作)模型和World Action Models都属于这一类。

三大分类之间的差异,不是技术路线的细微分歧,而是根本性的功能分化。渲染器输出像素给人看,模拟器输出状态给机器算,规划器输出动作给执行器跑。一个系统可以同时具备多种能力,但当大多数被叫做“世界模型”的系统本质上只做渲染时,把“渲染”等同于“理解世界”就是一种严重的认知错配。

一场持续两年的争论,Sora到底是不是世界模型

2024年2月,OpenAI发布Sora,技术报告标题直接写上了“视频生成模型作为世界模拟器”。这一用词当即引发学术界和开发者社区的激烈争论。

支持者认为,Sora生成的视频展示了3D空间一致性、物体持久性和对物理交互的某种直观理解。一块被咬过的汉堡会留下齿痕,一只狗在雪地里跑会溅起雪花,这些细节似乎表明模型学到了一些物理规律。

反对者的核心论据来自强化学习领域对世界模型的经典定义:一个世界模型必须能够基于动作进行状态转移预测。也就是说,给定当前状态和一个动作输入,模型应该输出动作之后的下一个状态。Sora做不到这一点。用户无法告诉Sora“从左边推开那个杯子”,然后观测杯子是否会倒、往哪个方向倒、碎片飞到哪里去。

Jim Fan的评论精准抓住了这个矛盾:“Sora本质上是一个世界模型,只是它只允许无操作(no-op)作为唯一动作。”这句话的意思是,Sora确实在预测环境随时间的变化,但这个变化过程不受任何外部干预,只能沿着视频数据中固有的因果链展开。它不是在做交互推演,而是在做被动观测序列的续写。

Reddit的r/MachineLearning版块上,不少强化学习研究者表达了更尖锐的批评:不能基于动作进行状态转移预测的系统,不能叫世界模型,只能叫视频预测模型。

World Labs的分类框架为这场争论提供了一个定论式的回答。在POMDP循环中,动作是驱动状态转移的关键输入,缺失这一输入的系统只是完整认知循环中“观测生成”环节的投影。Sora属于渲染器,不是完整的世界模型,更不是世界模拟器。

但这不意味着Sora没有价值。渲染器解决的是一个不同的问题:如何生成符合人类视觉预期的画面。这个问题本身就极其困难,也有巨大的商业价值。问题在于,把渲染能力包装成“理解世界”的能力,会误导技术决策者和投资者,让人误以为这些模型已经具备了物理推演或具身交互的能力。

概念澄清的产业价值

厘清“世界模型”的定义边界,不是一场学术上的咬文嚼字。它直接影响技术选型、投资判断和公众对AI能力的认知水位。

对于一家正在评估是否将某个“世界模型”用于机器人训练的制造企业来说,搞清楚这个模型到底是渲染器、模拟器还是规划器,是避免数百万美元试错的必要前提。一个只能生成视频画面的模型,无论画面多么逼真,都不能替代对物体受力、运动轨迹和碰撞后果的精确计算。

对于投资机构来说,区分三类投影意味着可以更准确地识别项目所处的技术栈位置。一个自称“世界模型”的初创公司,如果产品本质上是一个渲染器,它的竞争对手是视频生成公司,而不是数字孪生平台或机器人控制模型。这直接决定了市场规模的估算方式和对标公司的选取。

对于学术界来说,清晰的分类是建立可比基准的前提。如果“世界模型”这个术语继续被泛化,研究者就难以定义什么算改进、什么算突破,同行评议将建立在歧义的基础上。

World Labs在文章中也指出,概念澄清不是为了制造对立。未来的发展方向将是三类投影的融合。一个真正理解杯子物理属性的模型,应该能同时渲染它的视觉外观、模拟它被推倒时的物理过程、并规划机械手如何稳定地抓取它。但在技术发展到那一步之前,认清各自的边界比畅想融合更有现实意义。

据World Labs在文章中估计,以NVIDIA Omniverse为代表的模拟器及数字孪生技术,瞄准的是工厂、仓库、供应链等领域超过万亿美元的潜在市场。这个数字来自厂商自身的判断,至于市场何时能真正达到这个规模,取决于模拟器能否突破高质量3D物理数据稀缺的瓶颈。

对于当前阶段的AI行业来说,最重要的认知或许很简单:能生成逼真视频,不等于理解物理世界;能被叫做世界模型,不等于真的在模拟世界。穿透营销语言,审视一个系统在POMDP循环中到底接受什么输入、输出什么结果、缺少哪个环节,是对技术能力边界最诚实的判断方式。

你可能也喜欢

封了自家元宝，微信AI亲自下场

微信AI智能体即将以原生形态嵌入微信，预计最快本月启动合规审批。其交互入口拟定为微信主界面右滑，定位不止是聊天机器人，更能通过调用小程序完成挂号、点餐等实际任务，实现从“信息输出”到“服务执行”的闭环。这一战略转向源于内部竞争与外部压力。腾讯此前推出的独立AI应用“元宝”增长乏力，月活远落后于字节的“豆包”和阿里的“千问”。更关键的是，元宝在今年春节的营销活动因“诱导分享”被微信自身封杀，暴露出腾讯对AI落地路径的内部犹疑。此事件促使共识形成：腾讯的AI能力应植根于微信生态，而非另起炉灶。微信的核心优势在于其独一无二的生态：14亿月活用户、成熟的微信支付体系以及覆盖数百万商户的标准化小程序接口。这使得微信AI智能体能高效、精准地调用服务，无需像竞品那样模拟屏幕操作。腾讯总裁刘炽平指出，微信平台是承载AI智能体的“理想助手”。然而，挑战依然存在：混元大模型的性能需持续追赶；海量用户带来的算力成本高昂；AI智能体“一步直达”服务可能压缩小程序开发者的流量与广告收益，需重新设计激励机制。此外，阿里、字节等巨头也在构建自己的AI服务闭环，意图控制用户需求的入口。本质上，微信推出AI智能体是一场防御性升级，旨在将用户对服务的需求尽可能留在微信体系内完成，从而巩固其作为核心入口的地位。这并非简单的产品迭代，而是在存量竞争时代，对人与服务连接方式的重新定义。

marsbit42分钟前

marsbit42分钟前

字节用Arm CPU了，黄仁勋：好难过没买Arm

在2026年台北国际电脑展上，Arm CEO Rene Haas宣布字节跳动和甲骨文已采用其自研的数据中心CPU芯片Arm AGI。该芯片需求强劲，预计未来几年将创造巨额收入。Haas认为，美国难以像限制AI芯片一样阻止AI CPU出口到中国。英伟达CEO黄仁勋出席演讲并与Haas进行了轻松幽默的对谈，两人对英伟达此前未能成功收购Arm表示遗憾。黄仁勋分享了关于智能体PC设计的见解，他认为未来智能体将改变人机交互方式，推动算力需求爆炸式增长，而操作系统依然至关重要。 Haas介绍了Arm在智能体PC和数据中心CPU领域的进展。在PC侧，Arm与英伟达、联发科等紧密合作；在数据中心侧，其自研的Arm AGI CPU已获得OpenAI、Meta等众多合作伙伴采用，并公布了后续产品路线图。文章指出，随着智能体应用爆发，推理需求激增，CPU的重要性重新凸显。行业呈现出垂直整合趋势，云厂商自研芯片，芯片企业提供全栈方案，竞争焦点转向能效提升。

marsbit1小时前

marsbit1小时前

华尔街新操作：日元空头仍在加码，但日股靠的不是Carry Trade平仓

2026年6月初，美元兑日元汇率重返160关口附近，日经225指数则突破68000点创历史新高。市场出现对“套利交易（carry trade）崩盘”的担忧，但数据揭示了更复杂的情况。首先，投机资金并未撤离日元空头，反而在加码。CFTC持仓数据显示，截至5月26日当周，日元期货净空头头寸增至约11.5万张合约，接近历史高位。这意味着若日本央行转向鹰派或美国经济走弱，可能引发类似2024年8月的被动平仓风险。其次，日本财务省在4月底至5月底实施了规模创纪录的外汇干预（约11.7万亿日元），但仍未能阻止日元汇率跌破160。这显示单边干预效果有限。关键点在于，推动日股上涨的动力并非来自套利交易平仓后的资金回流。外资正连续数周大幅净买入日股，2026年内累计净买入额已达去年同期的近16倍。资金集中流向AI与半导体相关股票（如软银、Socionext），是追逐全球AI产业趋势的主动投资行为，与2024年因套利交易瓦解引发的被动抛售有本质不同。此外，日股在日本央行加息周期中依然走强，表明当前外资行情对利率敏感度较低。但若未来日本央行进一步加息（例如至1.0%）叠加美元转弱，可能导致套利交易成本骤升，届时股市与汇市的关系可能重新紧密联动。综上，当前市场并存三个事实：日元空头仓位拥挤、干预未能守住关键汇率、日股受AI主题外资驱动创新高。它们并不矛盾，共同构成了市场的复杂图景。

marsbit1小时前

marsbit1小时前

博通 Q3 指引差预期 12 亿美元，盘后跌超 13%，AI 叙事「冷却」？

博通公布2026财年第二季度业绩，营收创纪录达221.9亿美元，同比增长48%，调整后每股收益2.44美元超预期。AI半导体收入108亿美元，同比增长143%。然而，公司对第三季度AI芯片收入指引为160亿美元，低于市场预期的172亿美元，差距约7%。同时，公司维持全年AI芯片收入超1000亿美元的指引不变，未作上调。此指引导致博通盘后股价暴跌超13%。CEO陈福阳在电话会上指出，本季度AI网络业务占AI半导体收入比重近40%，但预计该比例将逐渐回落至30%左右。这一表态可能对A股光模块龙头公司的估值构成压力。此外，博通的业绩指引引发外溢效应，Marvell等AI相关公司股价盘后跟跌。市场担忧AI整体叙事可能“降温”，但公司管理层仍强调AI芯片需求“难以满足”，长期景气度不变。此次股价波动被视为高估值下的获利了结，长期趋势仍需观察后续行业动向。

marsbit1小时前

marsbit1小时前

狗狗币价格刚进入关键水平，但分析师表示现在还不是买入时机

狗狗币价格已重回月线图上的一个重要长期水平，在数月疲软走势后再次面临关键考验。分析师Trader Tardigrade指出，DOGE目前正处在一个关键的阻力区域，过去十年的两次触及此区域均以反弹失败告终。图表显示，狗狗币长期交易于一个巨大的下降扩散通道内。该通道自2015年以来定义了其价格走势，上下两条红色趋势线随时间逐渐拓宽。此前在2017年和2020年，狗狗币曾反弹至该通道的上部阻力线，但随后均遭遇强烈拒绝并出现深度回调。目前（2026年），价格第三次回到这一上方结构，似乎将再次被拒绝。值得注意的是，分析师使用的图表是倒置的：图表中价格越低，实际市场价格越高。因此，图中标注为关键阻力的红色下降线，在常规市场中实际代表一条看涨的支撑线。此前两次（对应2017年和2021年周期）从该倒置阻力线的拒绝，在倒置图表上呈现为大幅下跌，实则对应正常图表上的大幅上涨。因此，当前价格行动应被视为重返支撑区域。狗狗币现报0.0937美元，正处于0.09至0.10美元的支撑区间内。若能突破0.10美元并进入0.15至0.18美元区间，将是情绪改善的首个迹象。而明确站上0.25美元，则能更清晰地确认价格正从支撑结构反弹。根据倒置图结构，在触及下一个主要趋势线之前，狗狗币甚至存在升至两位数价格目标的空间。

bitcoinist1小时前

bitcoinist1小时前

交易

现货

合约

李飞飞团队厘清“世界模型”概念，Sora只能算渲染器

文章摘要

一个术语为什么能装下如此多彼此矛盾的含义

回到1960年代,完整的“世界模型”应该是什么

渲染器、模拟器、规划器,三种投影的能力边界

一场持续两年的争论,Sora到底是不是世界模型

概念澄清的产业价值

相关问答

你可能也喜欢

封了自家元宝，微信AI亲自下场

字节用Arm CPU了，黄仁勋：好难过没买Arm

华尔街新操作：日元空头仍在加码，但日股靠的不是Carry Trade平仓

博通 Q3 指引差预期 12 亿美元，盘后跌超 13%，AI 叙事「冷却」？

狗狗币价格刚进入关键水平，但分析师表示现在还不是买入时机

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签