李飞飞团队厘清“世界模型”概念,Sora只能算渲染器

marsbit发布于2026-06-04更新于2026-06-04

文章摘要

斯坦福大学教授李飞飞团队联合发布概念分析文章《世界模型的功能分类法》,指出“世界模型”是AI领域最重要且被严重滥用的术语之一。文章将当前各类被称为“世界模型”的系统,依据其在部分可观马尔可夫决策过程中的功能,归约为三类:渲染器、模拟器和规划器。 渲染器(如OpenAI的Sora、各类文生视频模型)的核心是生成面向人类视觉的高保真像素画面,但缺乏物理精确性,无法用于需要真实物理计算的任务。模拟器(如NVIDIA Omniverse)的核心是生成精确的物理状态数据,用于数字孪生、工程分析等,但受限于高质量3D物理数据的稀缺。规划器(如各类机器人控制模型)则根据观测和目标输出具体动作指令。 文章指出,概念混乱源于各类系统只承载了“理解世界”完整认知循环中的一个环节,却被营销和叙事包装为完整模型。例如,Sora仅能沿视频数据固有序列“被动续写”,无法基于外部动作进行状态转移预测,因此本质上是渲染器,而非真正的世界模拟器。澄清概念有助于技术选型、投资判断和建立可比基准,避免因能力误解导致决策失误。未来的方向是三类功能的融合,但当前认清各自边界更为重要。

2026年6月3日,World Labs团队与斯坦福大学教授李飞飞联合发布了一篇概念分析文章,标题直白到几乎没有修饰:《世界模型的功能分类法》。文章开篇第一句话就戳破了一个行业默契:“世界模型是当今人工智能领域最重要、也最被滥用的术语之一。”

这句话的背景,但凡关注过AI行业的人都不陌生。

2024年2月,OpenAI发布视频生成模型Sora,技术报告标题赫然写着“视频生成模型作为世界模拟器”。NVIDIA机器人总监Jim Fan当时在LinkedIn上留下一句后来被反复引用的评论:Sora本质上是一个“只允许无操作作为唯一动作的世界模型”。另一头,据公开报道,特斯拉AI团队在公开场合多次将全自动驾驶系统内部的预测组件称为“世界模型”或“世界模拟器”。游戏引擎、3D生成工具、具身智能模型,各类产品和技术都被塞进同一个筐里,贴上了同一张标签。

一个视频生成器,一个自动驾驶预测网络,一个机器人控制模型,一个物理引擎,它们有什么共同点?几乎没有。但它们都被叫做“世界模型”。

这场持续两年多的概念混乱,终于有人试图系统性地梳理清楚。李飞飞团队这次没有发布新模型,没有公布新基准,没有演示任何产品功能。他们做了一件更基础的事:回到部分可观马尔可夫决策过程这一理论源头,把所有市面上被称作“世界模型”的系统,归约为同一个认知循环的三种不同功能投影。

三种投影分别是:渲染器、模拟器、规划器。在World Labs的分类框架下,Sora及其同类视频生成模型,属于渲染器。

一个术语为什么能装下如此多彼此矛盾的含义

要理解这场混乱的根源,需要先追问一个更基础的问题:当一家公司在说“我们在做世界模型”时,它到底在说什么?

对OpenAI来说,Sora的目标是“理解并在视频中呈现物理世界”。从技术报告看,Sora通过学习海量视频数据中的统计规律,能够生成符合视觉常识的画面,杯子掉在地上会碎,纸飞机脱手会飞,人在走路时双腿交替摆动。这些画面看起来“懂物理”。

对特斯拉来说,“世界模型”是FSD系统中预测道路参与者在未来数秒内运动轨迹的神经网络。它需要输出精确的3D位置、速度、朝向,供路径规划模块计算安全的驾驶决策。这个模型不需要输出像素,它输出的是向量和概率分布。

对机器人公司来说,“世界模型”是让机械臂能够预判“如果我把这个杯子向左推5厘米,它会倒吗”的内部模拟机制。它需要理解物体属性、接触力学和稳定性,输出的是动作可行性评估。

三类公司的目标完全不同。视频生成公司关心像素保真度,自动驾驶公司关心物理状态预测的精度,机器人公司关心动作后果的可推演性。它们都在做“世界模型”,但做的根本不是同一件事。

World Labs在文章中直指问题核心:这些系统之所以都被冠以同一个名字,是因为它们确实都承载了“理解世界”的某一个侧面。但它们各自只完成了完整认知循环中的一个环节,却被营销语言、媒体报道和资本叙事包装成了完整的世界模型。

概念混乱的另一个推手是术语本身的张力。“世界模型”这个词自带宏大叙事属性,听上去比“视频生成模型”或“视频预测模型”更有想象空间,更能支撑高估值和融资故事。当技术能力无法匹配公众期待时,概念沦为宣传工具就成了必然。

回到1960年代,完整的“世界模型”应该是什么

World Labs的分类框架建立在一个看似古老的理论基础上:部分可观马尔可夫决策过程。

这个框架描述的是一个智能体与环境交互的完整循环。智能体处于某种环境状态中,它执行一个动作,动作改变环境状态,智能体通过传感器获得部分观测,观测触发内部状态更新,更新后的认知驱动下一个动作。循环往复。

在这个框架下,“世界模型”的完整功能应该包含三个环节:从状态生成观测(人眼看到或传感器采集到的像素、点云等),从动作和当前状态推演下一状态(预测物理变化),从观测和目标生成动作(决策规划)。

语言模型学习的是文本序列的统计规律,世界模型学习的则是空间和时间的统计特性。光照如何在不同材质表面反射,物体在重力作用下如何运动,刚体碰撞后能量如何传递,这些才是世界模型要捕捉的规律。

World Labs团队在文章中指出,当前市面上所有被称作“世界模型”的系统,实际上只是上述完整循环中某一个功能环节的投影。有的系统只做“从状态到观测”的渲染,有的只做“从动作到下一状态”的状态推演,有的只做“从观测到动作”的规划。它们各自截取了循环的一段弧线,却被各自贴上了代表完整圆形的标签。

这个分析框架的价值在于,它提供了一个超越营销话术的比较坐标系。不管一家公司怎么包装自己的产品,只要把它放回POMDP循环里,看它输入什么、输出什么、缺什么环节,它的能力边界就暴露无遗。

渲染器、模拟器、规划器,三种投影的能力边界

World Labs的分类法中,第一类被定义为“渲染器”。它的核心目标是生成面向人类视觉感知的高保真像素输出。输入是某种环境状态的表征(可以是文本描述、3D场景参数或隐式编码),输出是一帧一帧的连续画面。

渲染器优化的方向是视觉逼真度而非物理精确度。World Labs文章明确指出,渲染器生成的建筑可能“摇摇欲坠”,因为它并不真正解算结构力学方程;它生成的液体泼溅可能看起来很真实,但液体体积、流速和冲击力可能与真实物理量完全不对应。所以这类模型不能用于建筑设计,不能用于机器人训练,不能用于需要物理上精确模拟的任务。

Google的Genie 3、各类文本转视频模型、以及几乎所有AI视频生成工具,都属于这一类别。Sora当然也在其中。

第二类是“模拟器”。它的核心目标不是生成给人看的画面,而是生成可供后续计算使用的精确状态。输入是当前环境状态和外部作用力(或动作),输出是物理和几何上忠实于真实世界规律的下一状态。模拟器输出的状态可以用来做应力分析、能耗计算、碰撞检测,也可以作为渲染器的输入来生成可视化画面,但它的核心价值在于状态本身的可计算性。

NVIDIA Omniverse是这类系统的典型代表。它不是AI原生模型,而是一个融合了传统物理引擎和AI加速计算的数字孪生平台。World Labs在文章中评价,模拟器是连接渲染和规划的桥梁,但高质量3D物理标注数据的稀缺是主要瓶颈。据World Labs在文章中估计,用于训练这类模型的数据,比互联网上可获取的视频数据少几个数量级。

第三类是“规划器”。它的输入是观测数据(摄像头画面、激光雷达点云、触觉传感器读数等)和目标指令,输出是下一步该执行什么动作。VLA(视觉-语言-动作)模型和World Action Models都属于这一类。

三大分类之间的差异,不是技术路线的细微分歧,而是根本性的功能分化。渲染器输出像素给人看,模拟器输出状态给机器算,规划器输出动作给执行器跑。一个系统可以同时具备多种能力,但当大多数被叫做“世界模型”的系统本质上只做渲染时,把“渲染”等同于“理解世界”就是一种严重的认知错配。

一场持续两年的争论,Sora到底是不是世界模型

2024年2月,OpenAI发布Sora,技术报告标题直接写上了“视频生成模型作为世界模拟器”。这一用词当即引发学术界和开发者社区的激烈争论。

支持者认为,Sora生成的视频展示了3D空间一致性、物体持久性和对物理交互的某种直观理解。一块被咬过的汉堡会留下齿痕,一只狗在雪地里跑会溅起雪花,这些细节似乎表明模型学到了一些物理规律。

反对者的核心论据来自强化学习领域对世界模型的经典定义:一个世界模型必须能够基于动作进行状态转移预测。也就是说,给定当前状态和一个动作输入,模型应该输出动作之后的下一个状态。Sora做不到这一点。用户无法告诉Sora“从左边推开那个杯子”,然后观测杯子是否会倒、往哪个方向倒、碎片飞到哪里去。

Jim Fan的评论精准抓住了这个矛盾:“Sora本质上是一个世界模型,只是它只允许无操作(no-op)作为唯一动作。”这句话的意思是,Sora确实在预测环境随时间的变化,但这个变化过程不受任何外部干预,只能沿着视频数据中固有的因果链展开。它不是在做交互推演,而是在做被动观测序列的续写。

Reddit的r/MachineLearning版块上,不少强化学习研究者表达了更尖锐的批评:不能基于动作进行状态转移预测的系统,不能叫世界模型,只能叫视频预测模型。

World Labs的分类框架为这场争论提供了一个定论式的回答。在POMDP循环中,动作是驱动状态转移的关键输入,缺失这一输入的系统只是完整认知循环中“观测生成”环节的投影。Sora属于渲染器,不是完整的世界模型,更不是世界模拟器。

但这不意味着Sora没有价值。渲染器解决的是一个不同的问题:如何生成符合人类视觉预期的画面。这个问题本身就极其困难,也有巨大的商业价值。问题在于,把渲染能力包装成“理解世界”的能力,会误导技术决策者和投资者,让人误以为这些模型已经具备了物理推演或具身交互的能力。

概念澄清的产业价值

厘清“世界模型”的定义边界,不是一场学术上的咬文嚼字。它直接影响技术选型、投资判断和公众对AI能力的认知水位。

对于一家正在评估是否将某个“世界模型”用于机器人训练的制造企业来说,搞清楚这个模型到底是渲染器、模拟器还是规划器,是避免数百万美元试错的必要前提。一个只能生成视频画面的模型,无论画面多么逼真,都不能替代对物体受力、运动轨迹和碰撞后果的精确计算。

对于投资机构来说,区分三类投影意味着可以更准确地识别项目所处的技术栈位置。一个自称“世界模型”的初创公司,如果产品本质上是一个渲染器,它的竞争对手是视频生成公司,而不是数字孪生平台或机器人控制模型。这直接决定了市场规模的估算方式和对标公司的选取。

对于学术界来说,清晰的分类是建立可比基准的前提。如果“世界模型”这个术语继续被泛化,研究者就难以定义什么算改进、什么算突破,同行评议将建立在歧义的基础上。

World Labs在文章中也指出,概念澄清不是为了制造对立。未来的发展方向将是三类投影的融合。一个真正理解杯子物理属性的模型,应该能同时渲染它的视觉外观、模拟它被推倒时的物理过程、并规划机械手如何稳定地抓取它。但在技术发展到那一步之前,认清各自的边界比畅想融合更有现实意义。

据World Labs在文章中估计,以NVIDIA Omniverse为代表的模拟器及数字孪生技术,瞄准的是工厂、仓库、供应链等领域超过万亿美元的潜在市场。这个数字来自厂商自身的判断,至于市场何时能真正达到这个规模,取决于模拟器能否突破高质量3D物理数据稀缺的瓶颈。

对于当前阶段的AI行业来说,最重要的认知或许很简单:能生成逼真视频,不等于理解物理世界;能被叫做世界模型,不等于真的在模拟世界。穿透营销语言,审视一个系统在POMDP循环中到底接受什么输入、输出什么结果、缺少哪个环节,是对技术能力边界最诚实的判断方式。

相关问答

Q根据李飞飞团队的文章,“世界模型”这一术语的滥用主要表现在哪些方面?

A根据李飞飞团队的文章,“世界模型”这一术语的滥用主要表现在:各类目标和技术差异巨大的系统都被冠以同一名称。例如,视频生成模型(如Sora)追求像素保真度,自动驾驶预测模型(如特斯拉FSD)关心物理状态预测精度,机器人控制模型关注动作后果的可推演性。它们在营销、媒体报道和资本叙事中都被包装成完整的“世界模型”,但其实际功能只是完整认知循环中的某一个环节。概念混乱的另一个推手是术语本身宏大的叙事属性,容易支撑高估值和融资故事。

QWorld Labs团队提出的“世界模型”分类框架是哪三种?各自的核心功能和典型例子是什么?

AWorld Labs团队提出的“世界模型”分类框架包括以下三种: 1. **渲染器**:核心功能是生成面向人类视觉感知的高保真像素输出。它输入某种环境状态表征,输出连续画面。这类系统优化视觉逼真度而非物理精确度,不能用于需要精确物理模拟的任务。典型例子包括Sora、Google的Genie 3等AI视频生成工具。 2. **模拟器**:核心功能是生成物理和几何上精确的环境状态,用于后续计算。它输入当前状态和外部作用力(或动作),输出符合真实世界物理规律的下一状态,可用于应力分析、能耗计算等。典型例子是NVIDIA Omniverse数字孪生平台。 3. **规划器**:核心功能是基于观测数据和目标指令,输出下一步应执行的动作。它连接感知与执行,典型例子包括视觉-语言-动作模型(VLA)和World Action Models。

Q文章提到,Sora为什么被归类为“渲染器”而不是完整的世界模型或世界模拟器?

A文章指出,Sora被归类为“渲染器”而不是完整的世界模型或世界模拟器,主要基于其在完整认知循环中的功能定位。在部分可观马尔可夫决策过程(POMDP)理论框架下,一个完整的世界模型应能基于动作进行状态转移预测,即给定当前状态和一个动作输入,输出动作后的下一个状态。而Sora(及其他同类视频生成模型)只能沿着视频数据中固有的统计规律生成连续画面,用户无法通过输入动作(如“推开杯子”)来交互式地推演物理状态变化。它本质上在做“被动观测序列的续写”,优化的是视觉逼真度,因此只是完整认知循环中“观测生成”环节的投影,属于渲染器。

Q厘清“世界模型”概念的定义边界,对产业界和学术界有哪些实际价值?

A厘清“世界模型”概念的定义边界具有重要的实际价值: 1. **产业技术选型**:帮助企业避免错误的技术投资,例如,不能将只能生成视频的渲染器用于需要精确物理模拟的机器人训练或工厂规划。 2. **投资判断**:帮助投资机构更准确地评估项目,根据其属于渲染器、模拟器或规划器来界定竞争对手和市场空间。 3. **公众认知**:防止营销语言误导公众,让人们认识到生成逼真视频不等于理解物理世界。 4. **学术研究**:为学术界建立可比基准提供清晰前提,使研究者能够明确定义技术改进和突破的标准,促进有效的同行评议。

Q文章中提到,未来“世界模型”的发展方向是什么?当前面临的主要瓶颈是什么?

A文章中提到,未来“世界模型”的发展方向是三类功能投影——渲染器、模拟器和规划器的融合。一个真正理解物理世界的模型,应该能够同时生成逼真的视觉外观、精确模拟物理变化过程,并能规划交互动作。但在技术发展到融合阶段之前,认清各自的能力边界更为现实。 当前面临的主要瓶颈,特别是对于模拟器及数字孪生技术(如NVIDIA Omniverse),是高质量3D物理标注数据的极端稀缺。据文章估计,用于训练这类模拟器的数据量比互联网上可获取的视频数据少几个数量级,这限制了模拟器在工厂、供应链等万亿美元级潜在市场的应用和发展速度。

你可能也喜欢

封了自家元宝,微信AI亲自下场

微信AI智能体即将以原生形态嵌入微信,预计最快本月启动合规审批。其交互入口拟定为微信主界面右滑,定位不止是聊天机器人,更能通过调用小程序完成挂号、点餐等实际任务,实现从“信息输出”到“服务执行”的闭环。 这一战略转向源于内部竞争与外部压力。腾讯此前推出的独立AI应用“元宝”增长乏力,月活远落后于字节的“豆包”和阿里的“千问”。更关键的是,元宝在今年春节的营销活动因“诱导分享”被微信自身封杀,暴露出腾讯对AI落地路径的内部犹疑。此事件促使共识形成:腾讯的AI能力应植根于微信生态,而非另起炉灶。 微信的核心优势在于其独一无二的生态:14亿月活用户、成熟的微信支付体系以及覆盖数百万商户的标准化小程序接口。这使得微信AI智能体能高效、精准地调用服务,无需像竞品那样模拟屏幕操作。腾讯总裁刘炽平指出,微信平台是承载AI智能体的“理想助手”。 然而,挑战依然存在:混元大模型的性能需持续追赶;海量用户带来的算力成本高昂;AI智能体“一步直达”服务可能压缩小程序开发者的流量与广告收益,需重新设计激励机制。此外,阿里、字节等巨头也在构建自己的AI服务闭环,意图控制用户需求的入口。 本质上,微信推出AI智能体是一场防御性升级,旨在将用户对服务的需求尽可能留在微信体系内完成,从而巩固其作为核心入口的地位。这并非简单的产品迭代,而是在存量竞争时代,对人与服务连接方式的重新定义。

marsbit42分钟前

封了自家元宝,微信AI亲自下场

marsbit42分钟前

华尔街新操作:日元空头仍在加码,但日股靠的不是Carry Trade平仓

2026年6月初,美元兑日元汇率重返160关口附近,日经225指数则突破68000点创历史新高。市场出现对“套利交易(carry trade)崩盘”的担忧,但数据揭示了更复杂的情况。 首先,投机资金并未撤离日元空头,反而在加码。CFTC持仓数据显示,截至5月26日当周,日元期货净空头头寸增至约11.5万张合约,接近历史高位。这意味着若日本央行转向鹰派或美国经济走弱,可能引发类似2024年8月的被动平仓风险。 其次,日本财务省在4月底至5月底实施了规模创纪录的外汇干预(约11.7万亿日元),但仍未能阻止日元汇率跌破160。这显示单边干预效果有限。 关键点在于,推动日股上涨的动力并非来自套利交易平仓后的资金回流。外资正连续数周大幅净买入日股,2026年内累计净买入额已达去年同期的近16倍。资金集中流向AI与半导体相关股票(如软银、Socionext),是追逐全球AI产业趋势的主动投资行为,与2024年因套利交易瓦解引发的被动抛售有本质不同。 此外,日股在日本央行加息周期中依然走强,表明当前外资行情对利率敏感度较低。但若未来日本央行进一步加息(例如至1.0%)叠加美元转弱,可能导致套利交易成本骤升,届时股市与汇市的关系可能重新紧密联动。 综上,当前市场并存三个事实:日元空头仓位拥挤、干预未能守住关键汇率、日股受AI主题外资驱动创新高。它们并不矛盾,共同构成了市场的复杂图景。

marsbit1小时前

华尔街新操作:日元空头仍在加码,但日股靠的不是Carry Trade平仓

marsbit1小时前

狗狗币价格刚进入关键水平,但分析师表示现在还不是买入时机

狗狗币价格已重回月线图上的一个重要长期水平,在数月疲软走势后再次面临关键考验。分析师Trader Tardigrade指出,DOGE目前正处在一个关键的阻力区域,过去十年的两次触及此区域均以反弹失败告终。 图表显示,狗狗币长期交易于一个巨大的下降扩散通道内。该通道自2015年以来定义了其价格走势,上下两条红色趋势线随时间逐渐拓宽。此前在2017年和2020年,狗狗币曾反弹至该通道的上部阻力线,但随后均遭遇强烈拒绝并出现深度回调。目前(2026年),价格第三次回到这一上方结构,似乎将再次被拒绝。 值得注意的是,分析师使用的图表是倒置的:图表中价格越低,实际市场价格越高。因此,图中标注为关键阻力的红色下降线,在常规市场中实际代表一条看涨的支撑线。此前两次(对应2017年和2021年周期)从该倒置阻力线的拒绝,在倒置图表上呈现为大幅下跌,实则对应正常图表上的大幅上涨。 因此,当前价格行动应被视为重返支撑区域。狗狗币现报0.0937美元,正处于0.09至0.10美元的支撑区间内。若能突破0.10美元并进入0.15至0.18美元区间,将是情绪改善的首个迹象。而明确站上0.25美元,则能更清晰地确认价格正从支撑结构反弹。根据倒置图结构,在触及下一个主要趋势线之前,狗狗币甚至存在升至两位数价格目标的空间。

bitcoinist1小时前

狗狗币价格刚进入关键水平,但分析师表示现在还不是买入时机

bitcoinist1小时前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.4k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片