李飞飞团队厘清“世界模型”概念,Sora只能算渲染器
斯坦福大学教授李飞飞团队联合发布概念分析文章《世界模型的功能分类法》,指出“世界模型”是AI领域最重要且被严重滥用的术语之一。文章将当前各类被称为“世界模型”的系统,依据其在部分可观马尔可夫决策过程中的功能,归约为三类:渲染器、模拟器和规划器。
渲染器(如OpenAI的Sora、各类文生视频模型)的核心是生成面向人类视觉的高保真像素画面,但缺乏物理精确性,无法用于需要真实物理计算的任务。模拟器(如NVIDIA Omniverse)的核心是生成精确的物理状态数据,用于数字孪生、工程分析等,但受限于高质量3D物理数据的稀缺。规划器(如各类机器人控制模型)则根据观测和目标输出具体动作指令。
文章指出,概念混乱源于各类系统只承载了“理解世界”完整认知循环中的一个环节,却被营销和叙事包装为完整模型。例如,Sora仅能沿视频数据固有序列“被动续写”,无法基于外部动作进行状态转移预测,因此本质上是渲染器,而非真正的世界模拟器。澄清概念有助于技术选型、投资判断和建立可比基准,避免因能力误解导致决策失误。未来的方向是三类功能的融合,但当前认清各自边界更为重要。
marsbit8小时前