李飞飞最新长文:当视频生成、机器人和 NVIDIA 都自称世界模型,我们需要一个分类法
李飞飞发表文章,针对当前AI领域中“世界模型”一词被广泛滥用的现象提出一个清晰的功能分类法。她指出,尽管视频生成、机器人和NVIDIA等不同领域都自称构建“世界模型”,但它们实际指的是强化学习闭环(POMDP)中三种不同的功能模块。
**分类法如下:**
1. **渲染器**:输出**观测**(如像素),追求视觉保真度,例如Sora、Genie等视频生成模型。其局限在于“好看不等于物理正确”。
2. **模拟器**:输出**状态**,即在几何、物理和动力学层面忠实的世界表征,服务于建筑设计、机器人训练等需要精确模拟的场景。李飞飞认为这是连接渲染和规划的关键枢纽,被严重低估。
3. **规划器**:输出**动作**,根据观测和目标决定智能体(如机器人)应执行的动作,是感知-行动回路的闭环。
**现状与趋势:**
* **渲染器**商业化最成熟,但有物理准确性天花板。
* **规划器**最令人兴奋但最不成熟,实验室演示与实际部署存在巨大鸿沟。
* **模拟器**是核心桥梁,掌握了模拟就同时为渲染和规划提供了基础。
当前最重要的趋势是这三类功能的边界正在消融,因为它们共享对世界底层运作(几何、物理、动力学)的同一套理解。例如,World Labs的Marble模型能同时输出用于视觉的高斯泼溅和用于物理模拟的碰撞网格。
逻辑终点是构建一个**统一的世界基础模型**,能根据下游需求在渲染、模拟和规划模式间自由切换。尽管面临数据不均衡、优化目标冲突等挑战,但三者的融合将重新定义机器智能与物理世界的关系,推动空间智能的发展。
链捕手9 小時前