世界模型是当前AI领域的热门概念,旨在让机器像人类一样,在行动前通过“脑内沙盘”预演和推演未来。其核心思想可追溯至1943年心理学家Kenneth Craik提出的“心智模型”,以及AI先驱Marvin Minsky的“框架理论”。2018年,David Ha与Jürgen Schmidhuber的论文将这一概念带入深度学习主流。 当前,学界和产业界对世界模型的定义尚未统一。Yann LeCun强调其应理解物理规律,提出JEPA架构;李飞飞则基于POMDP框架,将世界模型分为渲染器、模拟器和规划器三类;清华大学FIB-Lab将其功能归纳为“理解世界”与“预测未来”。OpenAI的Sora、Google DeepMind的Genie 3、英伟达的Cosmos等大厂产品,分别从视频生成、3D交互、物理仿真等角度切入。 技术路线主要分为三类:一是“画画”路线,即生成式视频模型,视觉逼真但物理一致性弱;二是“心算”路线,预测抽象表征,效率高但可解释性差;三是“搭积木”路线,生成精确的三维环境,可控但泛化能力有限。发展趋势是三者融合,并向World Action Model(WAM)演进,实现状态预测与动作生成的联合学习。 产业链已形成基础支撑层、技术平台层和场景应用层三层结构,在自动驾驶、具身智能等领域应用广泛。尽管概念尚未统一,但这反映了技术早期的多元探索,最终目标都是让机器拥有可推演、可泛化的内部世界模型,以实现更安全、高效和通用的智能行为。
marsbit1天前




