从一张午餐桌到无限宇宙，李飞飞押注AI的下一个维度

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

斯坦福大学教授、World Labs创始人李飞飞在近期的多次访谈中系统阐述了她对AI发展方向的判断：空间智能（Spatial Intelligence）是下一个前沿，而当前主流的大语言模型存在根本局限。李飞飞指出，人类语言仅有约50万年历史，而视觉与空间感知能力则可追溯至5.4亿年前，是智能演化的基础。语言本质上是对世界的一种“有信息损失”的编码，无法完整捕捉物理世界的三维结构、运动和交互。她举例说明，当前AI模型甚至难以完成“数清视频中椅子数量”这类幼儿级空间任务，更无法像牛顿那样从观测数据中推导物理定律。她创立的World Labs正致力于此方向，其首代模型Marble能够从文本、图像等输入生成可导航、可交互且具有几何一致性的3D环境，这与生成视频有本质区别。Marble模型规模远小于GPT-5，部分原因是高质量3D数据稀缺，且该领域尚处早期。该技术已应用于游戏开发、电影虚拟制作（将周期缩短40倍）、机器人训练、室内设计乃至为强迫症、恐高症患者定制个性化治疗环境。李飞飞展望，空间智能技术将能创造“无限的宇宙”，应用于社交、旅行、创意等多领域，使人类未来可能生活在“多元宇宙”中。她同时也提醒，对AI的讨论应避免乌托邦或末日论的两极化，技术成功的终极标尺应是让人类文明更美好，并始终维护每个人的尊严与自主性。她认为，从“谈论世界”到“理解世界”再到“在世界中行动”，是AI必须完成的进化。这条道路虽充满挑战，但意义深远，正如她所言：“感知先于语言，空间先于符号。”

500万年,这是人类语言在进化史上的年龄。5.4亿年,这是视觉和空间感知催生寒武纪生命大爆发的起点。

在硅谷几乎所有顶级实验室都在卷语言模型的2025和2026年,斯坦福大学教授、World Labs创始人李飞飞反复抛出一个让行业不得不抬头的问题:如果AI只会说话和看图片,它永远不会真正“理解”这个世界。

她在三次关键访谈中,包括2025年6月的a16z Podcast、2026年2月的思科AI峰会(Cisco AI Summit),以及2026年5月22日发布、长达1小时19分钟的Lenny's Podcast深度对话,系统阐述了一个正在被加速验证的判断:空间智能(Spatial Intelligence),才是AI的下一个前沿。

其中a16z对话中“创造无限的宇宙”“生活在多元宇宙中”的表述,以及Lenny's Podcast中“世界模型才是下一个前沿”“AGI更像营销术语”等观点,最近在X平台上再度被大量转发。

“我们缺一个世界模型”

据a16z合伙人Martin Casado回忆,在硅谷的一次午餐会上,满桌AI从业者在兴奋地谈论大语言模型。李飞飞坐在餐桌另一头,突然转头问他:

“你知道我们缺什么吗?我们缺一个世界模型。”

Casado是World Labs的早期投资人,也是李飞飞在斯坦福时期就结识的老友。他回忆那一刻时说,“一切都对上了”。他当时刚从大量图像领域的投资中独立得出类似结论:语言不是故事的终点。

但李飞飞对这个问题的思考远比大多数人更久远。

2024年4月,她在TED大会上发表了一场15分钟的演讲,用进化论做了破题:5.4亿年前三叶虫的出现,第一次让生命“看见”了世界。视觉的诞生引爆了智能的演化竞赛,神经系统开始发育,动物变得活跃,智能由此萌芽。而语言,不过是这场漫长竞赛中非常晚近的产物。

这个判断在三次访谈中被反复强化。在思科AI峰会上,她的表述更加直接:

“语言的历史大概只有50万年。但在15亿年前,动物就开始感知光线并触摸环境。在真实的3D、4D物理世界中进行理解、推理、交互和导航的能力是基础性的,与语言智能同样重要。”

李飞飞并非否定语言智能的价值。她的核心论点是:语言在本质上是一种“有信息损失的”对世界的编码方式。

在a16z访谈中,Casado做了一个思维实验:蒙上你的眼睛,用语言描述一个房间,然后让你完成一项任务,你成功的概率极低。因为语言对现实的描述永远是粗糙的。拿掉眼罩,你的大脑瞬间重建3D空间,你就能操作、触摸、移动。

李飞飞补充了一个更极端的例子,即科学史上最著名的一次空间推理:罗莎琳德·富兰克林拍摄的DNA X射线衍射照片是一张平面的二维影像,上面的结构看起来像一个带有衍射的十字。但沃森和克里克通过那张二维照片,在三维空间中推理出了DNA的双螺旋结构。“那个结构不可能是二维的。你不能用二维的思维来推导出那个结构。”

“如果你观察人类智能,很多都超出了语言的范畴。语言是一种有信息损失的捕捉世界的方式。纯粹的生成式‘语言’在自然界中并不存在;我们环顾四周,没有现成的句子或单词,而整个物理、感知、视觉世界却真实存在。”

这是一个容易被忽视的视角:当前大模型的大部分能力,建立在一种天然有损的信息压缩格式之上。而在Lenny's Podcast中,她用一个更日常的测试戳穿了这个幻象:

“今天,你拿一个模型,让它运行一段包含几个办公室房间的视频,然后要求模型数一下椅子的数量。这是幼儿就能做到的事情,而人工智能却做不到。”

更不用说从天体运动中推导出物理定律:“让我们把所有的数据都给人工智能,包括牛顿没有的现代仪器数据,让它创建一套17世纪关于物体运动规律的方程。今天的人工智能做不到。”

Marble:比GPT-5小几个数量级

将这个判断推向产品的是World Labs的第一代模型Marble,2024年底发布。

李飞飞在思科AI峰会上详细拆解了Marble的技术定位:接收文本、图片、视频或简单3D输入,生成一个“完全可导航、可交互且具有永久一致性的3D世界”。她特别强调,这与Sora等视频生成模型有本质区别,Marble生成的环境拥有几何结构,不是一段“看起来像”视频的像素动画。

在Lenny's Podcast中,她用柏拉图的洞穴寓言做了更深的阐释:囚犯被绑在椅子上,只能看到墙上投射的二维影子,但真正的戏剧在背后三维空间中上演。视频模型就是那些影子,而空间智能要做的,是创造和推理那个影子背后的真实世界。

一组对比:GPT-5的训练算力大约在10的26次方FLOPS量级,而Marble在规模上小几个数量级。原因有两层:数据获取难度完全不同(高质量3D物理数据极其稀缺),且这个领域还处于“Scaling Law的上升曲线”的早期阶段。

在Lenny's Podcast中,她进一步解释了为什么机器人学习无法简单复制语言模型的“苦涩的教训”。AI领域有一个著名的论断:拥有海量数据的简单模型最终总能胜过复杂模型。但“语言模型拥有一个完美的设置:训练数据是单词,输出也是文字。”而机器人技术中,“你希望获得行动,训练数据却缺乏在3D世界中的行动。”这种训练目标与数据形态之间的根本错位,才是机器人学习的核心难题。

World Labs采取混合数据策略:互联网规模的文本、图像和视频,加上仿真模拟数据,再加上真实世界采集数据。李飞飞坦承,“我们仍在探索模型架构的相对早期阶段”,但她预计“接下来的几年将会非常令人兴奋”。

话音刚落,World Labs就在2026年2月完成10亿美元融资,英伟达、AMD、a16z参投,估值从一年前的10亿美元飙升至约50亿美元。4月,团队开源了3D高斯溅射渲染引擎Spark 2.0,可在网页端实现亿级3D场景实时渲染,从闭源产品转向“产品+开源生态”的双轨策略,空间智能的技术门槛正在被快速拉低。

在Lenny's Podcast中,李飞飞也罕见地坦露了创业的艰辛:“如果我能对18个月前的自己耳语一句话:“这个领域的竞争强度,无论是技术还是人才,远超你的想象。”

无限宇宙与多元宇宙

真正让a16z那次访谈在X上反复出圈的,是李飞飞关于“无限宇宙”的表述:

“在整个人类文明历史中,我们所有人都共同生活在一个3D世界里。只有少数人去过月球,但人数非常少。而这项技术让数字虚拟世界变得无比精彩。突然间,我们实际上可以创造无限的宇宙,有些是为机器人创造的,有些是为创造力创造的,有些是为社交创造的,有些是为旅行创造的,有些是为讲故事创造的。突然之间,我们能够生活在一个多元宇宙中,想象的空间是无限的。”

Casado则从技术层面做了更具体的阐释:通过一张二维照片,模型就能生成包括桌子背面在内的完整360度3D表示。你可以操作、测量、堆叠,空间中能做的任何事都可以实现。

这不是科幻。在两次访谈中,李飞飞列举了Marble已经落地的应用:

• 游戏开发者用早期版本开发游戏

• 与索尼合作的虚拟制作团队将电影制作周期缩短了40倍

• 英伟达及多家学术实验室利用Marble训练机器人

• 建筑师和设计师用它做室内设计

• 临床研究人员为强迫症、恐高症患者定制个性化的沉浸式触发环境

• 有人用它生成个性化的瑜伽训练空间

最后一个应用尤其出人意料。李飞飞在峰会上提到,OCD患者会被非常具体的场景触发,“比如我个人会被堆积的脏衣服困扰,但每个人的触发点各不相同”。在Lenny's Podcast中她补充道,发布后一位朋友连夜打电话问她是否可以用Marble治疗恐高症。实体环境的搭建成本极高,而Marble只需输入提示词,几分钟就能生成各种环境。

柏拉图的洞穴寓言,恰好也是理解2D与3D分歧的最佳入口。

李飞飞用这个寓言解释:被绑在椅子上的囚犯,只能看到墙上投射的二维影子。当前的语言模型和视频模型,本质上都是那些影子,从二维中猜测三维。空间智能的野心,是创造、推理和交互那个影子背后的真实世界。

在技术路线上,她用一个简洁的对比划清了边界:

“汽车可以被视作一个在二维平面上移动的方块机器人,它的目标是不要碰到任何东西。而机器人是一个三维实体,在三维世界中运行,通用机器人的目标是必须接触物体而不破坏它们。这是一个更高维度的问题。”

她还给出了一个来自亲身经历的时间刻度:2006年,她参与创造了第一辆在沙漠行驶138英里的自动驾驶汽车,当时预言20年后会有自动驾驶汽车。直到2025年,Waymo才开始在城市街道大规模运行。

“看清北极星并不意味着旅程会很短。”

Casado在a16z对话中补充了更具商业直觉的观察:仅自动驾驶一个赛道,行业就投入了大约1000亿美元,20年才走到今天。“我们原本的路线是先解决世界导航问题,但结果极其困难。”

李飞飞甚至在a16z访谈中分享了一段个人经历来强化论点:大约五年前,她因眼角膜受伤失去了几个月的立体视觉。“即使我非常清楚我的车有多大,也大概知道邻居家停的车有多大,而且我在这条路上开了很多年,但我无法很好地判断车和路边停着的车之间的距离。我只能开到时速十英里,以免刮到其他车。”

一个终身研究视觉智能的科学家,用自己失去深度感知后的切身困境,回答了“为什么3D不可替代”这个问题。

技术双刃剑与文明标尺

在技术乐观主义和末日论之间,李飞飞选择了一个更克制也更具操作性的站位。她在思科AI峰会上明确表达了对两极化言论的担忧:

“网络上的讨论往往是非黑即白的:要么是完全的技术乌托邦主义,忽略了技术是一把双刃剑;要么就是末日论调,仿佛人类时刻面临生存危机。对于一项对人类文明如此深远的技术,这种讨论方式是不负责任的。”

她没有停留在批评层面,而是给出了一个可量化的价值锚点:电力。

“如果回拨一百多年,想象当时人们如何定义电力的成功。我希望那时的愿景是:学校灯火通明,家园温暖如春,机器被赋予力量实现工业化,进而延长人类寿命,让更多孩子接受教育。”

然后将这个锚点平移到AI:“成功的定义应该是文明变得更加美好,而文明是由每一个追求幸福、繁荣且拥有尊严的个体组成的。这就是AI以及每一项技术成功的定义。”

在Lenny's Podcast的结尾,她把这份关切落到了具体的人身上。她说自己每到一处都会被问到同一个问题:如果我是农民、护士、音乐家,AI会取代我吗?她的回答是:“归根结底,AI是关于人的。任何技术都不应该剥夺人的尊严。人类的尊严和自主性应该成为每项技术的开发、部署以及治理的核心。”

回顾三次访谈,一条清晰的脉络浮出水面。

李飞飞对空间智能的思考,不是对大模型浪潮的反叛,而是在其基础上的延伸。她比大多数人更早地看到了语言模型的极限,一种有损的信息压缩格式能做的终究有限。而空间智能要解决的问题是:让AI从“谈论世界”进化到“理解世界”,最终到“在世界中行动”。

World Labs团队约30人,已融资超10亿美元。Marble是第一代产品,规模远不及顶级语言模型。3D数据的稀缺和模型架构的早期状态,决定了这不会是一条一蹴而就的路线。但李飞飞在Lenny's Podcast中说了另一句话,或许是对这份耐心最好的注解:

“我们的大脑只消耗约20瓦,比房间里任何灯泡都暗,却能做这么多事。我在AI领域工作得越多,越尊重人类。”

5.4亿年的进化,才让碳基生命获得了这份20瓦的空间智能。AI的这场进化,正在被压缩到几年内完成。

李飞飞在三次访谈中都没有给出时间表。她只是反复回到那个从进化论中提取的判断:感知先于语言,空间先于符号。这场正在硅谷、斯坦福实验室和World Labs办公室里发生的,不是一次技术迭代,而是一次进化论的加速重演。(本文首发钛媒体APP,作者 | 硅谷tech news,编辑 | 赵虹宇)

附:上述三场访谈文字实录收录地址【ima知识库】李飞飞访谈 https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5

你可能也喜欢

Nocera更名为Nocera Holdings，全面跨足AI、数据中心、机器人、生技与数字资产

Nocera公司宣布更名为Nocera Holdings，转型为多元化控股公司，旨在全面进军人工智能（AI）、AI基础设施、数据中心、机器人、生物技术、区块链与数字资产等多个高增长科技领域。为支持此次转型，公司修改了此前最高3亿美元的融资协议，放宽资金使用条件，以便用于全球并购、战略投资、联盟及日常运营。公司认为AI、自动化、先进计算、机器人、区块链与数字资产等领域正相互融合，蕴含巨大商机。转型计划将积极寻求在AI基础设施、企业级应用及相关服务领域的并购与投资机会，并评估亚洲和东欧的数据中心及配套设施项目。此外，公司还关注生物技术与AI医疗科技，以及机器人、自动化等“实体AI”在亚洲市场的发展。原有的区块链与数字资产战略也将继续推进，作为长期布局的一部分。配合品牌重塑，公司正在进行全面的形象更新与国际市场沟通。同时，公司将持续优化资产负债表与运营效率，以确保符合纳斯达克上市规定。Nocera Holdings希望凭借其在亚洲等市场的现有资源与关系，投资于具有规模潜力的下一代科技，为股东创造长期价值。

marsbit36分钟前

Nocera更名为Nocera Holdings，全面跨足AI、数据中心、机器人、生技与数字资产

marsbit36分钟前

比特币风向标 #57

《比特币动态》第57期本文是一篇付费文章。如果您已经是订阅用户，请登录账户以阅读全文。本期文章主要探讨了比特币当前的市场动态和相关分析。然而，文章的详细内容仅为订阅者提供。非订阅用户只能访问到基本的标题和提示登录的信息，无法获取具体的市场数据、技术分析、行业见解或未来趋势预测等核心内容。要了解完整的深度分析，读者需要拥有有效的订阅账户。

insights.glassnode46分钟前

insights.glassnode46分钟前

谁能在 Agents 时代赚到钱？

文章探讨在区块链Agents（智能体）时代，价值捕获理论的演变。传统加密领域的“胖协议”理论认为底层协议因稀缺性而捕获价值，但随着基础设施竞争加剧，协议定价权减弱。“胖应用”理论则强调应用层通过掌握用户关系（如钱包、交易所）获得优势。然而，Agents作为自动化软件用户，改变了游戏规则：它们不看重用户体验或品牌忠诚度，而是直接调用API并追求最低成本。这可能导致几种情景：一是现有应用“无头化”，转为面向Agents的后端服务；二是Agents跳过中间层，直接与协议交互，使“胖协议”理论复兴；三是整个技术栈利润率压缩，价值流向Agents所有者或其服务对象；四是Agents激发全新的链上经济活动，扩大整体规模。最终，人类用户和Agents可能长期共存，形成不同的价值捕获模式。对于构建者，关键在于思考除价格外，如何通过流动性、延迟或结算保证等要素吸引Agents持续使用。

marsbit47分钟前

marsbit47分钟前

6,000名投资者因Solana迷因币血本无归——韩国采取行动

韩国检方首次对去中心化交易所“拉地毯”骗局提起刑事指控，并对五人进行起诉，这是该国《虚拟资产用户保护法》中欺诈交易罪名首次被应用，为监管Solana等区块链上的DEX市场操纵行为树立了重要的法律先例。该骗局围绕在Solana代币发行平台pump.fun上推出的MEME币CATFI展开。主谋以“EtherFather”的化名在社交媒体上伪装成独立第三方，向粉丝推荐该代币，同时其团队操控项目官方账号，通过伪造关注度和虚假宣传吸引散户。团队通过多钱包分散持仓并进行循环交易以掩盖其对代币流动性的控制，最终卷款跑路，非法获利约40亿韩元。 CATFI价格在推出后26小时内暴涨1001倍，吸引了约6000名投资者。其中，256人确认遭受财务损失，总额约90亿韩元（约合65万美元）。此案首次将《虚拟资产用户保护法》的欺诈交易罪名应用于去中心化交易所活动，标志着韩国执法机构正将监管范围扩展至中心化交易所以外的加密欺诈领域，显示出其应对复杂加密货币欺诈行为的技术能力和法律框架正在完善。

bitcoinist49分钟前

bitcoinist49分钟前

谁能在 Agents 时代赚到钱？

作者探讨了在区块链进入Agents（智能体）时代后，价值捕获模式的演变。文章回顾了加密领域原有的两种主流理论：“胖协议”理论认为底层协议能捕获大部分价值，而“胖应用”理论则认为掌握用户关系的应用层更具优势。然而，当用户从人类转变为Agents时，情况将发生根本变化。Agents直接调用API，对用户体验、品牌和便利性无感，且切换成本为零，这动摇了“胖应用”理论依赖的前端护城河。文章提出了几种可能的未来图景： 1. **应用“无头化”**：当前成功的应用剥离前端，转型为面向Agents的纯后端API服务商。 2. **协议再度崛起**：如果集成足够简便，Agents可能直接与底层协议交互，跳过中间层，使“胖协议”理论复苏。 3. **全栈定价权崩塌**：Agents的绝对理性和零摩擦切换可能导致技术栈各层利润率被压缩至边际成本，价值流向Agents所有者或其服务的人类用户。 4. **催生新经济活动**：Agents可能以远超人类的规模和速度进行交易，甚至创造全新类型的链上市场，从而做大整体蛋糕。 5. **诞生未知新模式**：如同互联网催生注意力经济，Agents时代可能出现今天无法预见的全新商业模式。最终，人类用户和Agents用户可能长期共存，形成两套不同的价值捕获体系。对于构建者而言，在Agents端建立优势的关键，可能在于提供更优的流动性、延迟、结算保证等非用户体验因素。

链捕手1小时前

交易

现货

合约

从一张午餐桌到无限宇宙，李飞飞押注AI的下一个维度

文章摘要

“我们缺一个世界模型”

Marble:比GPT-5小几个数量级

无限宇宙与多元宇宙

技术双刃剑与文明标尺

相关问答

你可能也喜欢

Nocera更名为Nocera Holdings，全面跨足AI、数据中心、机器人、生技与数字资产

比特币风向标 #57

谁能在 Agents 时代赚到钱？

6,000名投资者因Solana迷因币血本无归——韩国采取行动

谁能在 Agents 时代赚到钱？

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签