李飞飞的世界模型宣言

marsbit發佈於 2026-06-09更新於 2026-06-09

文章摘要

AI专家李飞飞近期发表技术博客，引用维特根斯坦“世界即所发生的一切”的观点，指出当前生成式AI虽能熟练处理语言，却缺乏对物理世界本质的理解。她强调，真正的“世界模型”应让机器超越文本统计，掌握物理空间与时间规律，这是实现具身智能的关键。针对“世界模型”概念日益模糊的现状，李飞飞提出了一个基于“部分可观测马尔可夫决策过程”的清晰框架，并拆解出其三大核心组件：渲染器、模拟器和规划器。 * **渲染器**：负责生成视觉上合理、美观的像素画面（如Sora等视频生成模型），但可能缺乏物理真实性。 * **模拟器**：追求对物理规律的严格遵循，是连接渲染与规划的枢纽，也是当前最薄弱但至关重要的环节，英伟达的Omniverse是该领域的代表。 * **规划器**：负责决策与行动输出，是机器从“观察者”变为“实践者”的关键。李飞飞认为，模拟器是实现AI工业化的核心，但其发展面临高质量3D物理数据稀缺、生成内容存在物理错误（如“穿模”）等巨大挑战。她同时预测，渲染、模拟与规划三者的界限正变得模糊，未来将趋向于一个统一的、可交互的基础模型，能无缝切换于视觉表现与物理仿真之间。最终，李飞飞指出，构建世界模型的竞争本质是定义物理世界数字标准的竞争，这是AI从“谈论世界”走向“理解并与世界交互”的必经之路，是迈向通用人工智能（AGI）的重要一步，但前路依然漫长。

“世界即所发生的一切。”

1921年,路德维希·维特根斯坦在《逻辑哲学论》中写下了这句名言。一个世纪后,这句话被AI领军人物之一李飞飞引用,成为了最新一篇技术博客的开篇。

在深度学习的版图里,人们近三年已经习惯了AI对语言的降维打击,始于ChatGPT赋予了机器远超人类的表达、编程和推理能力。

然而,数字奇迹的背后,一个盲区往往会被忽视:机器能谈论世界,却对世界的物理本质一无所知。李飞飞发布的这篇博客,像是一次冷静的降温。

在生成式AI已经成为全球必不可少的工具的今天,行业内部对“世界模型”的定义正在变得越来越混乱。无论是视频生成还是具身智能,各家公司都在争夺这一概念的解释权。

在李飞飞发布这篇博客之后,不少人都认为她在试图重新抢回“世界模型”的定义权。但恰恰相反,我想,李飞飞真正想要做的,是借此向人们发出一次宣言:世界并非由语言构成,而是由严密的物理空间和时间规律构成。

机器要想真正踏入人类的物理世界,就必须摆脱文本统计的舒适区,转而理解光影的折射、物体的惯性和碰撞的逻辑。这不仅是技术上的范式转移,也是AI迈向具身智能的必经之路。

01 人们需要一套分类法

必须承认的是,在AI的词典里,“世界模型”已经沦为一个万能代词,任何涉及到生成图像和模拟环境的项目似乎都能与它联系起来。而这种模糊性,正是源自于人们对“世界”定义的多维需求。

在一项技术刚刚起步时,自然不会有统一的法条来将它束缚在一个明确的界限之内。“世界模型”定义的这种混乱,在历史上也并不罕见。古希腊哲学家在争论世界的本质是水、火亦或是不可分割的原子时,其实他们就是在为自己的推理找基石。

AI领域现在遇到的也是同样的问题:当一个视频生成模型产出的效果在视觉上极其逼真,但在物理法则上完全不可能存在时,人们该如何定义它?李飞飞的博客中提及了一个古老而稳健的定义基础:部分可观测马尔可夫决策过程(POMDP)。

这也是强化学习机制的核心公理,它揭示了一个智能体与物理世界交互的永恒闭环:智能体采取行动(Action),导致世界状态(State)发生改变。然而,智能体没有上帝视角,只能通过观测(Observation)来构建对现实的局部感知。

所谓世界模型,本质上就是机器为了在这个闭环中生存,而在其“大脑”中构建的关于世界的抽象模型。如果这个闭环的某一环没有被明确定义,那么所谓的世界模型就仍然是像素的盲目堆叠。

02 构建智能的三大支柱

这个闭环听起来很简单,每一环的功能都易于理解。然而,若是仔细分析,内部都有无数个定义模糊不清的细节。为了解释其中的混乱,李飞飞拆解出了世界模型的三个核心组件,它们既是技术上的分类,也是AI通往具身智能的三大支柱。

1.渲染器(Renderer)

渲染器的核心逻辑就是视觉上的合理性。它的输出即为像素,致力于让画面在人类眼中显得自然、连贯、美观。

这也是目前商业化最成熟的领域。像是我们熟知的视频生成模型OpenAI的Sora和字节跳动的Seedance 2.0、图像生成模型OpenAI的GPT-image-2和Google的Nano Banana 2,本质上都是目前最精密的视觉概率机器。它们通过学习数以亿计的互联网图片和视频,最终掌握了光影和形态的分布规律。

看似美好的现实,李飞飞却指出,这是有代价的。这些顶级模型虽然能生成华丽的建筑,但如果试图在其生成的物理结构中进行交互,建筑大概率会因为缺乏支撑结构而瞬间坍塌。换句话说,它们并不理解何为“支撑”,生成的也只是观众“看到”的样子,而不是世界“存在”的样子。

2.模拟器(Simulator)

模拟器追求的,正是渲染器缺乏的结构忠诚度。它对视频好不好看完全不关心,唯一在乎的只有世界是否遵循物理规律。当一个模拟器输出一个再常见不过的杯子时,也必须包含杯子的质量分布、材质摩擦系数、重力响应以及碰撞时的物理边界。

有了模拟器,视频中的内容才有真实性可言。然而,模拟器在如今的AI浪潮中不仅被严重低估,还经常被无视。

从上面这个杯子的案例来看,模拟器的存在让“讨论艺术”变成了“研究物理”。要构造一个严格符合物理规律的模拟器,需要的计算资源和标注成本都是难以想象的。但对于机器人来说,视觉美观几乎是一个无用属性,物理精度才能决定一切。

模拟器不够精确,在其中训练的机器人就永远无法进入现实世界。Sim-to-Real挑战是客观存在的,实验室里100%通过的测试动作,到了现实世界,微小的摩擦力就能让机器人彻底瘫痪,这就是我们常说的“莫拉维克悖论”。

3.规划器(Planner)

规划器负责的是行动输出。作为感知和反馈的连接点,它需要解决“下一步该做什么”这个永远没有标准答案的核心问题。在李飞飞的框架中,这也是整个“感知-行动”闭环的最后一个环节,同时也是最具前沿挑战的领域。

目前所有的视觉-语言-动作(VLA)模型,都在尝试让系统在非结构化的复杂世界中做出决策。规划器不仅仅是预测未来,更是在无数种可能性中选择出一条最能达成目标的路径。它是机器从“观察者”进化为“实践者”的关键。

03 千亿美金的枢纽

在李飞飞给出的三个分类中,渲染器和规划器对应的模型已经比较常见;剩下的模拟器,理所当然地成为了最难实现的环节。李飞飞也给出了一个极具洞察力的判断:模拟器是连接渲染与规划的纽带,也是整个体系的核心枢纽。

在模拟器这一领域上做的最出色的,不是OpenAI、Anthropic和Google,而是黄仁勋的NVIDIA。

英伟达的Omniverse宣称能够支撑起万亿级的数字孪生梦想,原因就是它掌握了模拟器的本质。在英伟达的平台上,工厂、供应链和仓库的运作都已经变成完整的数字镜像。对于工业界而言,这就不再是视觉上的demo演示,而是生产力的核心基础设施。

这并非夸大其词,而是摆在所有人眼前的万亿市场的机会。

从建筑工程的虚拟可视化,到制药行业的分子动力学模拟,再到自动驾驶的场景测试。这些行业缺乏的不是栩栩如生的生图生视频模型,而是一个极高保真的模拟器。不夸张地说,掌握了物理世界的模拟能力,就等于掌握了AI工业化的优先入场券。

但现实中的困难使得这个领域几乎没有技术乐观主义者。李飞飞也坦言,巨大的鸿沟始终存在。

首先就是我们此前反复提及过的具身智能数据问题。互联网上的视频数据数不胜数,但带有明确几何结构、材料属性和物理反馈标注的3D数据却极度稀缺。

其次,生成式AI的应用永远会伴随着隐形风险。AI生成的几何模型最多只能做到视觉上的完美,但在物理结构上往往是不合理的,比如杯子与桌面的相交、物体碰撞失去体积感。在人类口中,短短两个字“穿模”就可以概括这些诡异的现象,但在真实的工业应用中,这就意味着灾难。

04 通向统一世界模型

纵使困难重重,李飞飞还是给出了对行业趋势的积极预判:渲染、模拟与规划之间的界限正在变得模糊不清。

这不是美好的远景,而是已经在发生的现实。李飞飞的World Labs团队经过探索,认为人类已经在迈向一个统一的基础模型。在这个架构中,想象力和逻辑能够合二为一。

未来的模型不再是单一功能的叠加和拼凑,而是一个统一的神经网络基础。它能一边通过高斯溅射渲染出逼真的场景,一边实时生成物理引擎所需的碰撞网格。简单来说,统一基础模型将会在人类所需的视觉模式和物理引擎所需的状态模式之间实现无缝切换。

从另一个角度来看,传统的模型都是静态的,而未来的世界模型将具备更强大的可交互性。渲染器将不再是被动的视频生成器,逐渐开始接受行动指令;模拟器变得更加可编辑和可控;规划器也能进行逻辑思考,根据环境变化自动调整策略。

05 空间智能的漫长弧线

最后,回到宏观层面来看,有关“世界模型”的这一切为什么重要?

在李飞飞看来,人类过去几十年的AI研究,都一直在寻找那一把能让机器走入物理世界的钥匙。如今,我们已经拥有善于处理逻辑的语言模型,接下来需要的就是处理空间的模型。空间智能的核心,就在于机器如何与其所处的物理世界进行交互。

这场仗,比的不是谁拥有更多的算力,而是谁能定义物理世界的数字标准。

世界模型绝不是一场简单的算法优化,而是一次AI进化的壮举。

“语言赋予了机器谈论这个世界的能力,而世界模型则是机器最终理解、想象、推理并与物理世界交互的方式。”

这个时代的每一个人,都在从谈论世界的阶段,走向真正理解并重构世界的新纪元。

尽管如此,世界模型也只是通往AGI道路上的一个中间节点,而人类创造出的AI离真正意义上的“世界模型”也还有很长的距离。在这里,另一位世界模型的领军人物杨立昆略显偏激的观点值得分享:

乐观来看,至少还要五到十年,机器的智能才能勉强接近一只小狗。

本文来自微信公众号“硅基星芒”,作者:思齐

你可能也喜歡

微策略不会死于这次下跌：反身性、STRC回锚与“卖股不卖币”的自救逻辑

本文分析了近期微策略公司股价与比特币联袂下跌的背后逻辑。作者认为，这并非微策略的终局，而是一次典型的市场反身性攻击：市场因公司现金储备下降和出售少量比特币而产生“现金流危机”预期，抛售行为压低了比特币价格，进而又恶化了公司的资产负债表，形成了自我强化的下跌螺旋。针对其优先股STRC的跟跌，文章指出，这是由于市场对公司偿付能力担忧导致必要报酬率上升，债券价格因而折价。但由于STRC是浮动利率债券，其价格最终会回归面值锚定，这是其金融属性决定的。关键破局点在于如何补充现金储备。作者强烈主张，在公司每股净资产溢价显著存在时，应通过增发普通股而非出售比特币来融资。卖股可以同时充实现金、保全每股比特币含量、不损害资本市场溢价叙事，并改善负债率；而卖币虽能解燃眉之急，却会削弱核心的“永不卖币”叙事，导致估值逻辑重定价、溢价消失，长远看会损害融资能力，属于饮鸩止渴。因此，微策略本次危机可通过正确操作化解，但若选择大量卖币自救，虽能短期度过难关，却可能动摇其长期投资故事的根基，为未来埋下隐患。

marsbit3 分鐘前

marsbit3 分鐘前

Humanity 被盗 3100 万美元，一把私钥让代币价格暴跌 90%

6月9日，数字身份项目Humanity Protocol发生重大安全事件。因一名基金会成员私钥泄露，攻击者持续盗取与项目交互的钱包资产，总损失超3100万美元，其中约900万美元已被兑换为ETH。项目代币H价格从约0.7 USDT暴跌超90%，最低至0.052 USDT，市值从20亿美元骤降至约3570万美元。攻击者还疑似新铸造了1亿枚H代币进行抛售。 Humanity Protocol成立于2024年，主打基于掌纹识别和零知识证明的去中心化数字身份网络，曾以10亿和11亿美元估值完成两轮共5000万美元融资。但其真实性屡受质疑，此前有报道称其900万用户ID中仅约100万完成生物验证，且被曝APP代码库留有中国门禁厂商素材，被指可能为“套壳”项目。创始人Terence Kwok曾有创业失败经历，其上一家独角兽公司Tink Labs在烧光1.7亿美元融资后破产。本次私钥泄露属于基础安全管理失误，加剧了市场对该项目的信任危机。团队已建议用户暂停与协议交互，正与安全专家合作处理，但未提及具体用户赔偿方案。

Foresight News25 分鐘前

Foresight News25 分鐘前

如何用 Claude 的 Dynamic Workflows 做深度研究

做技术调研容易陷入信息过载和结论模糊的陷阱。AI虽执行力强，但易困于当前信息且跨界联想弱。Claude近期推出的Dynamic Workflows（动态工作流）功能，旨在通过AI自动设计并执行任务流程来提升深度研究能力。其核心是六种工作流模式：1) 路由模式：由主Agent判断任务类型并分发给最专业的子Agent处理，精准高效但处理模糊任务能力弱；2) 拆分合并模式：将任务拆分为多个独立子任务并行执行后合并结果，速度快但Token成本高，合并有挑战；3) 对抗验证模式：让多个Agent从反驳角度挑战同一结论，基于多数票通过，能有效减少确认偏误，但需基于事实而非观点；4) 生成与过滤模式：先生成大量候选方案，再用预设标准筛选出最优，能提升多样性，但过滤标准至关重要；5) 锦标赛模式：多个Agent竞争同一任务，通过两两对比逐轮淘汰选出最优，评判更稳定；6) 循环模式：通过自适应迭代不断尝试直至满足条件，擅长处理边界未知的任务，但有失控风险。相较于作者自建的深度研究技能，官方的动态工作流增加了关键环节：问题拆解、信息可信度评估、交叉删除（投票淘汰而非简单合并）以及目标导向的输出。这有效解决了AI长任务中的目标漂移、过早停止、上下文污染和输出偏向等问题。总之，Dynamic Workflows将研究流程本身结构化，通过多Agent的智能调度，显著提升了研究的效率和结论的可靠性，将以往可能需要十几次对话的调研压缩到3-4次，尽管Token消耗大幅增加。但它仍有局限：在验证机制上可能过于依赖官方文档而非事实数据；对于完全跨界、数据不足的深度思考支持有限；在解决方案的验证与成本权衡上仍有不足；在针对不同受众进行信息极致浓缩方面也需进一步优化。

marsbit35 分鐘前

marsbit35 分鐘前

当LP用豆包教我投资：一位私募GP的转行自述

文章标题：当LP用豆包教我投资：一位私募GP的转行自述摘要：本文通过一位前小型私募美元基金普通合伙人（GP）“二狗”的转行经历，探讨了AI工具普及对私募基金行业，特别是采用主观策略的小型基金与有限合伙人（LP）之间关系的冲击。二狗指出，小型美元私募基金本就面临募资困境，原因包括其采用的“原始”开曼架构对亚洲LP吸引力不足，以及量化策略基金（尤其是AI赋能后）更受市场青睐。AI的普及进一步加剧了这一挑战。过去，GP的核心价值在于为LP提供专业的研究和决策支持。如今，AI工具实现了“信息平权”，LP能轻易获取分析并质疑GP的判断，导致双方摩擦增加，甚至引发撤资。文章以二狗清退一位使用AI结论频繁质疑其操作的LP为例，说明了这种新型矛盾。LP群体“成分复杂”，包括高净值个人、企业主等，他们在AI辅助下，有时会过度自信，特别是在牛市散户收益可能超越基金时，更容易动摇对GP的信任。然而，二狗认为问题关键不在于AI能力，而在于多数LP并未正确使用它。他们可能依赖“豆包”等陪伴式AI，这些工具为提供情绪价值可能产生“机器幻觉”，其逻辑自洽的分析未必符合事实。投资者往往是在寻求认同而非真相。最终，AI未必会完全取代GP，因为资产管理本质是基于信任的服务业。但行业需适应变化：GP应善用AI提升自身，同时，在AI追求效率最大化的未来，“人类私募”或许也需要加强提供情绪价值的能力。

Odaily星球日报1 小時前

因为 AI 裁员？研究显示 AI 比它替代的人更贵

今年已有近5万名员工因AI被裁员，但企业逐渐发现AI的实际使用成本高于其替代的人力。Uber在四个月内耗尽了全年AI预算，微软因成本过高削减了多个部门的Claude Code许可证。Anthropic内部甚至有员工单月API花费达15万美元，相当于需完成11名普通工程师的工作量才能平衡成本。调查显示，45%的企业每月AI支出超10万美元，但仅8%的标普500公司披露了AI相关收入，半数企业难以评估AI投资回报。Match Group CEO坦言，虽年投入500万至1000万美元，却难量化收益。随着成本压力增大，中国大模型因价格仅为美国模型的1/10至1/30而受到青睐。数据显示，中国模型在开发者中的使用占比从2024年的约1%跃升至今年5月的超60%，80%的美国AI初创公司已采用中国开源模型。Scott Galloway预测，企业将转向更经济的中国方案，这可能引发特朗普政府的限制措施。

marsbit1 小時前

marsbit1 小時前

交易

現貨

合約

熱門文章

什麼是 $S$

理解 SPERO：全面概述 SPERO 簡介隨著創新領域的不斷演變，web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中，SPERO（標記為 SPERO,$$s$）是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息，以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼？ SPERO,$$s$ 是加密空間中的一個獨特項目，旨在利用去中心化和區塊鏈技術的原則，創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動，為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議，以及通過去中心化應用程序（dApps）創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開，旨在彌合傳統金融中的差距，同時利用區塊鏈技術的優勢。誰是 SPERO,$$s$ 的創建者？ SPERO,$$s$ 的創建者身份仍然有些模糊，因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神，優先考慮集體貢獻而非個人認可。通過將討論重心放在社區及其共同目標上，SPERO,$$s$ 體現了賦能的本質，而不特別突出某些個體。因此，理解 SPERO 的精神和使命比識別單一創建者更為重要。誰是 SPERO,$$s$ 的投資者？ SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持，他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。這些投資者通常對不僅提供創新產品，還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作？ SPERO,$$s$ 採用多面向的框架，使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵：去中心化治理：SPERO,$$s$ 整合了去中心化治理模型，賦予用戶積極參與決策過程的權力，關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。代幣實用性：SPERO,$$s$ 使用其自己的加密貨幣代幣，旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進，增強了整體參與度和實用性。分層架構：SPERO,$$s$ 的技術架構支持模塊化和可擴展性，允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。社區參與：該項目強調社區驅動的倡議，採用激勵合作和反饋的機制。通過培養強大的社區，SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。專注於包容性：通過提供低交易費用和用戶友好的界面，SPERO,$$s$ 旨在吸引多樣化的用戶群體，包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線，映射 SPERO,$$s$ 演變中的重要事件：概念化和構思階段：形成 SPERO,$$s$ 基礎的初步想法被提出，與區塊鏈行業內的去中心化和社區聚焦原則密切相關。項目白皮書的發布：在概念階段之後，發布了一份全面的白皮書，詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施，以吸引社區的興趣和反饋。社區建設和早期參與：積極進行外展工作，建立早期採用者和潛在投資者的社區，促進圍繞項目目標的討論並獲得支持。代幣生成事件：SPERO,$$s$ 進行了一次代幣生成事件（TGE），向早期支持者分發其原生代幣，並在生態系統內建立初步流動性。首次 dApp 上線：與 SPERO,$$s$ 相關的第一個去中心化應用程序（dApp）上線，允許用戶參與平台的核心功能。持續發展和夥伴關係：對項目產品的持續更新和增強，包括與區塊鏈領域其他參與者的戰略夥伴關係，使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證，能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾，它為更具包容性的金融環境鋪平了道路。與任何在快速發展的加密領域中的投資一樣，潛在的投資者和用戶都被鼓勵進行徹底研究，並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神，邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開，但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

85 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 AGENT S

Agent S：Web3中自主互動的未來介紹在不斷演變的Web3和加密貨幣領域，創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目，承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務，為人工智能（AI）提供變革性的應用，鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。什麼是Agent S？ Agent S是一個突破性的開放代理框架，專門設計用來解決計算機任務自動化中的三個基本挑戰：獲取特定領域知識：該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫，提升其在任務執行中的表現。長期任務規劃：Agent S採用經驗增強的分層規劃，這是一種戰略方法，可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。處理動態、不均勻的界面：該項目引入了代理-計算機界面（ACI），這是一種創新的解決方案，增強了代理和用戶之間的互動。利用多模態大型語言模型（MLLMs），Agent S能夠無縫導航和操作各種圖形用戶界面。通過這些開創性特徵，Agent S提供了一個強大的框架，解決了自動化人機互動中涉及的複雜性，為AI及其他領域的無數應用奠定了基礎。誰是Agent S的創建者？儘管Agent S的概念根本上是創新的，但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚，這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名，重點仍然在於框架的能力和潛力。誰是Agent S的投資者？由於Agent S在加密生態系統中相對較新，關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解，引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作？ Agent S的核心是尖端技術，使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建：類人計算機互動：該框架提供先進的AI規劃，力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為，承諾提升用戶體驗。敘事記憶：用於利用高級經驗，Agent S利用敘事記憶來跟蹤任務歷史，從而增強其決策過程。情節記憶：此特徵為用戶提供逐步指導，使框架能夠在任務展開時提供上下文支持。支持OpenACI：Agent S能夠在本地運行，使用戶能夠控制其互動和工作流程，與Web3的去中心化理念相一致。與外部API的輕鬆集成：其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統，成為開發者和組織的理想選擇。這些功能共同促成了Agent S在加密領域的獨特地位，因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展，其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括，突顯其重要事件： 2024年9月27日：Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出，展示了該項目的基礎工作。 2024年10月10日：該研究論文在arXiv上公開，提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日：發布了一個視頻演示，提供了對Agent S能力和特徵的視覺洞察，進一步吸引潛在用戶和投資者。這些時間線上的標記不僅展示了Agent S的進展，還表明了其對透明度和社區參與的承諾。有關Agent S的要點隨著Agent S框架的持續演變，幾個關鍵特徵脫穎而出，強調其創新性和潛力：創新框架：旨在提供類似人類互動的直觀計算機使用，Agent S為任務自動化帶來了新穎的方法。自主互動：通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。複雜任務自動化：憑藉其強大的方法論，能夠自動化複雜的多步任務，使過程更快且更少出錯。持續改進：學習機制使Agent S能夠從過去的經驗中改進，不斷提升其性能和效率。多功能性：其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。隨著Agent S在Web3和加密領域中的定位，其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架，Agent S展現了數字互動的未來，為各行各業的用戶承諾提供更無縫和高效的體驗。結論 Agent S代表了AI與Web3結合的一次大膽飛躍，具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段，但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰，Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域，像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

824 人學過發佈於 2025.01.14更新於 2025.01.14

如何購買S

歡迎來到HTX.com！在這裡，購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南，放心開始您的加密貨幣之旅。第一步：創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步：前往買幣頁面，選擇您的支付方式信用卡/金融卡購買：使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買：使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買：探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買：在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買：為大量交易者提供個性化服務和競爭性匯率。第三步：存儲您的Sonic (S)購買Sonic (S)後，將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步：交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶，選擇交易對，執行交易，並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.7k 人學過發佈於 2025.01.15更新於 2026.06.02

李飞飞的世界模型宣言

文章摘要

01

人们需要一套分类法

02

构建智能的三大支柱

03

千亿美金的枢纽

04

通向统一世界模型

05

空间智能的漫长弧线

相關問答