李飞飞最新长文:当视频生成、机器人和 NVIDIA 都自称世界模型,我们需要一个分类法

链捕手發佈於 2026-07-05更新於 2026-07-05

文章摘要

李飞飞发表文章,针对当前AI领域中“世界模型”一词被广泛滥用的现象提出一个清晰的功能分类法。她指出,尽管视频生成、机器人和NVIDIA等不同领域都自称构建“世界模型”,但它们实际指的是强化学习闭环(POMDP)中三种不同的功能模块。 **分类法如下:** 1. **渲染器**:输出**观测**(如像素),追求视觉保真度,例如Sora、Genie等视频生成模型。其局限在于“好看不等于物理正确”。 2. **模拟器**:输出**状态**,即在几何、物理和动力学层面忠实的世界表征,服务于建筑设计、机器人训练等需要精确模拟的场景。李飞飞认为这是连接渲染和规划的关键枢纽,被严重低估。 3. **规划器**:输出**动作**,根据观测和目标决定智能体(如机器人)应执行的动作,是感知-行动回路的闭环。 **现状与趋势:** * **渲染器**商业化最成熟,但有物理准确性天花板。 * **规划器**最令人兴奋但最不成熟,实验室演示与实际部署存在巨大鸿沟。 * **模拟器**是核心桥梁,掌握了模拟就同时为渲染和规划提供了基础。 当前最重要的趋势是这三类功能的边界正在消融,因为它们共享对世界底层运作(几何、物理、动力学)的同一套理解。例如,World Labs的Marble模型能同时输出用于视觉的高斯泼溅和用于物理模拟的碰撞网格。 逻辑终点是构建一个**统一的世界基础模型**,能根据下游需求在渲染、模拟和规划模式间自由切换。尽管面临数据不均衡、优化目标冲突等挑战,但三者的融合将重新定义机器智能与物理世界的关系,推动空间智能的发展。

作者:李飞飞

编译:加洋

“世界模型”大概是 2025 年以来 AI 领域里最热也最混乱的概念。Sora 出来的时候,OpenAI 管它叫世界模拟器;Genie 让你在生成的画面里走来走去,也叫世界模型;机器人公司说自己在做世界模型,NVIDIA 说 Omniverse 是世界模型的基础设施,连游戏引擎也被拉进了这个叙事。大家都在用同一个词,但各自说的又完全不是同一件事。

今天,李飞飞在个人 Substack 发表了一篇新文章,对这一概念进行了厘清。她首先回到强化学习教科书里那个最经典的图(POMDP 闭环:智能体→动作→状态→观测→智能体),然后指出:现在被叫做“世界模型”的东西,其实是这个闭环的三种不同投影。输出像素(观测)的是渲染器,输出状态的是模拟器,输出动作的是规划器。分类标准非常简洁,就看你输出的是闭环里的哪个部分。

(来源:《麻省理工科技评论》)

她判断,三者之中,渲染器商业化最成熟但有天花板(好看不等于物理正确),规划器最令人兴奋但离真实部署最远(实验室演示和实际可用之间的鸿沟依然巨大),而模拟器是被严重低估的关键枢纽。因为模拟器工作在几何、物理和动力学的层面上,既能向上投射为像素供人类消费,也能向下推导出动作后果供机器人使用。掌握了模拟,就同时拥有了渲染和规划的基础;反过来则不行。

这篇文章当然也是 World Labs 的产品宣言。他们的 Marble 已经在同时输出高斯泼溅和碰撞网格,试图把渲染器和模拟器统一到一个模型里。文章末尾描绘的终局是一个统一的世界基础模型,能根据下游需求在渲染、模拟和规划之间自由切换。这个愿景是否能实现另说,但作为一个分析框架,渲染器/模拟器/规划器的三分法也许确实有助于穿透当前“世界模型”概念的一部分噪音。

全文译出如下。

“世界是所有发生的事情的总和。”——维特根斯坦,《逻辑哲学论》,1921

世界不是由文字构成的。

在早先的一篇文章中,我们提出空间智能是 AI 的下一个前沿,而世界模型是通向它的路径。在此,World Labs 团队和我想再深入一层:在如今被冠以“世界模型”之名的众多事物中,哪些功能模块真正构成了这种能力?它们各自的用途又是什么?

语言模型赋予了机器对概念、词汇和推理的强大掌控力,但物理世界,无论虚拟还是真实,运行在完全不同的基底之上。语言模型学习的是文本的统计结构,世界模型学习的是空间与时间的统计结构:光如何落在一个表面上,一座花园从一个从未被相机捕捉过的角度看起来是什么样子,物体如何响应力并遵循物理定律。

这使得“世界模型”成了当下 AI 领域最重要、同时也最被滥用的术语之一。计算机视觉、机器人学、强化学习和生成式 AI 都声称自己在构建世界模型,但各自指的是截然不同的东西。一个能生成华丽但物理上不可能的火焰的视频模型,一个即兴生成可玩游戏的语言模型,一个忠实模拟燃烧过程的物理引擎,它们都被叫作同一个名字。

古希腊人从来无法就世界由什么构成达成一致,不管是火、水还是不可分割的原子,因为“世界”从来就不是单一的东西。它始终是某个思想家为了推理某种总体性而使用的替代词。AI 继承了同样的问题,而且恰好发生在这个领域最需要精确性的时刻。

分类法背后的闭环

要厘清这种混乱,可以从一张比上述所有技术都更古老的图开始。所有强化学习教材,包括经典的 Sutton 和 Barto,几十年来一直使用同一幅图的变体来描述智能体如何与世界交互。这幅图的正式名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”这个术语最初的定义就属于这一传统。

一个智能体(可以是人、机器人或软件系统)执行动作。这些动作改变世界的状态。但智能体永远无法直接看到状态本身,它所接收到的是观测:落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测引导新的动作,循环往复。

“状态”这个词需要拆开来看,因为在不同领域中它的含义会发生偏移。这里说的不是化学家的状态,不是固态、液态和气态的区别。这里是物理学家和机器人学家的状态:对世界在某一时刻所发生的一切的完整描述,包括每一个物体、每一个位置、每一个速度、每一种属性。状态是世界的底层现实,原则上是完备的,但对于身处其中的任何智能体来说永远不可直接观测。观测是智能体对这一现实的局部视角。动作则是智能体据此做出的回应。

这个闭环(智能体→动作→状态→观测→智能体)正是赋予“世界模型”这个术语其技术含义的结构。这个短语本身更加古老,可以追溯到 Kenneth Craik 在 1943 年的提议,他认为心智通过运行现实的“小比例模型”来进行推理,而到了 1980 年代末和 1990 年代初,这一概念被引入了神经网络领域。这个闭环同样解释了人们今天使用这个术语时的含义。现在被称为世界模型的各种东西,实际上是同一个闭环的不同投影,每一种输出的是闭环中不同的组成部分。

世界模型的三种功能

第一种世界模型是渲染器。 渲染器输出的是观测,具体来说是面向人眼的像素,而最重要的品质指标是视觉保真度。一个将文本提示转化为电影级航拍镜头的视频模型就是渲染器;像 Google的Genie 3 或 World Labs 自己的 RTFM 这样的交互式系统也是渲染器,它们根据用户输入实时生成画面。这类模型不具备对三维结构的显式理解。它生成的是观看者会看到的画面,而不是事物本身的样子。航拍镜头里的建筑从空中看也许完美无瑕,但试着在下面的城市中穿行,它们就会崩塌。

第二种是模拟器。 模拟器输出的是状态:一种在几何、物理或动力学上忠实的世界表征,人类和计算机程序都能在其上进行计算和交互。渲染器的契约是纯视觉的,而模拟器的契约是结构性的,它要求几何经得起检验,物理遵循牛顿定律,动力学的行为符合物理法则的预期。模拟器同时服务两类用户。建筑师、设计师、电影人、游戏开发者等专业人士需要超越视觉可信度的准确性。强化学习智能体、机器人控制器、自动驾驶车辆等计算机程序则把模拟器当作训练场,在其中大规模地与世界交互,测试那些在现实中要么危险、要么昂贵、要么根本不可能执行的场景。

第三种是规划器。 规划器输出的是动作。给定一个观测和一个目标,规划器回答的问题是:智能体下一步该做什么。在很多意义上,规划器是渲染器的逆过程。渲染器以动作为输入、产出观测,规划器以观测为输入、产出动作,从而闭合了感知-行动回路。视觉-语言-动作模型(VLA)、基于模型的系统,以及新一波的世界动作模型(World Action Models),都是规划器的不同尝试:让系统能够在非结构化的世界中决定机器人应该做什么。

以上三个类别涵盖了当前实际在落地的大部分工作,而它们之间的区分在实践中很有用。但这三个类别并非从根本上彼此割裂。它们共享同一套关于世界如何运作的底层知识:几何、物理、动力学。一个能从任意角度渲染一只杯子的模型,原则上也应该能模拟杯子被推动后会发生什么,并规划一只手去把它拿起来。越来越多最有意思的研究,正在有意地模糊这三者之间的边界。

图丨三种世界模型(来源:Substack)

为什么模拟是关键枢纽

在三个类别中,模拟器受到的公众关注最少,却是三者中最重要的。这篇文章想纠正这种不对称。

渲染器是目前商业化程度最高的。大量图像或文本转视频产品正在消费和企业市场快速扩张。Google 的 Nano Banana 模型将渲染器级别的图像生成能力送到了可能数以亿计的用户手中。技术是实在的,市场也是实在的。然而渲染器优化的目标是视觉可信度而非物理准确性,这个天花板很重要。它们的输出很漂亮,但你不能用它们来设计一座建筑或训练一个机器人。

规划器是最令人兴奋也最不成熟的,它与快速演进的机器人学习领域密切相关。过去两年里,这个领域产出了不少在视频里看起来令人印象深刻的机器人演示,但我们需要坦诚地面对这些演示究竟展示了什么。几乎所有演示都局限于高度受限的实验室环境,物体种类有限,任务时长很短。没有一个经受过真实世界部署所要求的复杂度、多样性和持续时长的验证。从一段精彩的演示视频到一个能在厨房、仓库或手术室中可靠工作的机器人,中间的鸿沟依然巨大。

尽管如此,商业上的押注规模仍然可观。一波资金充裕的新进入者正在争相推出通用规划系统,而大型基础设施玩家则在将规划能力架设在更广泛的模拟堆栈之上。

模拟是连接两者的桥梁。如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器必须在这个层面上工作:它是结构性的骨架,视觉表现(供渲染器使用)和动作后果(供规划器使用)都可以从中推导出来。

一个掌握了模拟的模型,能够将它的理解投射为供人类消费的像素,也能投射为供具身智能体使用的动作预测。而一个只掌握了渲染或只掌握了规划的模型,两者都做不到。这里的商业空间极其广阔。仅 NVIDIA 的 Omniverse一 项,其目标市场规模据该公司估计就超过万亿美元,涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现,全都依赖于某种形态的模拟。

这个领域最困难的开放性问题也集中在这里。带有显式几何、材质属性和物理标注的三维数据,比渲染器训练所用的互联网视频稀缺了几个数量级。sim-to-real 差距(模拟中的物体行为与真实世界中的行为之间的差异)仍然存在。生成式模拟器在此基础上还引入了新的风险:AI 生成的几何体可能看起来正确,但实际上包含自相交或错误比例的问题,导致物理模拟产生荒谬的结果。大规模的多物理模拟(刚体、可变形物体、流体、布料全部同时交互)的计算成本仍然比单一领域的模拟高出几个数量级。

在 World Labs,Marble 是我们在这个方向上的第一步。它接受多模态输入(文本、图像、视频或空间草图),生成可探索的 3D 环境,同时输出用于视觉探索的高斯泼溅(Gaussian splats)和供物理引擎操作的碰撞网格。但Marble只是一段漫长弧线的第一章。随着渲染、模拟和规划之间的界限开始消融,整个领域都在书写这个故事。

边界正在消融,以及接下来会发生什么

当前这个领域最重要的趋势是,三个类别正在开始融合。背后的共识是:渲染一个世界、模拟它、在其中行动,所需要的知识在很大程度上是相同的。沿用前面的例子,一个真正理解杯子如何放在桌上的模型(它的几何形状、材质属性、对力的响应等等),应该能够从任意角度渲染这只杯子,模拟杯子被推动后会发生什么,并规划一只手去拿起它。三个类别是同一种底层理解的三种投影。

比如,最近已有少量但在增长中的工作来自不同的机器人实验室,它们展示了一种至少在概念上成立的可能性:一个预训练的视频渲染器可以作为联合世界预测和动作预测的骨干网络,让单一模型同时想象“会发生什么”和“该做什么”,从而在渲染器和规划器之间架起桥梁。World Labs 的 Marble 已经能从单一模型同时输出高斯泼溅和碰撞网格,消解了渲染器与模拟器之间的边界。每一个层面都在从被动输出转向交互式系统:渲染器变得可以响应动作条件,模拟器生成的世界变得更加可控和可编辑,规划器开始进行审慎推理而不仅仅是做出反应。

逻辑上的终点是一个统一的世界模型:一个基础模型,能够渲染照片级真实的视图、生成物理上准确的结构、规划动作序列,并根据下游使用者的需求在不同输出模态之间切换。我们仍将面对一系列严峻的挑战。数据格局极不均衡,渲染器坐拥海量互联网视频,而模拟器和规划器则面临3D资产和机器人示范数据的严重匮乏。针对视觉美感的优化可能会牺牲机器人或高保真模拟所需的精度。在单一架构内调和这些张力,是当今世界模型研究的核心开放问题,也是 World Labs 在持续演进 Marble 的过程中致力于解决的。

(来源:Substack)

但大方向已经很清楚。从 1980 年代末至今,这个领域押的始终是同一个赌注:只要世界模型足够丰富,智能体看见世界、构建世界、在其中行动所需的东西就全在里面了。这个赌注如今正在驱动一整代人的研究。而真正给它加上砝码的,是已经在发生的融合:渲染、模拟、规划三条线,每条都已经各自撑起价值数十亿美元的产业,它们起初是独立的研究方向,现在开始汇到一起。当边界消失,三者合流将重新定义一件更大的事:机器智能与它所栖居的物理世界之间的关系,也就是空间智能的长远走向。

语言给了机器一种谈论这个世界的方式。世界模型,则是机器最终得以理解、想象、推理并与之交互的途径。

参考资料:1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

熱門幣種推薦

相關問答

Q李飞飞在文章中是如何对当前混乱的'世界模型'概念进行分类的?

A李飞飞提出了一个基于强化学习经典POMDP闭环的分类法,将当前被称为'世界模型'的技术分为三类:渲染器(输出观测/像素)、模拟器(输出状态/几何物理表征)和规划器(输出动作)。

Q根据文章,为什么模拟器被李飞飞认为是三类世界模型中的关键枢纽?

A因为模拟器工作在几何、物理和动力学的层面上,这是世界的'结构性骨架'。掌握了模拟,既可以向上投射生成像素(供渲染器用),也可以向下推导出动作后果(供规划器用),而渲染器和规划器则无法同时做到这两者。

Q文章指出渲染器、模拟器和规划器这三类世界模型各自面临的主要局限性是什么?

A渲染器的局限性在于其优化目标是视觉可信度而非物理准确性,因此无法用于需要精确结构或物理属性的任务(如建筑设计和机器人训练)。规划器虽然令人兴奋,但离实际部署尚有巨大鸿沟,演示大多局限于受限的实验室环境。模拟器的挑战在于高质量3D数据的稀缺、模拟与现实间的差异(sim-to-real gap)以及多物理场模拟的高昂计算成本。

Q文章中提到的'Marble'是什么,它体现了什么发展趋势?

AMarble是World Labs开发的一个模型,它能从多模态输入生成3D环境,并同时输出用于视觉探索的'高斯泼溅'和供物理引擎操作的'碰撞网格'。这体现了渲染器与模拟器之间边界开始消融的趋势,即单一模型开始兼具渲染和模拟两种功能。

Q李飞飞所描绘的世界模型发展的'逻辑终点'或长远愿景是什么?

A其长远愿景是构建一个统一的世界基础模型。这个模型能够根据下游需求,在渲染(生成照片级真实视图)、模拟(生成物理准确结构)和规划(规划动作序列)这三种输出模态之间自由切换。这三者的融合将重新定义机器智能与物理世界的关系,推动空间智能的发展。

你可能也喜歡

交易

現貨

熱門文章

什麼是 $S$

理解 SPERO:全面概述 SPERO 簡介 隨著創新領域的不斷演變,web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中,SPERO(標記為 SPERO,$$s$)是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息,以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼? SPERO,$$s$ 是加密空間中的一個獨特項目,旨在利用去中心化和區塊鏈技術的原則,創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動,為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議,以及通過去中心化應用程序(dApps)創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開,旨在彌合傳統金融中的差距,同時利用區塊鏈技術的優勢。 誰是 SPERO,$$s$ 的創建者? SPERO,$$s$ 的創建者身份仍然有些模糊,因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神,優先考慮集體貢獻而非個人認可。 通過將討論重心放在社區及其共同目標上,SPERO,$$s$ 體現了賦能的本質,而不特別突出某些個體。因此,理解 SPERO 的精神和使命比識別單一創建者更為重要。 誰是 SPERO,$$s$ 的投資者? SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持,他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。 這些投資者通常對不僅提供創新產品,還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作? SPERO,$$s$ 採用多面向的框架,使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵: 去中心化治理:SPERO,$$s$ 整合了去中心化治理模型,賦予用戶積極參與決策過程的權力,關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。 代幣實用性:SPERO,$$s$ 使用其自己的加密貨幣代幣,旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進,增強了整體參與度和實用性。 分層架構:SPERO,$$s$ 的技術架構支持模塊化和可擴展性,允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。 社區參與:該項目強調社區驅動的倡議,採用激勵合作和反饋的機制。通過培養強大的社區,SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。 專注於包容性:通過提供低交易費用和用戶友好的界面,SPERO,$$s$ 旨在吸引多樣化的用戶群體,包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線 理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線,映射 SPERO,$$s$ 演變中的重要事件: 概念化和構思階段:形成 SPERO,$$s$ 基礎的初步想法被提出,與區塊鏈行業內的去中心化和社區聚焦原則密切相關。 項目白皮書的發布:在概念階段之後,發布了一份全面的白皮書,詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施,以吸引社區的興趣和反饋。 社區建設和早期參與:積極進行外展工作,建立早期採用者和潛在投資者的社區,促進圍繞項目目標的討論並獲得支持。 代幣生成事件:SPERO,$$s$ 進行了一次代幣生成事件(TGE),向早期支持者分發其原生代幣,並在生態系統內建立初步流動性。 首次 dApp 上線:與 SPERO,$$s$ 相關的第一個去中心化應用程序(dApp)上線,允許用戶參與平台的核心功能。 持續發展和夥伴關係:對項目產品的持續更新和增強,包括與區塊鏈領域其他參與者的戰略夥伴關係,使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。 結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證,能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾,它為更具包容性的金融環境鋪平了道路。 與任何在快速發展的加密領域中的投資一樣,潛在的投資者和用戶都被鼓勵進行徹底研究,並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神,邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開,但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

154 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 $S$

什麼是 AGENT S

Agent S:Web3中自主互動的未來 介紹 在不斷演變的Web3和加密貨幣領域,創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目,承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務,為人工智能(AI)提供變革性的應用,鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。 什麼是Agent S? Agent S是一個突破性的開放代理框架,專門設計用來解決計算機任務自動化中的三個基本挑戰: 獲取特定領域知識:該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫,提升其在任務執行中的表現。 長期任務規劃:Agent S採用經驗增強的分層規劃,這是一種戰略方法,可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。 處理動態、不均勻的界面:該項目引入了代理-計算機界面(ACI),這是一種創新的解決方案,增強了代理和用戶之間的互動。利用多模態大型語言模型(MLLMs),Agent S能夠無縫導航和操作各種圖形用戶界面。 通過這些開創性特徵,Agent S提供了一個強大的框架,解決了自動化人機互動中涉及的複雜性,為AI及其他領域的無數應用奠定了基礎。 誰是Agent S的創建者? 儘管Agent S的概念根本上是創新的,但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚,這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名,重點仍然在於框架的能力和潛力。 誰是Agent S的投資者? 由於Agent S在加密生態系統中相對較新,關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解,引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作? Agent S的核心是尖端技術,使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建: 類人計算機互動:該框架提供先進的AI規劃,力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為,承諾提升用戶體驗。 敘事記憶:用於利用高級經驗,Agent S利用敘事記憶來跟蹤任務歷史,從而增強其決策過程。 情節記憶:此特徵為用戶提供逐步指導,使框架能夠在任務展開時提供上下文支持。 支持OpenACI:Agent S能夠在本地運行,使用戶能夠控制其互動和工作流程,與Web3的去中心化理念相一致。 與外部API的輕鬆集成:其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統,成為開發者和組織的理想選擇。 這些功能共同促成了Agent S在加密領域的獨特地位,因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展,其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括,突顯其重要事件: 2024年9月27日:Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出,展示了該項目的基礎工作。 2024年10月10日:該研究論文在arXiv上公開,提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日:發布了一個視頻演示,提供了對Agent S能力和特徵的視覺洞察,進一步吸引潛在用戶和投資者。 這些時間線上的標記不僅展示了Agent S的進展,還表明了其對透明度和社區參與的承諾。 有關Agent S的要點 隨著Agent S框架的持續演變,幾個關鍵特徵脫穎而出,強調其創新性和潛力: 創新框架:旨在提供類似人類互動的直觀計算機使用,Agent S為任務自動化帶來了新穎的方法。 自主互動:通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。 複雜任務自動化:憑藉其強大的方法論,能夠自動化複雜的多步任務,使過程更快且更少出錯。 持續改進:學習機制使Agent S能夠從過去的經驗中改進,不斷提升其性能和效率。 多功能性:其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。 隨著Agent S在Web3和加密領域中的定位,其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架,Agent S展現了數字互動的未來,為各行各業的用戶承諾提供更無縫和高效的體驗。 結論 Agent S代表了AI與Web3結合的一次大膽飛躍,具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段,但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰,Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域,像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

925 人學過發佈於 2025.01.14更新於 2025.01.14

什麼是 AGENT S

如何購買S

歡迎來到HTX.com!在這裡,購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Sonic (S)購買Sonic (S)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

2.0k 人學過發佈於 2025.01.15更新於 2026.06.02

如何購買S

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 S (S)幣價的意見。

活动图片