李飞飞团队厘清“世界模型”概念,Sora只能算渲染器

marsbit發佈於 2026-06-04更新於 2026-06-04

文章摘要

斯坦福大学教授李飞飞团队联合发布概念分析文章《世界模型的功能分类法》,指出“世界模型”是AI领域最重要且被严重滥用的术语之一。文章将当前各类被称为“世界模型”的系统,依据其在部分可观马尔可夫决策过程中的功能,归约为三类:渲染器、模拟器和规划器。 渲染器(如OpenAI的Sora、各类文生视频模型)的核心是生成面向人类视觉的高保真像素画面,但缺乏物理精确性,无法用于需要真实物理计算的任务。模拟器(如NVIDIA Omniverse)的核心是生成精确的物理状态数据,用于数字孪生、工程分析等,但受限于高质量3D物理数据的稀缺。规划器(如各类机器人控制模型)则根据观测和目标输出具体动作指令。 文章指出,概念混乱源于各类系统只承载了“理解世界”完整认知循环中的一个环节,却被营销和叙事包装为完整模型。例如,Sora仅能沿视频数据固有序列“被动续写”,无法基于外部动作进行状态转移预测,因此本质上是渲染器,而非真正的世界模拟器。澄清概念有助于技术选型、投资判断和建立可比基准,避免因能力误解导致决策失误。未来的方向是三类功能的融合,但当前认清各自边界更为重要。

2026年6月3日,World Labs团队与斯坦福大学教授李飞飞联合发布了一篇概念分析文章,标题直白到几乎没有修饰:《世界模型的功能分类法》。文章开篇第一句话就戳破了一个行业默契:“世界模型是当今人工智能领域最重要、也最被滥用的术语之一。”

这句话的背景,但凡关注过AI行业的人都不陌生。

2024年2月,OpenAI发布视频生成模型Sora,技术报告标题赫然写着“视频生成模型作为世界模拟器”。NVIDIA机器人总监Jim Fan当时在LinkedIn上留下一句后来被反复引用的评论:Sora本质上是一个“只允许无操作作为唯一动作的世界模型”。另一头,据公开报道,特斯拉AI团队在公开场合多次将全自动驾驶系统内部的预测组件称为“世界模型”或“世界模拟器”。游戏引擎、3D生成工具、具身智能模型,各类产品和技术都被塞进同一个筐里,贴上了同一张标签。

一个视频生成器,一个自动驾驶预测网络,一个机器人控制模型,一个物理引擎,它们有什么共同点?几乎没有。但它们都被叫做“世界模型”。

这场持续两年多的概念混乱,终于有人试图系统性地梳理清楚。李飞飞团队这次没有发布新模型,没有公布新基准,没有演示任何产品功能。他们做了一件更基础的事:回到部分可观马尔可夫决策过程这一理论源头,把所有市面上被称作“世界模型”的系统,归约为同一个认知循环的三种不同功能投影。

三种投影分别是:渲染器、模拟器、规划器。在World Labs的分类框架下,Sora及其同类视频生成模型,属于渲染器。

一个术语为什么能装下如此多彼此矛盾的含义

要理解这场混乱的根源,需要先追问一个更基础的问题:当一家公司在说“我们在做世界模型”时,它到底在说什么?

对OpenAI来说,Sora的目标是“理解并在视频中呈现物理世界”。从技术报告看,Sora通过学习海量视频数据中的统计规律,能够生成符合视觉常识的画面,杯子掉在地上会碎,纸飞机脱手会飞,人在走路时双腿交替摆动。这些画面看起来“懂物理”。

对特斯拉来说,“世界模型”是FSD系统中预测道路参与者在未来数秒内运动轨迹的神经网络。它需要输出精确的3D位置、速度、朝向,供路径规划模块计算安全的驾驶决策。这个模型不需要输出像素,它输出的是向量和概率分布。

对机器人公司来说,“世界模型”是让机械臂能够预判“如果我把这个杯子向左推5厘米,它会倒吗”的内部模拟机制。它需要理解物体属性、接触力学和稳定性,输出的是动作可行性评估。

三类公司的目标完全不同。视频生成公司关心像素保真度,自动驾驶公司关心物理状态预测的精度,机器人公司关心动作后果的可推演性。它们都在做“世界模型”,但做的根本不是同一件事。

World Labs在文章中直指问题核心:这些系统之所以都被冠以同一个名字,是因为它们确实都承载了“理解世界”的某一个侧面。但它们各自只完成了完整认知循环中的一个环节,却被营销语言、媒体报道和资本叙事包装成了完整的世界模型。

概念混乱的另一个推手是术语本身的张力。“世界模型”这个词自带宏大叙事属性,听上去比“视频生成模型”或“视频预测模型”更有想象空间,更能支撑高估值和融资故事。当技术能力无法匹配公众期待时,概念沦为宣传工具就成了必然。

回到1960年代,完整的“世界模型”应该是什么

World Labs的分类框架建立在一个看似古老的理论基础上:部分可观马尔可夫决策过程。

这个框架描述的是一个智能体与环境交互的完整循环。智能体处于某种环境状态中,它执行一个动作,动作改变环境状态,智能体通过传感器获得部分观测,观测触发内部状态更新,更新后的认知驱动下一个动作。循环往复。

在这个框架下,“世界模型”的完整功能应该包含三个环节:从状态生成观测(人眼看到或传感器采集到的像素、点云等),从动作和当前状态推演下一状态(预测物理变化),从观测和目标生成动作(决策规划)。

语言模型学习的是文本序列的统计规律,世界模型学习的则是空间和时间的统计特性。光照如何在不同材质表面反射,物体在重力作用下如何运动,刚体碰撞后能量如何传递,这些才是世界模型要捕捉的规律。

World Labs团队在文章中指出,当前市面上所有被称作“世界模型”的系统,实际上只是上述完整循环中某一个功能环节的投影。有的系统只做“从状态到观测”的渲染,有的只做“从动作到下一状态”的状态推演,有的只做“从观测到动作”的规划。它们各自截取了循环的一段弧线,却被各自贴上了代表完整圆形的标签。

这个分析框架的价值在于,它提供了一个超越营销话术的比较坐标系。不管一家公司怎么包装自己的产品,只要把它放回POMDP循环里,看它输入什么、输出什么、缺什么环节,它的能力边界就暴露无遗。

渲染器、模拟器、规划器,三种投影的能力边界

World Labs的分类法中,第一类被定义为“渲染器”。它的核心目标是生成面向人类视觉感知的高保真像素输出。输入是某种环境状态的表征(可以是文本描述、3D场景参数或隐式编码),输出是一帧一帧的连续画面。

渲染器优化的方向是视觉逼真度而非物理精确度。World Labs文章明确指出,渲染器生成的建筑可能“摇摇欲坠”,因为它并不真正解算结构力学方程;它生成的液体泼溅可能看起来很真实,但液体体积、流速和冲击力可能与真实物理量完全不对应。所以这类模型不能用于建筑设计,不能用于机器人训练,不能用于需要物理上精确模拟的任务。

Google的Genie 3、各类文本转视频模型、以及几乎所有AI视频生成工具,都属于这一类别。Sora当然也在其中。

第二类是“模拟器”。它的核心目标不是生成给人看的画面,而是生成可供后续计算使用的精确状态。输入是当前环境状态和外部作用力(或动作),输出是物理和几何上忠实于真实世界规律的下一状态。模拟器输出的状态可以用来做应力分析、能耗计算、碰撞检测,也可以作为渲染器的输入来生成可视化画面,但它的核心价值在于状态本身的可计算性。

NVIDIA Omniverse是这类系统的典型代表。它不是AI原生模型,而是一个融合了传统物理引擎和AI加速计算的数字孪生平台。World Labs在文章中评价,模拟器是连接渲染和规划的桥梁,但高质量3D物理标注数据的稀缺是主要瓶颈。据World Labs在文章中估计,用于训练这类模型的数据,比互联网上可获取的视频数据少几个数量级。

第三类是“规划器”。它的输入是观测数据(摄像头画面、激光雷达点云、触觉传感器读数等)和目标指令,输出是下一步该执行什么动作。VLA(视觉-语言-动作)模型和World Action Models都属于这一类。

三大分类之间的差异,不是技术路线的细微分歧,而是根本性的功能分化。渲染器输出像素给人看,模拟器输出状态给机器算,规划器输出动作给执行器跑。一个系统可以同时具备多种能力,但当大多数被叫做“世界模型”的系统本质上只做渲染时,把“渲染”等同于“理解世界”就是一种严重的认知错配。

一场持续两年的争论,Sora到底是不是世界模型

2024年2月,OpenAI发布Sora,技术报告标题直接写上了“视频生成模型作为世界模拟器”。这一用词当即引发学术界和开发者社区的激烈争论。

支持者认为,Sora生成的视频展示了3D空间一致性、物体持久性和对物理交互的某种直观理解。一块被咬过的汉堡会留下齿痕,一只狗在雪地里跑会溅起雪花,这些细节似乎表明模型学到了一些物理规律。

反对者的核心论据来自强化学习领域对世界模型的经典定义:一个世界模型必须能够基于动作进行状态转移预测。也就是说,给定当前状态和一个动作输入,模型应该输出动作之后的下一个状态。Sora做不到这一点。用户无法告诉Sora“从左边推开那个杯子”,然后观测杯子是否会倒、往哪个方向倒、碎片飞到哪里去。

Jim Fan的评论精准抓住了这个矛盾:“Sora本质上是一个世界模型,只是它只允许无操作(no-op)作为唯一动作。”这句话的意思是,Sora确实在预测环境随时间的变化,但这个变化过程不受任何外部干预,只能沿着视频数据中固有的因果链展开。它不是在做交互推演,而是在做被动观测序列的续写。

Reddit的r/MachineLearning版块上,不少强化学习研究者表达了更尖锐的批评:不能基于动作进行状态转移预测的系统,不能叫世界模型,只能叫视频预测模型。

World Labs的分类框架为这场争论提供了一个定论式的回答。在POMDP循环中,动作是驱动状态转移的关键输入,缺失这一输入的系统只是完整认知循环中“观测生成”环节的投影。Sora属于渲染器,不是完整的世界模型,更不是世界模拟器。

但这不意味着Sora没有价值。渲染器解决的是一个不同的问题:如何生成符合人类视觉预期的画面。这个问题本身就极其困难,也有巨大的商业价值。问题在于,把渲染能力包装成“理解世界”的能力,会误导技术决策者和投资者,让人误以为这些模型已经具备了物理推演或具身交互的能力。

概念澄清的产业价值

厘清“世界模型”的定义边界,不是一场学术上的咬文嚼字。它直接影响技术选型、投资判断和公众对AI能力的认知水位。

对于一家正在评估是否将某个“世界模型”用于机器人训练的制造企业来说,搞清楚这个模型到底是渲染器、模拟器还是规划器,是避免数百万美元试错的必要前提。一个只能生成视频画面的模型,无论画面多么逼真,都不能替代对物体受力、运动轨迹和碰撞后果的精确计算。

对于投资机构来说,区分三类投影意味着可以更准确地识别项目所处的技术栈位置。一个自称“世界模型”的初创公司,如果产品本质上是一个渲染器,它的竞争对手是视频生成公司,而不是数字孪生平台或机器人控制模型。这直接决定了市场规模的估算方式和对标公司的选取。

对于学术界来说,清晰的分类是建立可比基准的前提。如果“世界模型”这个术语继续被泛化,研究者就难以定义什么算改进、什么算突破,同行评议将建立在歧义的基础上。

World Labs在文章中也指出,概念澄清不是为了制造对立。未来的发展方向将是三类投影的融合。一个真正理解杯子物理属性的模型,应该能同时渲染它的视觉外观、模拟它被推倒时的物理过程、并规划机械手如何稳定地抓取它。但在技术发展到那一步之前,认清各自的边界比畅想融合更有现实意义。

据World Labs在文章中估计,以NVIDIA Omniverse为代表的模拟器及数字孪生技术,瞄准的是工厂、仓库、供应链等领域超过万亿美元的潜在市场。这个数字来自厂商自身的判断,至于市场何时能真正达到这个规模,取决于模拟器能否突破高质量3D物理数据稀缺的瓶颈。

对于当前阶段的AI行业来说,最重要的认知或许很简单:能生成逼真视频,不等于理解物理世界;能被叫做世界模型,不等于真的在模拟世界。穿透营销语言,审视一个系统在POMDP循环中到底接受什么输入、输出什么结果、缺少哪个环节,是对技术能力边界最诚实的判断方式。

相關問答

Q根据李飞飞团队的文章,“世界模型”这一术语的滥用主要表现在哪些方面?

A根据李飞飞团队的文章,“世界模型”这一术语的滥用主要表现在:各类目标和技术差异巨大的系统都被冠以同一名称。例如,视频生成模型(如Sora)追求像素保真度,自动驾驶预测模型(如特斯拉FSD)关心物理状态预测精度,机器人控制模型关注动作后果的可推演性。它们在营销、媒体报道和资本叙事中都被包装成完整的“世界模型”,但其实际功能只是完整认知循环中的某一个环节。概念混乱的另一个推手是术语本身宏大的叙事属性,容易支撑高估值和融资故事。

QWorld Labs团队提出的“世界模型”分类框架是哪三种?各自的核心功能和典型例子是什么?

AWorld Labs团队提出的“世界模型”分类框架包括以下三种: 1. **渲染器**:核心功能是生成面向人类视觉感知的高保真像素输出。它输入某种环境状态表征,输出连续画面。这类系统优化视觉逼真度而非物理精确度,不能用于需要精确物理模拟的任务。典型例子包括Sora、Google的Genie 3等AI视频生成工具。 2. **模拟器**:核心功能是生成物理和几何上精确的环境状态,用于后续计算。它输入当前状态和外部作用力(或动作),输出符合真实世界物理规律的下一状态,可用于应力分析、能耗计算等。典型例子是NVIDIA Omniverse数字孪生平台。 3. **规划器**:核心功能是基于观测数据和目标指令,输出下一步应执行的动作。它连接感知与执行,典型例子包括视觉-语言-动作模型(VLA)和World Action Models。

Q文章提到,Sora为什么被归类为“渲染器”而不是完整的世界模型或世界模拟器?

A文章指出,Sora被归类为“渲染器”而不是完整的世界模型或世界模拟器,主要基于其在完整认知循环中的功能定位。在部分可观马尔可夫决策过程(POMDP)理论框架下,一个完整的世界模型应能基于动作进行状态转移预测,即给定当前状态和一个动作输入,输出动作后的下一个状态。而Sora(及其他同类视频生成模型)只能沿着视频数据中固有的统计规律生成连续画面,用户无法通过输入动作(如“推开杯子”)来交互式地推演物理状态变化。它本质上在做“被动观测序列的续写”,优化的是视觉逼真度,因此只是完整认知循环中“观测生成”环节的投影,属于渲染器。

Q厘清“世界模型”概念的定义边界,对产业界和学术界有哪些实际价值?

A厘清“世界模型”概念的定义边界具有重要的实际价值: 1. **产业技术选型**:帮助企业避免错误的技术投资,例如,不能将只能生成视频的渲染器用于需要精确物理模拟的机器人训练或工厂规划。 2. **投资判断**:帮助投资机构更准确地评估项目,根据其属于渲染器、模拟器或规划器来界定竞争对手和市场空间。 3. **公众认知**:防止营销语言误导公众,让人们认识到生成逼真视频不等于理解物理世界。 4. **学术研究**:为学术界建立可比基准提供清晰前提,使研究者能够明确定义技术改进和突破的标准,促进有效的同行评议。

Q文章中提到,未来“世界模型”的发展方向是什么?当前面临的主要瓶颈是什么?

A文章中提到,未来“世界模型”的发展方向是三类功能投影——渲染器、模拟器和规划器的融合。一个真正理解物理世界的模型,应该能够同时生成逼真的视觉外观、精确模拟物理变化过程,并能规划交互动作。但在技术发展到融合阶段之前,认清各自的能力边界更为现实。 当前面临的主要瓶颈,特别是对于模拟器及数字孪生技术(如NVIDIA Omniverse),是高质量3D物理标注数据的极端稀缺。据文章估计,用于训练这类模拟器的数据量比互联网上可获取的视频数据少几个数量级,这限制了模拟器在工厂、供应链等万亿美元级潜在市场的应用和发展速度。

你可能也喜歡

「老登股」变「新贵」:从戴尔到诺基亚,AI 如何重估旧基础设施?

过去被视为增长慢、故事旧的戴尔、诺基亚、思科等老牌科技股,近期因AI成为市场热点。这并非简单的炒作,而是AI发展进入新阶段的必然结果。 早期AI行情聚焦于模型和GPU算力。但随着AI从研发走向大规模应用,真正的挑战在于基础设施建设:需要服务器、网络、存储、电力等一整套复杂系统的交付与整合。这正是老牌科技公司的优势所在,它们几十年积累的客户、供应链和系统集成能力,在AI基建阶段变得至关重要。 市场重估主要围绕三条主线: 1. **服务器与系统集成**:如戴尔、HPE。它们扮演“AI工厂施工队”的角色,优势在于将GPU等核心部件整合成可交付的完整服务器系统,并拥有强大的企业客户渠道。 2. **网络与连接**:如康宁、诺基亚、思科。AI算力集群规模越大,内部互联和数据传输越关键,驱动了对光纤、高速网络设备的强劲需求。 3. **存储与数据管理**:如西部数据、希捷。AI催生了海量训练数据、日志和冷数据存储需求,使得高容量硬盘(HDD)重新成为刚需。 真正的重估需满足三个标准:有真实的AI相关订单和收入;公司因此上调业绩指引;利润质量能同步改善。AI不会让所有传统公司变身成长股,只会筛选出那些能抓住新需求、并将其转化为可持续利润的企业。 总之,这轮行情标志着AI进入真实建设期,市场开始为“谁能把AI基建建起来”的能力定价。老牌科技股并非焕发青春,而是它们手握的基础设施能力,在AI时代被重新需要。

marsbit45 分鐘前

「老登股」变「新贵」:从戴尔到诺基亚,AI 如何重估旧基础设施?

marsbit45 分鐘前

解读大航海时代投资机遇,景顺长城基金发布《2026年中国企业出海报告》

景顺长城基金发布《2026年中国企业出海报告》,指出在当前全球产业链重构背景下,“出海”已成为中国企业的“必选项”和新增长引擎。报告认为,出海行情并非昙花一现,而是可能持续影响A股投资的长期趋势。 报告分析了中国企业出海的版本迭代:从早期赚取加工费的“产品出口”(出海1.0),演进至当前包含产能、经营能力及服务输出的“出海2.0”。后者具体体现在资本品投资高增长、消费品品牌拓展、服务业(如创新药BD、大模型Token)加速出海以及供应链深度嵌入全球AI产业链。 中国企业出海的底气源于多重系统性优势:庞大的工程师红利、完善且低成本的基础设施以及完整的产业链集群效应。这些优势在光模块、创新药等行业已转化为全球竞争力。 针对具体投资机遇,报告重点提及: 1. **资本品**:如工程机械、电力设备(变压器、电网配电设备等),凭借成本与服务优势,正快速进入“一带一路”及全球市场。 2. **科技与高端制造**:新能源车需注重海外本地化;AI应用(大模型、云服务等)及光模块企业展现出非线性增长潜力。 3. **消费与医药**:消费品牌正从“链价比”优势转向品牌溢价;创新药在肿瘤、减重等大适应症领域孕育着巨大的市场机会。 报告也指出,出海之路面临地缘政治、合规、文化等多重挑战,成功的企业需具备前置合规、本地化运营及构建海外核心能力等关键素质。

marsbit1 小時前

解读大航海时代投资机遇,景顺长城基金发布《2026年中国企业出海报告》

marsbit1 小時前

交易

現貨
合約

熱門文章

什麼是 $S$

理解 SPERO:全面概述 SPERO 簡介 隨著創新領域的不斷演變,web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中,SPERO(標記為 SPERO,$$s$)是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息,以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼? SPERO,$$s$ 是加密空間中的一個獨特項目,旨在利用去中心化和區塊鏈技術的原則,創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動,為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議,以及通過去中心化應用程序(dApps)創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開,旨在彌合傳統金融中的差距,同時利用區塊鏈技術的優勢。 誰是 SPERO,$$s$ 的創建者? SPERO,$$s$ 的創建者身份仍然有些模糊,因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神,優先考慮集體貢獻而非個人認可。 通過將討論重心放在社區及其共同目標上,SPERO,$$s$ 體現了賦能的本質,而不特別突出某些個體。因此,理解 SPERO 的精神和使命比識別單一創建者更為重要。 誰是 SPERO,$$s$ 的投資者? SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持,他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。 這些投資者通常對不僅提供創新產品,還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作? SPERO,$$s$ 採用多面向的框架,使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵: 去中心化治理:SPERO,$$s$ 整合了去中心化治理模型,賦予用戶積極參與決策過程的權力,關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。 代幣實用性:SPERO,$$s$ 使用其自己的加密貨幣代幣,旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進,增強了整體參與度和實用性。 分層架構:SPERO,$$s$ 的技術架構支持模塊化和可擴展性,允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。 社區參與:該項目強調社區驅動的倡議,採用激勵合作和反饋的機制。通過培養強大的社區,SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。 專注於包容性:通過提供低交易費用和用戶友好的界面,SPERO,$$s$ 旨在吸引多樣化的用戶群體,包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線 理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線,映射 SPERO,$$s$ 演變中的重要事件: 概念化和構思階段:形成 SPERO,$$s$ 基礎的初步想法被提出,與區塊鏈行業內的去中心化和社區聚焦原則密切相關。 項目白皮書的發布:在概念階段之後,發布了一份全面的白皮書,詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施,以吸引社區的興趣和反饋。 社區建設和早期參與:積極進行外展工作,建立早期採用者和潛在投資者的社區,促進圍繞項目目標的討論並獲得支持。 代幣生成事件:SPERO,$$s$ 進行了一次代幣生成事件(TGE),向早期支持者分發其原生代幣,並在生態系統內建立初步流動性。 首次 dApp 上線:與 SPERO,$$s$ 相關的第一個去中心化應用程序(dApp)上線,允許用戶參與平台的核心功能。 持續發展和夥伴關係:對項目產品的持續更新和增強,包括與區塊鏈領域其他參與者的戰略夥伴關係,使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。 結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證,能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾,它為更具包容性的金融環境鋪平了道路。 與任何在快速發展的加密領域中的投資一樣,潛在的投資者和用戶都被鼓勵進行徹底研究,並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神,邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開,但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

85 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 $S$

什麼是 AGENT S

Agent S:Web3中自主互動的未來 介紹 在不斷演變的Web3和加密貨幣領域,創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目,承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務,為人工智能(AI)提供變革性的應用,鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。 什麼是Agent S? Agent S是一個突破性的開放代理框架,專門設計用來解決計算機任務自動化中的三個基本挑戰: 獲取特定領域知識:該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫,提升其在任務執行中的表現。 長期任務規劃:Agent S採用經驗增強的分層規劃,這是一種戰略方法,可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。 處理動態、不均勻的界面:該項目引入了代理-計算機界面(ACI),這是一種創新的解決方案,增強了代理和用戶之間的互動。利用多模態大型語言模型(MLLMs),Agent S能夠無縫導航和操作各種圖形用戶界面。 通過這些開創性特徵,Agent S提供了一個強大的框架,解決了自動化人機互動中涉及的複雜性,為AI及其他領域的無數應用奠定了基礎。 誰是Agent S的創建者? 儘管Agent S的概念根本上是創新的,但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚,這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名,重點仍然在於框架的能力和潛力。 誰是Agent S的投資者? 由於Agent S在加密生態系統中相對較新,關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解,引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作? Agent S的核心是尖端技術,使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建: 類人計算機互動:該框架提供先進的AI規劃,力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為,承諾提升用戶體驗。 敘事記憶:用於利用高級經驗,Agent S利用敘事記憶來跟蹤任務歷史,從而增強其決策過程。 情節記憶:此特徵為用戶提供逐步指導,使框架能夠在任務展開時提供上下文支持。 支持OpenACI:Agent S能夠在本地運行,使用戶能夠控制其互動和工作流程,與Web3的去中心化理念相一致。 與外部API的輕鬆集成:其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統,成為開發者和組織的理想選擇。 這些功能共同促成了Agent S在加密領域的獨特地位,因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展,其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括,突顯其重要事件: 2024年9月27日:Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出,展示了該項目的基礎工作。 2024年10月10日:該研究論文在arXiv上公開,提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日:發布了一個視頻演示,提供了對Agent S能力和特徵的視覺洞察,進一步吸引潛在用戶和投資者。 這些時間線上的標記不僅展示了Agent S的進展,還表明了其對透明度和社區參與的承諾。 有關Agent S的要點 隨著Agent S框架的持續演變,幾個關鍵特徵脫穎而出,強調其創新性和潛力: 創新框架:旨在提供類似人類互動的直觀計算機使用,Agent S為任務自動化帶來了新穎的方法。 自主互動:通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。 複雜任務自動化:憑藉其強大的方法論,能夠自動化複雜的多步任務,使過程更快且更少出錯。 持續改進:學習機制使Agent S能夠從過去的經驗中改進,不斷提升其性能和效率。 多功能性:其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。 隨著Agent S在Web3和加密領域中的定位,其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架,Agent S展現了數字互動的未來,為各行各業的用戶承諾提供更無縫和高效的體驗。 結論 Agent S代表了AI與Web3結合的一次大膽飛躍,具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段,但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰,Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域,像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

814 人學過發佈於 2025.01.14更新於 2025.01.14

什麼是 AGENT S

如何購買S

歡迎來到HTX.com!在這裡,購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Sonic (S)購買Sonic (S)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.7k 人學過發佈於 2025.01.15更新於 2026.06.02

如何購買S

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 S (S)幣價的意見。

活动图片