从代码到认知：机器人大脑进化的万字指南

marsbit發佈於 2026-06-07更新於 2026-06-07

文章摘要

本文概述了机器人大脑从传统代码控制到现代人工智能模型驱动的演进历程。文章首先回顾了前大型语言模型（LLM）时代，机器人依赖手工编码的模块化技术栈（感知、状态估计、规划、控制）和行为树，虽稳定但泛化能力差。随后，深度学习改进了感知，强化学习和模仿学习进入了控制层，但策略仍较为狭窄。 ChatGPT的出现带来了转折。LLM最初被用作自然语言编译器，将指令转化为机器人可执行的原子技能序列（如谷歌的SayCan）。但更重要的突破是视觉-语言-动作模型（VLA），例如谷歌的RT-2和开源的OpenVLA，它能将视觉、语言信息融合，直接输出动作指令，实现了推理与行动的耦合。目前最先进的系统采用“双脑”架构（如Figure AI的Helix、NVIDIA GR00T）：一个慢速、参数多的“系统2”负责高层次推理和规划；一个快速、小巧的“系统1”负责高频动作生成。其下还可能有一个“系统0”反射层处理平衡等底层控制。出于延迟和可靠性考虑，安全关键的控制回路通常在机器人本地（如NVIDIA Jetson模块）运行，而对话界面和集群学习等任务可交由云端。开源模型（如OpenVLA、GR00T、π0）降低了行业门槛，让初创公司能在其基础上用自有数据微调。然而，当前VLA机器人仍存在任务中途恢复能力弱、样本效率低、缺乏物理常识和长期规划能力等局限。这催生了下一代方向：世界模型。这类模型（如NVIDIA Cosmos、Meta V-JEPA）能根据当前状态和动作预测未来结果，让机器人在行动前进行模拟和评估，从而改善恢复能力、泛化能力和长期规划。架构上主要分为像素级视频扩散、联合嵌入预测架构（JEPA）和潜在动作世界模型等流派。文章最后指出，数据采集（特别是远程操作数据）是核心竞争力，仿真训练至关重要，机器人成本正在迅速下降。当前物理AI的发展阶段大约相当于“GPT-2时代”，虽未完全自主，但正通过架构的持续演进（从代码到感知、规划、策略，最终到世界模型），朝着更通用、更强大的方向稳步前进。

作者:Matt White, Linux Foundation 全球 AI 首席技术官

编译:Felix, PANews

王兴兴(宇树科技 CEO)与 Matt White

几周前在上海的时候,一位一起旅行的朋友(一位聪明、平时会看新闻和观察事物,但不怎么了解机器人技术),在晚餐时问了整个旅程中一直期待的问题。

“我们看到的到处跑的机器狗,在宇树办公室演示舞台上表演功夫的人形机器人,还有我们看到的叠衣服的机械臂。它们是怎么做到的?它们是由大型语言模型(LLM)驱动的吗?这到底是怎么运作的?是不是有某种语言模型在控制它们的动作?”

这是一个很好的问题,坦白说:某种程度上是这样,但真实的故事远比这有趣。你在社交媒体上看到的机器人并非穿着金属外壳的 ChatGPT。它们运行着一套技术栈(多层 AI 协同工作)。这套技术栈在过去三年里的变化比过去三十年还要大。语言模型是其中的一部分。视觉模型、动作模型、行为树、经典控制回路,以及一种名为“世界模型”的新兴系统家族,也都是其中的重要组成部分。而“世界模型”或许是所有发展中最重要的一项。

这是一篇长文,会从头说起,然后逐步讲述每一次重大变革,最终到达现在所处的阶段:机器人不仅能够对世界做出反应,还能想象世界。

一:前 LLM 时代 :当机器人还只是软件的时候

几十年来,制造机器人意味着编写大量代码,而且几乎所有这些代码都不需要学习。

经典的工业机器人是由精心设计的模块堆叠而成的塔状结构。比如上世纪 90 年代焊接丰田底盘的橙色机械臂,或者 2000 年代初波士顿动力公司的 BigDog。

感知:过滤摄像机画面,进行边缘检测,利用几何匹配识别工件位置。
状态估计:结合轮式编码器、陀螺仪和加速度计(传感器融合)来确定机器人的位置和移动速度。
规划:给定目标姿态,使用 A* 或 RRT 等算法在已知地图中计算出一条无碰撞的路径。
控制:在最底层,PID控制器每秒成百上千次地调整电机扭矩以遵循该路径。

这些层级通常由不同实验室的不同人员编写,并经过极其细致的拼接而成。行为(例如“如果杯子是红色的就拿起来,否则等待”)被编码为状态机或行为树:即机器人逐步执行的流程图。

这种方法的优势显而易见。它具有可预测性,符合安全标准。这就是为什么你的汽车配备了有效的 ABS 防抱死制动系统。

缺点同样显而易见。这样的机器人只能在工程师预想的场景下才能发挥其智能水平。一旦把它放到新的工厂、新的光照条件或新的杯子颜色中,它就会崩溃。它的泛化能力几乎为零。

二:机器学习悄然介入

在 2010 年代,深度学习开始着手解决感知层的问题。那些在 ImageNet 图像分类任务中击败人类的卷积神经网络(CNN),可以被重新训练,用于检测物体上的抓握点、分割房间内的家具,或者识别人的姿态。突然之间,位于技术栈顶端的“感知”层不再需要人工设计,你可以直接对其进行训练。

随后,学习机制蔓延到了“控制”层。伯克利大学、DeepMind 和 OpenAI 的研究人员表明,强化学习(让机器人智能体在模拟环境中尝试数百万次并强化有效行为)可以产生令人惊讶的娴熟步态、手部物体操作(OpenAI 在 2019 年单手解魔方是一个里程碑),以及适应不同地形的运动策略。

另一个并行的研究方向是模仿学习,通常被称为行为克隆:记录人类遥控机器人完成某项任务的几百次尝试,然后训练神经网络来预测人类根据机器人所观察到的情况会采取什么行动。

这一切的关键在于:每个学习到的策略都过于狭窄。训练一个网络去捡起一个红色积木,它就不知道该如何处理一个黄色杯子。训练它在草地上行走,它却会摔倒在瓷砖地上。泛化能力仍是亟待解决的难题。

值得一提的是,这一时期出现了一个基础架构,它至今仍支撑着几乎所有的东西:ROS,机器人操作系统(首次发布于 2007 年 11 月)。ROS 并不是 Windows 或 Linux 意义上的操作系统,而是一个中间件框架,一种通用的机器人管道系统。它允许“摄像头节点”、“导航节点”、“机械臂控制器节点”以及其他数十个节点通过共享总线发布和订阅消息。

当前版本 ROS2 运行于全球绝大多数科研和商用机器人的底层,从斯坦福大学的实验室到中国的人形机器人初创公司,无一例外。人们谈论机器人的“操作系统”时,几乎总是指 ROS2 加上其上运行的各种感知、规划和控制软件包。

ROS2:它不是操作系统,而是让独立的机器人软件相互通信的通用管道

三:LLM 在机器人领域的应用

接着,ChatGPT 诞生了。

突然间有了这样一个东西:LLM。它能够阅读简单的英语指令,进行多步骤推理,编写代码并调用函数。机器人专家几乎立刻意识到,这正是他们多年来一直在努力解决的缺失环节。让机器人在家庭或办公室里完成一些有用的任务,最难的部分通常不是电机控制,而是人机交互:人如何告诉机器人做什么,以及机器人如何将这个目标分解成它已经知道如何执行的原子动作?

第一波将 LLM 应用于机器人的工作,是将语言模型视为位于 ROS 之上的一种自然语言编译器。模式如下:

用户用英语说:“把厨房台面上的咖啡杯拿来,放到我的桌子上。”
LLM 根据机器人可用原子技能列表生成计划:可以是函数调用序列、状态机,也可以是用 XML 编写的行为树。
ROS2 节点会逐步执行该计划。如果某个步骤失败,则会将失败信息报告给 LLM,以便 LLM 重新规划。

谷歌 2022 年的 SayCan 项目是这一理念的一个非常简洁的版本:LLM 提出技能,一个独立的“可供性”模型评估每个技能当前成功的可能性,机器人选择联合得分最高的技能组合。华为研究实验室主导的 ROS-LLM、ROSGPT 和 ROSA 等开放框架推广了这种模式。

这的确是一项意义重大的飞跃。突然间,你可以告诉机器人“清理桌子,把可回收物放进蓝色垃圾桶”,它就会尝试执行一些合理的操作。但请注意,这里仍然存在一些问题:语言模型仍处于规划层。实际的动作指令仍由底层那些经过精心设计或专门训练的控制器生成。语言模型只是一个智能调度器,它并不负责驱动。

四:视觉-语言-动作模型(VLA),当大脑开始驱动机器人

Keenon XMAN-R1 机器人正在北京 Galbot 公司的自动化药房中从货架上取药。只需 10 万美元

下一次飞跃更艰难,也更重要。研究人员提出了一个更具雄心的问题:如果模型不仅能进行规划,还能直接生成动作指令呢?如果将摄像头图像和语言指令直接输入到一个神经网络中,然后就能得到下一毫秒的关节运动呢?

这就是视觉-语言-动作模型(VLA)。它现在是人形机器人和四足机器人领域的主流范式。

首个广为人知的视觉语言机器人是谷歌 DeepMind 于 2023 年推出的 RT-2。其巧妙之处在于:使用一个大型视觉语言模型(该模型已训练用于图像描述和问题解答),并继续使用机器人演示数据对其进行训练,但将机器人动作视为另一种需要预测的标记。同一个神经网络原本可以输出“猫坐在垫子上”,现在却可以输出一系列标记,编码“将右爪向前移动3厘米,合拢爪子,抬起5厘米”。推理和行动都在同一个模型中完成。

随后,在 2024 年中期,一个由斯坦福大学领导的团队发布了 OpenVLA ,这是一个拥有 70 亿参数的开源 VLA 模型,它基于 Open X-Embodiment 数据集进行训练。该数据集汇集了来自 21 个不同研究实验室、涵盖 22 种不同机器人身体的超过一百万个训练片段。这是谷歌以外的人首次可以下载通用机器人模型并开始进行修改。它一夜之间改变了整个领域。

如今,领先的 VLA 虽然数量不多,但发展迅速:

来自 Physical Intelligence 的 π0 和 π0.5:出色的任务适应性。
NVIDIA Isaac GR00T N1.7:开放权重,商业授权,专为人形机器人设计,是大多数中国硬件公司目前正在使用其自身数据进行后训练的模型。
Figure AI 的 Helix 和更新的 Helix-02:专有技术,但在架构上非常重要。
AgiBot 的 Genie Envisioner:基于中国世界模型的平台。
SmolVLA、NORA、ACoT-VLA、CogACT:学术界涌现出越来越多的 VLA,它们探索着不同的设计方向。

VLA 的工作原理(不涉及数学公式)

可以将 VLA 想象成将三路输入信号融合为一路输出信号。

第一个数据流是视觉数据。RGB 摄像头(有时是深度传感器或激光雷达),有时是指尖上的触觉传感器,由视觉编码器(通常是像 DINOv2 或 SigLIP 这样的 Transformer 模型)进行处理,该编码器将每张图像压缩成几百个“视觉 token”,概括机器人所看到的内容。

第二个数据流是语言。你的指令(“把螺丝刀递给我”)就像在 ChatGPT 中一样被转换为 token。

这两个数据流被连接起来,并输入到一个 Transformer“主干”(通常是像 Qwen3 或 Llama 这样的小型开源语言模型)。这个主干负责推理,将它看到的信息与它被询问的信息结合起来。

第三个数据流:行动,从另一端流出。这里是各种架构设计产生分歧的地方:

离散动作 token:模型直接生成可解码为关节角度或末端执行器位置的token,就像 ChatGPT 生成单词一样。这种方式简单,但在高频运行时会产生卡顿。
扩散或流匹配(flow-matching)动作头:一个独立的微型网络接收主干的输出,并去噪生成一条平滑的关节位置轨迹,就像图像扩散模型一样,只不过生成的是运动。这就是 π0 的做法,产生的动作更平滑、更自然。
动作分块:不预测下一个单一指令,而是一次性预测接下来半秒钟的指令集,从而平滑掉抖动。

在 VLA 模型中:两个输入流输入,运动指令输出,推理和行动融合在一个网络中。

这就是至关重要的架构转变:推理和行动不再分离。教会神经网络识别杯子,也教会了它如何抓取杯子。正是这种耦合使得 VLA 能够进行泛化,而它们的前身却无法做到。

五:双脑策略,LLM 和 VLA 如何协同工作

这里有一个营销中很少明确解释的细节。如今性能最佳的人形机器人并非运行单一的 VLA 系统,而是运行两个速度不同的模型,彼此通信。这有时被称为双系统或系统 1 / 系统 2 架构,借鉴自 Daniel Kahneman 的心理学框架,该框架认为人类拥有一个快速的直觉大脑和一个缓慢的深思熟虑的思考大脑。

Figure AI 的 Helix 让这种设计成为经典,现在它(及其变体)几乎被到处效仿。尤其重要的是,NVIDIA 的 GR00T N1.7 采用了这种设计,大多数中国人形机器人也采用了这种设计。其结构如下:

系统 2(S2):慢思考大脑。一个拥有 70 亿参数的视觉-语言模型,运行频率约为 7–9 Hz(即每秒 7 到 9 次)。它的工作是观察场景,解析指令,进行多步推理(如,“碗在麦片盒后面;我需要先移开盒子”),并发出高层次意图——通常是一组紧凑的内部向量,而不是文字本身。
系统1(S1):快反应大脑。一个小得多(约 8000 万参数)的视觉运动策略模型,运行频率为 200 Hz。它接收 S2 的意图向量加上最新的传感器数据,输出连续的关节指令。它没有任何实际意义上的“思考”,只是做出反应。

最近,Figure 公司的 Helix-02 增加了一个系统 0 (System 0 )。它位于双脑系统之下,是一个反射层,而非第三认知层。这是一个拥有 1000 万个参数、运行频率为 1 kHz 的网络,负责处理底层的平衡和全身协调,用神经控制器取代了超过十万行的手写运动控制 C++ 代码。你可以把 S0 想象成一条后天习得的脊髓:它不进行推理或计划,只是负责保持身体直立和协调,而思考则由上方的双脑系统完成。

现代人形机器人的双脑架构:系统 2 思考缓慢,系统 1 反应迅速——其下方还有一个系统 0 反射层,用于保持平衡、触觉接触和全身协调

这种划分源于物理学的限制。如果每 200 毫秒(这是一个大型 VLA 的运行速度)才发出一次运动指令,机器人的动作会像在水下移动一样迟缓。运动指令的更新速度必须快于它所控制关节的自然振荡,这意味着每秒需要成百上千次更新。没有任何一个 70 亿参数的 Transformer 模型能在电池驱动的机器人上跑得这么快。

因此,认知任务被分工:庞大而缓慢的模型负责思考;小巧而快速的模型负责行动。它们并非用英语交流,而是通过学习到的潜在向量进行沟通:缓慢的模型发出抽象的目标,而快速的模型则知道如何解读它。

六:云、边缘计算以及“大脑”的放置问题

所有这些计算究竟在哪里进行?

如今,机器人团队之间几乎形成了一种强烈的、近乎意识形态的共识,即攸关安全的核心控制回路必须在本地运行。原因有二:

延迟。WiFi 或蜂窝网络的往返传输时间,乐观估计也有 30-80 毫秒。而动作指令需要每 1-5 毫秒更新一次。这样的网络循环根本无法正常运行。

可靠性。机器人在工厂、仓库、厨房、医院等场所运作。网络随时可能掉线。如果一断 Wi-Fi 机器人就停摆,那它将成为一种安全隐患。

所以,现代的划分大致如下:

板载(本地),运行在类似 NVIDIA Jetson Thor 或 AGX Thor 模块(约 2,000 TFLOPS,128 GB 内存,40–130 W 功耗)的设备上:

S0/S1 的所有功能:平衡、运动、精细动作控制。
VLA 本身(系统 2),为了适应硬件限制,越来越多地被量化到 FP8 或 FP4 格式。如今 20 亿到 70 亿参数范围的模型可以在设备端运行。
感知、传感器融合,以及可以覆盖任何其他操作的安全监控程序。

云端或远程服务器(如果存在的话):

对话式界面(“嘿,机器人,我晚饭该做什么?”):这些界面可以容忍延迟。
集群学习:数千台机器人将远程操作数据发送回服务器,以便汇总到下一版本模型中。
需要进行大规模的长期规划,可能会采用前沿规模模型。
操作员仪表盘和监控。

此外,还有一个日益壮大的中间层:位于工厂或仓库中的本地边缘服务器,它们通过本地网络与机器人集群通信,延迟仅为个位数毫秒级。更大型的 LLM 可能就部署在这个层级,负责执行单个机器人无需自行管理的高级调度任务。

中国的人形机器人浪潮正是基于这一假设而构建的:宇树(Unitree)、智元(AgiBot)、小鹏 IRON、傅利叶(Fourier)、逐际动力(EngineAI)。它们的机器人配备了板载计算能力(通常是 Jetson,有时也使用华为 Ascend 等国产芯片),而云端则用于集群学习和对话界面,而非控制回路。

机器人大脑实际运行的位置:安全关键回路在本地运行,云端用于处理可以等待的事情

七:为什么开源模型悄然成为焦点

如果只看演示,你可能会认为这个领域是由少数几家资金雄厚的美国公司主导的。但事实远比这复杂。物理 AI 的发展速度在很大程度上是由任何人都可以下载和微调的开源权重模型决定的。

以下列举的模型虽不多,但意义重大:

OpenVLA(斯坦福大学):首个开源的 7B 通用机器人模型。
NVIDIA Isaac GR00T(N1、N1.5、N1.7):开源权重即将推出,商业授权也即将上线,该模型基于数万小时的人类自我中心视频进行训练。GR00T N1.7 于 2026 年 3 月发布,届时任何拥有人形机器人的用户都可以免费使用其双系统架构。
Physical Intelligence 的 π0:发布用于研究的权重。
NVIDIA Cosmos:开放世界基础模型。
AgiBot World:来自上海初创公司的庞大开源数据集,包含远程操控人形机器人的演示。
Hugging Face 的 LeRobot:一个开放的库,已成为上述所有平台的汇聚之地。
Mimic robotics 的 mimic-video:一种开源的视频-动作模型,其样本效率比传统 VLA 高出 10 倍。

之所以重要,有两个原因。首先,机器人初创公司不必再花费数千万美元来预训练一个基础模型:它们可以拿着 GR00T 或 π0,然后用自己机器人的数据对其进行后训练。宇树、逐际动力、Booster、Galbot 以及几十家规模较小的中国公司正是这样做的。这就是为什么一家只有几百名员工的公司,也能出产出能走路、能说话、能叠衣服的人形机器人的原因:他们是站在开源技术栈的肩膀上。

其次,开源模型是解决安全性问题的唯一现实途径。如果一个完全闭源的模型在某个工厂车间的机器人体内运行,而外界对它的推理逻辑毫无洞察能力,这无疑是一场监管噩梦。开放式模型让审计人员、研究人员和操作员能够真正检查机器人到底被训练了些什么。

八:还有哪些问题尚未解决

如果你看过足够多的机器人演示视频,你也一定看过很多机器人故障视频。当前这一代的 LLM+VLA 机器人确实令人印象深刻,但也确实存在明显的局限性。以下是它存在的问题:

任务中途恢复。VLA 处理意外变化的能力比以前的任何技术都强。但当事情真正出错时(比如抓取失误、物体滚动、有人闯入工作区),重新回到正轨依然是弱项。机器人会盲目重复失败动作。
样本效率。从零开始训练一个 VLA 需要上万小时的远程操作数据。而人类几分钟就能学会操作一个新工具。这个效率差距是巨大的。
跨实体泛化。在斯坦福实验室里用 Franka 机械臂训练出来的模型,并不能完美迁移到深圳仓库里的宇树人形机器人上。两者的物理形态不同。
长期任务。任何需要超过 30-60 秒的连贯行为,且包含多个子目标的任务,都容易偏离目标。“给我做早餐”这样的任务始终遥不可及。
物理常识。VLA 接受的是模仿训练,而非理解训练。它并不真正理解“碰倒一杯水”时水会倒出来的原理。它只是见过一些例子,并根据模式匹配来预测接下来会发生什么。
空间推理能力。尽管它们是多模态的,但在“绕过障碍物而不是穿过它”或“把这些东西叠起来不倒”之类的任务上却出奇地弱。

最后这一系列弱点,促使该领域开始押注于一种截然不同的模型。

九:世界模型

不妨设想一下:如果不训练机器人预测动作,而是训练它预测动作的后果,结果会如何?

世界模型(World Model)是一种神经网络,它根据当前世界状态(通常是一段视频或一连串帧图像)和预设动作,预测世界接下来的样子。简单来说,你可以把它想象成一个带有方向盘的学习型视频预测器。你给它看最后一秒的摄像头画面,并告诉它“机器人将手臂向前移动 10 厘米”,它就能生成一段逼真的视频,预测下一秒的画面。

这为什么重要?

因为一旦有了世界模型,机器人就能在行动前进行思考。它可以预先构思三到四种不同的候选行动,预测每种行动的结果,进行评分,并选择最佳方案。所有这些都在电机运动之前完成。这正是国际象棋引擎的运作方式:它不记忆棋步,而是模拟未来。以前在物理机器人领域从未拥有过这种能力,因为从未拥有过足够精确的模型,来模拟纷繁复杂的真实世界。

世界模型允许机器人模拟多种可能的未来场景,对其进行评分,并在任何电机启动之前选择最佳方案

2026 年的世界模型究竟是什么样子?

目前最先进的世界模型种类繁多,但发展迅速。以下是一些模型:

NVIDIA Cosmos:一系列的开放世界基础模型,包括 Cosmos Predict 2.5(生成模型)、Cosmos Transfer 2.5(可控仿真模型)、Cosmos Reason 2(用于机器人的视觉语言推理器)以及最新的 Cosmos Policy。Cosmos Policy 更进一步,通过对世界模型进行后训练,直接输出动作以进行控制。Cosmos 使用数万 GPU 小时的视频数据进行训练(Cosmos Predict 2.5 是该系列中的世界模型)。
DeepMind Genie 3:一款交互式世界模型,它能够根据文本提示生成完全可导航的环境,帧速率为每秒 24 帧,并能持续稳定运行数分钟。最初是为游戏环境而设计。
Meta V-JEPA 2:预训练时使用了超过一百万小时的网络视频,然后仅用 62 小时的机器人视频进行动作条件化训练。在不同实验室的真实机器人手臂上,无需任何特定任务训练,即可实现 80% 的零样本拾取放置成功率。“JEPA”方法在架构上与其他方法截然不同。
DeepMind Dreamer 4:仅使用离线数据,无需任何环境交互,就学会了在 Minecraft 中收集钻石(一项 2 万步的任务)。这证明了在虚拟世界中进行真正的强化学习是可行的。
AgiBot 的 Genie Envisioner:来自中国的统一世界模型平台,使用超过 3000 小时的真实世界人形机器人操作视频进行训练。它既可以生成预测的展开轨迹,也可以生成可执行的动作轨迹。 AgiBot 使用 NVIDIA Cosmos Predict 2 作为骨干网络,并使用自有数据进行后训练。这正是之前描述的“开源技术栈+自有数据”模式。
丰田研究院基于 Cosmos 的世界模型:用于远程操作数据增强和导航。

2025-2026 年最重要的六个世界模型,每个模型都对机器应该如何学习物理学提出了不同的设想。

十:替代架构,因为该领域尚未定论

构建世界模型并没有统一的标准。架构之争是目前 AI 领域最有趣的争论之一,它直接影响着机器人未来能够做什么。以下三个阵营值得关注:

像素级视频扩散(Cosmos/Sora 学派):使用扩散模型预测未来帧的实际像素。优点是可作为合成数据生成器,可以渲染从未发生过的全新机器人演示。缺点是成本高昂,有时会违背物理规律,而且预测永远不会看到的像素是一种浪费。

联合嵌入预测架构,简称 JEPA(LeCun 学派):不预测像素,而是预测下一帧的抽象表征。抛弃纹理细节,只保留场景中事物的语义本质。优点是高效,专注于对行动至关重要的因素。缺点是使用起来较为困难。V-JEPA、V-JEPA 2 和新型 JEPA-VLA 混合模型正在探索这一领域。

潜在动作世界模型(Genie/Dreamer 流派):学习如何将整段视频压缩成一种潜在的“动作语言”,这种语言能够捕捉行为结构,然后训练世界模型,使其能够根据下一个潜在动作预测下一个潜在状态。优点是允许你使用无动作的网络视频进行训练,然后添加少量真实机器人数据。缺点是潜在动作无法被人类理解,安全分析变得复杂。

像素扩散、JEPA 和潜在动作:目标相同,构建世界模型的方式却截然不同

十一:基于世界模型的机器人实际应用

如果快进几年,前沿人形机器人的架构可能看起来像这样:

VLA 上搭载着一个世界模型。当机器人遇到新的情况时,它会执行类似以下的操作:

VLA提出了一些后续行动的候选方案(它仍是策略)。
世界模型会获取每个候选动作,并模拟 1-3 秒的假想视频。
价值判断者会根据设想的结果进行评分:杯子被拿起了吗?有东西掉下来了吗?人被撞到了吗?
机器人会选择得分最高的行动,并且只执行其第一部分。
真实传感器数据回流;循环重复。

这就是模型预测控制,这项技术多年来一直用于稳定火箭和四旋翼飞行器,但它用学习到的世界模型取代了人工推导的物理方程。它的可扩展性在于,世界模型是基于数百万小时的视频进行预训练的,而不是因为有人为厨房环境编写了纳维-斯托克斯方程(Navier-Stokes equations)。

其益处层层递进:

恢复情况有所改善。如果抓取动作发生失误,世界模型可以设想多种纠正路径,并选择最有希望的路径。
泛化能力得到提升。基于网络视频训练的世界模型所经历的“物理现象”比任何机器人远程操作数据集都要多几个数量级。
长远规划变得可控。在想象中规划,而不是在现实中规划。
模拟与现实之间的差距缩小了。以前需要用自己搭建的模拟器(例如 Isaac Sim、Newton 物理引擎)进行训练,然后寄希望于训练结果能够迁移到实际应用中,而现在则可以使用经过训练、能够与真实视频相匹配的模拟器进行训练。因此差距更小。
合成数据呈爆炸式增长。一个世界模型几乎可以免费生成数百万条不同的机器人轨迹,涵盖不同的光照、材质和物体配置。这解决了该领域最大的瓶颈之一。

此外,它还具有一项重要的安全优势。能够模拟动作后果的机器人可以拒绝执行危险操作:并非因为预设规则的限制,而是因为它预想到未来可能会有人受伤。

两种移动方式:VLA 根据所见做出反应;世界模型机器人则在移动前进行思考

十二:还应该知道的事

数据问题才是真正的核心问题:如果无法给模型喂数据,世界上所有的架构创新都无济于事。目前,远程操作(人类穿戴 VR 设备远程木偶式操纵机器人)是主要的技术瓶颈。一家机器人公司的竞争护城河越来越取决于其数据采集流水线,而不是模型本身。智元机器人已经建立了充满操作员的仓库。英伟达 GR00T N1.7 的灵巧度扩展定律表明,更多的人类第一人称视角视频可以直接、可预测地提升机器人的灵巧度。这也是中国具有结构性优势的部分原因:更低的数据采集劳动力成本、更宽容的部署环境,以及国家在积极协调供应链。

仿真是一个平行宇宙。 NVIDIA 的 Isaac Sim、全新的开源 Newton 物理引擎(1.0 版本将于 2026 年 4 月正式发布)以及 Omniverse 平台,让企业能够在数百万个并行模拟环境中训练机器人,而无需将其部署到现实世界。大多数看似“机器人智能”的功能,实际上是在模拟环境中培养,然后移植到硬件上的。

经济效益开始显现。宇树在 2025 年交付了约 5500 台人形机器人,并计划在 2026 年达到 1 万至 2 万台。平均价格在两年内从 8.5 万美元降至 2.5 万美元。宇树的 R1 售价为 5900 美元。Noetix Bumi 的上市价格为 1400 美元。人形机器人硬件的价格正在接近消费电子产品的价格水平,而其内部的 AI 技术仍然落后于演示产品。这种差距终将缩小,届时,市场规模的提升将对整个行业产生显著影响。

故障模式看起来很奇怪。当基于 LLM 的机器人出现故障时,它们的故障方式往往是传统机器人无法做到的。例如,自信地做错事、“幻觉般地”感知到某些功能、陷入与自身规划器的对话循环。传统机器人界对此抱有相当程度的怀疑,这种怀疑不无道理,他们坚持认为学习系统必须被安全监控和行为约束。目前最可靠的已部署机器人是混合型的:VLA 大脑被放置在手工设计的安全笼内。

“ChatGPT时刻”的叙事是一个有用但带误导性的比喻:黄仁勋一直在告诉所有人,机器人的 ChatGPT 时刻已经到来。他之所以这么说,是因为英伟达卖的是铲子和镐头。更诚实的版本是:目前大约处于物理 AI 的 GPT-2 时代。它很强大,能让你感到惊艳;但还不够强大,无法在无人看管的情况下进行部署。它正在快速迭代,但还没有迎来病毒式普及的爆发点,而是一个缓慢而坚定的上升轨迹。

结语

宇树四足机器人的演进历程(从右至左)

在宇树办公室看到的演示中,五个 G1 人形机器人表演武术,其动作经过精心编排,机载 VLA 式控制器进行微调,远程操作员则确保一切顺利进行。从根本上来说,它并非完全自主。但整个流程:感知、规划、运动控制,都在被神经网络所取代。两年后,同样的机器人无需编排就能完成同样的动作,因为它已经预先构思好了整个动作,并选择了最佳版本。

本文所描述的整个发展历程:从手工编写的控制器,到机器学习感知,再到 LLM 规划器,再到 VLA,再到双系统架构,最终到世界模型,实际上是机器人智能所在位置的缓慢转变。它始于工程师的头脑,然后演变为手工编写的代码,接着进入感知层,进入规划器,进入策略层。而现在,它最终正朝着学习世界本身的模型发展。

每一次转变都使机器人变得更加通用、更具适应性、更加有用。如果世界模型转变奏效,它将真正赋予机器人强大的能力:强大到足以让问题不再是“机器人能做什么?” ,而是“我们应该让它们做什么?”

相关阅读:盘点30多家人形机器人公司:谁能在2026年胜出?

你可能也喜歡

Zcash遭遇历史性暴跌，数十亿市值从市场中蒸发

隐私加密货币Zcash近日遭遇历史性暴跌，24小时内价格腰斩，市值蒸发约50亿美元，成为今年加密市场最严重的单日跌幅之一。暴跌主因与近期披露的一个安全漏洞有关。该漏洞存在于Zcash的Orchard隐私池中，自2022年5月起隐藏近四年未被发现。安全研究人员利用人工智能工具成功在本地测试中制造了伪造的ZEC代币。尽管漏洞已于6月2日修复，但由于Zcash的隐私设计，无法验证在修复前是否有伪造代币被秘密铸造，这与比特币可公开验证总供应量的模式形成对比。这种不确定性引发了市场恐慌性抛售。此事件凸显了隐私与透明度之间的根本权衡。为恢复市场信心，Zcash开发团队Shielded Labs正探索一项网络升级提案，旨在让参与者能够验证Zcash总供应量的完整性。项目方强调，其优势在于拥有顶尖的密码学家和安全研究团队，主动寻找漏洞是持续强化网络的一部分。他们将此次事件视为安全流程有效的证明，而非警报，并表示在复杂的Layer-1系统中，漏洞难以完全避免，关键是由顶级研究人员不断测试和加固系统以构建弹性基础设施。截至报道时，ZEC交易价格约为365美元。

bitcoinist1 小時前

bitcoinist1 小時前

BTC“数字黄金”的叙事是不是失败了？

这篇文章从三个核心问题探讨了比特币的现状与未来，强调提供的是思考框架而非投资建议。 **如何看待比特币资产？** 作者认为比特币是一种全新的、更优秀的“黄金”资产。其优势在于总量恒定、转移便捷、交易可审计。尽管早期与灰色地带关联，但合规化是趋势。目前全球数字货币渗透率仅3%-4%，类比互联网和电商的早期阶段，意味着比特币仍处于发展初期，潜力巨大但波动性也极高。 **如何理解本轮下跌？** 比特币自2025年10月高点（近12.6万美元）持续下跌，2026年2月一度跌破6.1万美元，单日跌幅达15%，随后又快速反弹。这被解读为遵循四年减半周期的共识性获利了结。特别之处在于，美国比特币ETF的批准引入了机构资金，也促使早期低成本持有者（如矿工和信仰者）进行大规模“换手”，这是资产迈向主流化的必经过程。历史数据显示，比特币历次大跌的幅度在收窄（从93%到当前的约50%），表明资产正在成熟，波动率逐步下降，但高波动仍是其获取超额回报的固有特征。 **长期如何看待发展？** 长期价值可对标黄金。当前比特币市值仅为黄金市值的约7%，若“数字黄金”叙事实现一半，上行空间依然显著。但作者提醒，短期市场脆弱，换手可能未完，底部无法预测。真正的风险并非资产归零（概率较低），而在于错误的仓位管理（如All-in或加杠杆）以及对资产缺乏深刻理解。投资者必须计算并承受潜在的最大回撤（例如从已跌50%的位置再跌50%），才能存活至长期价值兑现。文章最后以亚马逊在互联网泡沫后暴涨为例，指出关键不在于比特币未来是否上涨，而在于投资者能否通过理性的仓位管理和深度认知，扛过剧烈波动存活到那一天。文末提问引导读者反思：当前黄金涨、比特币跌的局面，究竟意味着“数字黄金”叙事失败，还是资产进化过程中的换手阵痛？这取决于每个人对比特币最底层的信仰。

marsbit2 小時前

BTC“数字黄金”的叙事是不是失败了？

标题：BTC“数字黄金”的叙事是不是失败了？作者：@wuk_Bitcoin 本文从三个核心问题出发，探讨比特币的现状与未来。 **如何看待比特币？** 作者认为比特币是一种全新的、更优秀的“黄金”类资产。其优势在于：总量恒定（2100万枚）；资产可转移性极强，在全球不确定性时代具备溢价；所有交易链上可审计，透明度高。反驳了比特币主要用于灰色地带的过时观点，指出其正走向合规。目前全球数字货币渗透率仅约3%-4%，类比互联网和电商早期，意味着该资产类别仍处早期，潜力与巨大波动并存。 **如何理解本轮下跌？** 比特币自2025年10月高点（近12.6万美元）持续下跌，2026年2月初曾单日暴跌15%，跌破6.1万美元。这被视为遵循其四年减半周期的规律性回调，是长期持有者在周期高点锁定利润的结果。本轮下跌的特殊性在于：美国比特币ETF的批准引入了大量机构新资金，但也促使成本极低的早期持有者（矿工、OG）进行历史性抛售，即从“早期信仰者”向“长期配置机构”的换手过程。历史数据显示，比特币历次大回撤的跌幅在逐步收窄（从93%到目前的约50%），表明资产在成熟，波动率在下降，但高波动仍是获取超额回报的代价。 **长期怎么看？** 若将比特币视为“数字黄金”，其当前总市值（约1.4万亿美元）仅为黄金总市值（约20万亿美元）的7%。即使该叙事仅部分实现，上行空间依然可观。但作者强调短期风险：换手可能未结束，市场脆弱，不排除进一步下跌。真正的风险不在于资产归零（概率极低），而在于错误的仓位管理（如All-in、加杠杆）和对资产缺乏深度理解，这可能导致投资者无法承受巨大波动而提前被迫出局。 **最后对比** 作者以亚马逊在互联网泡沫破裂后股价跌95%又最终上涨42倍为例，指出关键在于“活着等到那一天”。对于比特币，核心同样是能否通过理性仓位管理活到其价值兑现之时。文末提问：当黄金大涨而比特币大跌，这究竟是“数字黄金”叙事的失败，还是资产进化过程中的阵痛？答案取决于每个人对比特币最底层的信仰。

链捕手2 小時前

AI 泡沫正在破裂

近期市场剧烈波动，“AI泡沫论”甚嚣尘上。桥水达利欧认为AI市场存在“相对较高”的泡沫，而英伟达黄仁勋则强调AI算力需求才刚刚开始。两者观点看似矛盾，实则揭示了技术革命初期的典型特征：市场因高估短期影响而产生泡沫，却往往低估其长期颠覆性力量。回顾2000年互联网泡沫，纳指暴跌78%，超5万亿美元财富蒸发，大量公司破产。然而，泡沫破裂后留下的廉价电信基础设施（如海底光缆），却成为日后流媒体、云计算乃至移动互联网崛起的基石。这符合“阿玛拉定律”：人们高估技术的短期影响，低估其长期影响。泡沫是创新必须缴纳的“智商税”，其破裂能淘汰投机者，沉淀下坚固的基础设施，滋养真正伟大的公司。当前AI行业同样呈现巨大的“投入-产出”不对称：2026年，五大云服务商的AI基础设施资本开支预计达6900亿美元，而头部纯AI厂商的总收入预计不超过400亿美元。但深层逻辑正在演变：AI推理成本在两年内暴跌超过99.7%，接近零的边际成本解锁了海量长尾需求，驱动企业AI支出翻倍增长。这印证了“杰文斯悖论”——效率提升导致总消耗量指数级上升。如今，各行业关心的已非“是否用AI”，而是如何更有效地整合AI。市场已进入“幻灭的低谷”前夕，缺乏护城河的套壳公司正批量死亡，这是市场的自我净化。与此同时，价值转移正在发生：1. 从资本开支（CapEx，如硬件）向运营开支（OpEx，如解决垂直行业痛点的应用）转移；2. 高估值正被高速增长的业绩逐步消化。AI已深入制造业（缩短研发周期）、金融（微秒级定价）、法律、医疗等专业领域，成为实质性的生产力工具。历史总在重演“创造性毁灭”。当下近7000亿美元的基建投资短期内无法全部转化为利润，市场洗牌不可避免。但洗牌之后，廉价的算力与高度优化的算法将赋能千行百业。正如互联网泡沫后我们迎来了数字时代，AI泡沫的喧嚣过后，我们将不可逆转地迈向一个所有行业都由AI深度赋能的智能全盛时代。泡沫终会破裂，但底层先进生产力的势能，没有水分。

链捕手2 小時前

AI 泡沫正在破裂

近期市场对“AI泡沫论”讨论激烈。桥水基金创始人达利欧认为AI市场存在较高泡沫，而英伟达CEO黄仁勋则强调算力需求刚起步。两者观点看似矛盾，实则反映了技术革命初期的典型特征：短期存在投机泡沫，但长期看，AI是颠覆性的先进生产力。文章以2000年互联网泡沫类比。当时大量.com公司破产，纳指暴跌，但泡沫破裂后留下的廉价基础设施（如光缆）滋养了后来的谷歌、亚马逊等巨头，推动了互联网时代的真正繁荣。这体现了“阿玛拉定律”——人们高估技术的短期影响，低估其长期影响。当前AI领域同样存在巨大投入与收入不匹配的现象。2026年，主要云服务商的AI基础设施投资预计达6900亿美元，而头部AI公司的总收入仅约400亿美元。然而，这不能简单视为泡沫破裂的信号。关键变化在于AI推理成本急剧下降，两年内降幅超99.7%，这反而激发了海量的新应用需求，企业AI支出大幅增长。这符合“杰文斯悖论”：效率提升导致成本下降，进而刺激总需求上升。如今，AI已深入各行各业，从生物医药到制造业，企业关注点已从“是否用AI”转向如何优化应用。市场正在进行自然净化，淘汰缺乏核心竞争力的套壳公司，价值将从基础设施层（CapEx）向解决实际问题的应用层（OpEx）转移。尽管资本市场可能出现波动和估值调整，但AI技术本身正在扎实地提升各行业效率，例如缩短研发周期、优化金融服务等。如同互联网泡沫后开启了数字时代，当前AI领域的调整是为未来智能时代铺路。泡沫终会消退，但AI驱动的生产力革命已不可逆转。

marsbit2 小時前

交易

現貨

合約

熱門文章

什麼是 GROK AI

Grok AI: 在 Web3 時代革命性改變對話技術介紹在快速演變的人工智能領域，Grok AI 作為一個值得注意的項目脫穎而出，橋接了先進技術與用戶互動的領域。Grok AI 由 xAI 開發，該公司由著名企業家 Elon Musk 領導，旨在重新定義我們與人工智能的互動方式。隨著 Web3 運動的持續蓬勃發展，Grok AI 旨在利用對話 AI 的力量回答複雜的查詢，為用戶提供不僅具資訊性而且具娛樂性的體驗。 Grok AI 是什麼？ Grok AI 是一個複雜的對話 AI 聊天機器人，旨在與用戶進行動態互動。與許多傳統 AI 系統不同，Grok AI 接納更廣泛的查詢，包括那些通常被視為不恰當或超出標準回應的問題。該項目的核心目標包括：可靠推理：Grok AI 強調常識推理，根據上下文理解提供邏輯答案。可擴展監督：整合工具協助確保用戶互動既受到監控又優化質量。正式驗證：安全性至關重要；Grok AI 採用正式驗證方法來增強其輸出的可靠性。長上下文理解：該 AI 模型在保留和回憶大量對話歷史方面表現出色，促進有意義且具上下文意識的討論。對抗魯棒性：通過專注於改善其對操控或惡意輸入的防禦，Grok AI 旨在維護用戶互動的完整性。總之，Grok AI 不僅僅是一個信息檢索設備；它是一個沉浸式的對話夥伴，鼓勵動態對話。 Grok AI 的創建者 Grok AI 的腦力來源無疑是 Elon Musk，這個名字與各個領域的創新息息相關，包括汽車、太空旅行和技術。在專注於以有益方式推進 AI 技術的 xAI 旗下，Musk 的願景旨在重塑對 AI 互動的理解。其領導力和基礎理念深受 Musk 推動技術邊界的承諾影響。 Grok AI 的投資者雖然有關支持 Grok AI 的投資者的具體細節仍然有限，但公開承認 xAI 作為該項目的孵化器，主要由 Elon Musk 本人創立和支持。Musk 之前的企業和持股為 Grok AI 提供了強有力的支持，進一步增強了其可信度和增長潛力。然而，目前有關支持 Grok AI 的其他投資基金或組織的信息尚不易獲得，這標誌著未來潛在探索的領域。 Grok AI 如何運作？ Grok AI 的運作機制與其概念框架一樣創新。該項目整合了幾種尖端技術，以促進其獨特的功能：強大的基礎設施：Grok AI 使用 Kubernetes 進行容器編排，Rust 提供性能和安全性，JAX 用於高性能數值計算。這三者確保了聊天機器人的高效運行、有效擴展和及時服務用戶。實時知識訪問：Grok AI 的一個顯著特點是其通過 X 平台（以前稱為 Twitter）訪問實時數據的能力。這一能力使 AI 能夠獲取最新信息，從而提供及時的答案和建議，而其他 AI 模型可能會錯過這些信息。兩種互動模式：Grok AI 為用戶提供“趣味模式”和“常規模式”之間的選擇。趣味模式允許更具玩樂性和幽默感的互動風格，而常規模式則專注於提供精確和準確的回應。這種多樣性確保了根據不同用戶偏好量身定制的體驗。總之，Grok AI 將性能與互動相結合，創造出既豐富又娛樂的體驗。 Grok AI 的時間線 Grok AI 的旅程標誌著反映其發展和部署階段的關鍵里程碑：初始開發：Grok AI 的基礎階段持續了約兩個月，在此期間進行了模型的初步訓練和微調。 Grok-2 Beta 發布：在一個重要的進展中，Grok-2 beta 被宣布。這一版本推出了兩個版本的聊天機器人——Grok-2 和 Grok-2 mini，均具備聊天、編碼和推理的能力。公眾訪問：在其 beta 開發之後，Grok AI 向 X 平台用戶開放。那些通過手機號碼驗證並活躍至少七天的帳戶可以訪問有限版本，使這項技術能夠接觸到更廣泛的受眾。這一時間線概括了 Grok AI 從創建到公眾參與的系統性增長，強調其對持續改進和用戶互動的承諾。 Grok AI 的主要特點 Grok AI 包含幾個關鍵特點，促成其創新身份：實時知識整合：訪問當前和相關信息使 Grok AI 與許多靜態模型區別開來，從而提供引人入勝和準確的用戶體驗。多樣化的互動風格：通過提供不同的互動模式，Grok AI 滿足各種用戶偏好，邀請創造力和個性化的對話。先進的技術基礎：利用 Kubernetes、Rust 和 JAX 為該項目提供了堅實的框架，以確保可靠性和最佳性能。倫理話語考量：包含圖像生成功能展示了該項目的創新精神。然而，它也引發了有關版權和尊重可識別人物描繪的倫理考量——這是 AI 社區內持續討論的議題。結論作為對話 AI 領域的先驅，Grok AI 概括了數字時代轉變用戶體驗的潛力。由 xAI 開發，並受到 Elon Musk 願景的驅動，Grok AI 將實時知識與先進的互動能力相結合。它努力推動人工智能能夠達成的界限，同時保持對倫理考量和用戶安全的關注。 Grok AI 不僅體現了技術的進步，還體現了 Web3 環境中新對話範式的出現，承諾以靈活的知識和玩樂的互動吸引用戶。隨著該項目的持續演變，它成為技術、創造力和類人互動交匯處所能實現的見證。

732 人學過發佈於 2024.12.26更新於 2024.12.26

什麼是 ERC AI

Euruka Tech：$erc ai 及其在 Web3 中的雄心概述介紹在快速發展的區塊鏈技術和去中心化應用的環境中，新項目頻繁出現，每個項目都有其獨特的目標和方法論。其中一個項目是 Euruka Tech，該項目在加密貨幣和 Web3 的廣闊領域中運作。Euruka Tech 的主要焦點，特別是其代幣 $erc ai，是提供旨在利用去中心化技術日益增長的能力的創新解決方案。本文旨在提供 Euruka Tech 的全面概述，探索其目標、功能、創建者的身份、潛在投資者以及它在更廣泛的 Web3 背景中的重要性。 Euruka Tech, $erc ai 是什麼？ Euruka Tech 被描述為一個利用 Web3 環境提供的工具和功能的項目，專注於在其運作中整合人工智能。雖然有關該項目框架的具體細節仍然有些模糊，但它旨在增強用戶參與度並自動化加密空間中的流程。該項目的目標是創建一個去中心化的生態系統，不僅促進交易，還通過人工智能整合預測功能，因此其代幣被命名為 $erc ai。其目的是提供一個直觀的平台，促進更智能的互動和高效的交易處理，並在不斷增長的 Web3 領域中發揮作用。 Euruka Tech, $erc ai 的創建者是誰？目前，關於 Euruka Tech 背後的創建者或創始團隊的信息仍然不明確且有些模糊。這一數據的缺失引發了擔憂，因為了解團隊背景通常對於在區塊鏈行業建立信譽至關重要。因此，我們將這些信息歸類為未知，直到具體細節在公共領域中公開。 Euruka Tech, $erc ai 的投資者是誰？同樣，關於 Euruka Tech 項目的投資者或支持組織的識別在現有研究中並未明確提供。對於考慮參與 Euruka Tech 的潛在利益相關者或用戶來說，來自知名投資公司的財務合作或支持所帶來的保證是至關重要的。沒有關於投資關係的披露，很難對該項目的財務安全性或持久性得出全面的結論。根據所找到的信息，本節也處於未知的狀態。 Euruka Tech, $erc ai 如何運作？儘管缺乏有關 Euruka Tech 的詳細技術規範，但考慮其創新雄心是至關重要的。該項目旨在利用人工智能的計算能力來自動化和增強加密貨幣環境中的用戶體驗。通過將 AI 與區塊鏈技術相結合，Euruka Tech 旨在提供自動交易、風險評估和個性化用戶界面等功能。 Euruka Tech 的創新本質在於其目標是創造用戶與去中心化網絡所提供的廣泛可能性之間的無縫連接。通過利用機器學習算法和 AI，它旨在減少首次用戶的挑戰，並簡化 Web3 框架內的交易體驗。AI 與區塊鏈之間的這種共生關係突顯了 $erc ai 代幣的重要性，成為傳統用戶界面與去中心化技術的先進能力之間的橋樑。 Euruka Tech, $erc ai 的時間線不幸的是，由於目前有關 Euruka Tech 的信息有限，我們無法提供該項目旅程中主要發展或里程碑的詳細時間線。這條時間線通常對於描繪項目的演變和理解其增長軌跡至關重要，但目前尚不可用。隨著有關顯著事件、合作夥伴關係或功能添加的信息變得明顯，更新將無疑增強 Euruka Tech 在加密領域的可見性。關於其他 “Eureka” 項目的澄清值得注意的是，多個項目和公司與 “Eureka” 共享類似的名稱。研究已經識別出一些倡議，例如 NVIDIA Research 的 AI 代理，專注於使用生成方法教導機器人複雜任務，以及 Eureka Labs 和 Eureka AI，分別改善教育和客戶服務分析中的用戶體驗。然而，這些項目與 Euruka Tech 是不同的，不應與其目標或功能混淆。結論 Euruka Tech 及其 $erc ai 代幣在 Web3 領域中代表了一個有前途但目前仍不明朗的參與者。儘管有關其創建者和投資者的細節仍未披露，但將人工智能與區塊鏈技術相結合的核心雄心仍然是關注的焦點。該項目在通過先進自動化促進用戶參與方面的獨特方法，可能會使其在 Web3 生態系統中脫穎而出。隨著加密市場的持續演變，利益相關者應密切關注有關 Euruka Tech 的進展，因為文檔創新、合作夥伴關係或明確路線圖的發展可能在未來帶來重大機會。當前，我們期待更多實質性見解的出現，以揭示 Euruka Tech 的潛力及其在競爭激烈的加密市場中的地位。

641 人學過發佈於 2025.01.02更新於 2025.01.02

什麼是 DUOLINGO AI

DUOLINGO AI：將語言學習與Web3及AI創新結合在科技重塑教育的時代，人工智能（AI）和區塊鏈網絡的整合預示著語言學習的新前沿。進入DUOLINGO AI及其相關的加密貨幣$DUOLINGO AI。這個項目旨在將領先語言學習平台的教育優勢與去中心化的Web3技術的好處相結合。本文深入探討DUOLINGO AI的關鍵方面，探索其目標、技術框架、歷史發展和未來潛力，同時保持原始教育資源與這一獨立加密貨幣倡議之間的清晰區分。 DUOLINGO AI概述 DUOLINGO AI的核心目標是建立一個去中心化的環境，讓學習者可以通過實現語言能力的教育里程碑來獲得加密獎勵。通過應用智能合約，該項目旨在自動化技能驗證過程和代幣分配，遵循強調透明度和用戶擁有權的Web3原則。該模型與傳統的語言習得方法有所不同，重點依賴社區驅動的治理結構，讓代幣持有者能夠建議課程內容和獎勵分配的改進。 DUOLINGO AI的一些顯著目標包括：遊戲化學習：該項目整合區塊鏈成就和非同質化代幣（NFT）來表示語言能力水平，通過引人入勝的數字獎勵來激發學習動機。去中心化內容創建：它為教育者和語言愛好者提供了貢獻課程的途徑，促進了一個有利於所有貢獻者的收益共享模型。 AI驅動的個性化：通過採用先進的機器學習模型，DUOLINGO AI個性化課程以適應個別學習進度，類似於已建立平台中的自適應功能。項目創建者與治理截至2025年4月，$DUOLINGO AI背後的團隊仍然是化名的，這在去中心化的加密貨幣領域中是一種常見做法。這種匿名性旨在促進集體增長和利益相關者的參與，而不是專注於個別開發者。部署在Solana區塊鏈上的智能合約註明了開發者的錢包地址，這表明對於交易的透明度的承諾，儘管創建者的身份未知。根據其路線圖，DUOLINGO AI旨在演變為去中心化自治組織（DAO）。這種治理結構允許代幣持有者對關鍵問題進行投票，例如功能實施和財庫分配。這一模型與各種去中心化應用中社區賦權的精神相一致，強調集體決策的重要性。投資者與戰略夥伴關係目前，沒有與$DUOLINGO AI相關的公開可識別的機構投資者或風險投資家。相反，該項目的流動性主要來自去中心化交易所（DEX），這與傳統教育科技公司的資金策略形成鮮明對比。這種草根模型表明了一種社區驅動的方法，反映了該項目對去中心化的承諾。在其白皮書中，DUOLINGO AI提到與未具名的「區塊鏈教育平台」建立合作，以豐富其課程提供。雖然具體的合作夥伴尚未披露，但這些合作努力暗示了一種將區塊鏈創新與教育倡議相結合的策略，擴大了對多樣化學習途徑的訪問和用戶參與。技術架構 AI整合 DUOLINGO AI整合了兩個主要的AI驅動組件，以增強其教育產品：自適應學習引擎：這個複雜的引擎從用戶互動中學習，類似於主要教育平台的專有模型。它動態調整課程難度，以應對特定學習者的挑戰，通過針對性的練習加強薄弱環節。對話代理：通過使用基於GPT-4的聊天機器人，DUOLINGO AI為用戶提供了一個參與模擬對話的平台，促進更互動和實用的語言學習體驗。區塊鏈基礎設施建立在Solana區塊鏈上的$DUOLINGO AI利用了一個全面的技術框架，包括：技能驗證智能合約：此功能自動向成功通過能力測試的用戶頒發代幣，加強了對真實學習成果的激勵結構。 NFT徽章：這些數字代幣標誌著學習者達成的各種里程碑，例如完成課程的一部分或掌握特定技能，允許他們以數字方式交易或展示自己的成就。 DAO治理：持有代幣的社區成員可以通過對關鍵提案進行投票來參與治理，促進一種鼓勵課程提供和平台功能創新的參與文化。歷史時間線 2022–2023：概念化 DUOLINGO AI的基礎工作始於白皮書的創建，強調了語言學習中的AI進步與區塊鏈技術去中心化潛力之間的協同作用。 2024：Beta發佈限量的Beta版本推出了流行語言的課程，作為項目社區參與策略的一部分，獎勵早期用戶以代幣激勵。 2025：DAO過渡在4月，進行了完整的主網發佈，並開始流通代幣，促使社區討論可能擴展到亞洲語言和其他課程開發的問題。挑戰與未來方向技術障礙儘管有雄心勃勃的目標，DUOLINGO AI面臨著重大挑戰。可擴展性仍然是一個持續的擔憂，特別是在平衡與AI處理相關的成本和維持響應靈敏的去中心化網絡方面。此外，在去中心化的提供中確保內容創建和審核的質量，對於維持教育標準來說也帶來了複雜性。戰略機會展望未來，DUOLINGO AI有潛力利用與學術機構的微證書合作，提供區塊鏈驗證的語言技能認證。此外，跨鏈擴展可能使該項目能夠接觸到更廣泛的用戶基礎和其他區塊鏈生態系統，增強其互操作性和覆蓋範圍。結論 DUOLINGO AI代表了人工智能和區塊鏈技術的創新融合，為傳統語言學習系統提供了一種以社區為中心的替代方案。儘管其化名開發和新興經濟模型帶來某些風險，但該項目對遊戲化學習、個性化教育和去中心化治理的承諾為Web3領域的教育技術指明了前進的道路。隨著AI的持續進步和區塊鏈生態系統的演變，像DUOLINGO AI這樣的倡議可能會重新定義用戶與語言教育的互動方式，賦能社區並通過創新的學習機制獎勵參與。

663 人學過發佈於 2025.04.11更新於 2025.04.11

从代码到认知：机器人大脑进化的万字指南

文章摘要

一:前 LLM 时代 :当机器人还只是软件的时候

二:机器学习悄然介入

三:LLM 在机器人领域的应用

四:视觉-语言-动作模型(VLA),当大脑开始驱动机器人

五:双脑策略,LLM 和 VLA 如何协同工作

六:云、边缘计算以及“大脑”的放置问题

七:为什么开源模型悄然成为焦点

八:还有哪些问题尚未解决

九:世界模型

十:替代架构,因为该领域尚未定论

十一:基于世界模型的机器人实际应用

十二:还应该知道的事

结语

相關問答

你可能也喜歡

Zcash遭遇历史性暴跌，数十亿市值从市场中蒸发

BTC“数字黄金”的叙事是不是失败了？

BTC“数字黄金”的叙事是不是失败了？

AI 泡沫正在破裂

AI 泡沫正在破裂

交易

熱門文章

什麼是 GROK AI

什麼是 ERC AI

什麼是 DUOLINGO AI

相關討論

熱門問答

熱門分類

熱門標籤