a16z:AI的下一个前沿,机器人、自主科学、脑机接口的三重飞轮

marsbit發佈於 2026-04-18更新於 2026-04-18

文章摘要

a16z研究员Oliver Hsu提出,AI发展的下一个前沿是“物理AI”,其核心由通用机器人、自主科学和新型人机接口(如脑机接口)三大领域构成,它们将形成相互促进的“结构性飞轮”。当前AI以语言和代码为核心,但物理AI能更直接地与现实世界互动,潜力巨大。 这一转型依赖于五大技术原语: 1. **物理动力学的学习表征**:让AI理解物体运动、受力反应等物理规律; 2. **面向具身动作的架构**:将高层指令转化为可靠、实时的物理动作; 3. **仿真与合成数据基础设施**:低成本生成多样化训练数据,突破物理数据采集瓶颈; 4. **扩展感官通道**:整合触觉、神经信号、嗅觉等新模态,提升交互维度; 5. **闭环智能体系统**:实现感知-推理-动作的自主持续运行。 三大应用领域共享这些原语,并相互强化: - **机器人**:在真实环境中执行复杂任务,反哺世界模型优化; - **自主科学**:AI驱动实验(如材料、生命科学),产出结构化、已验证的物理数据; - **新型接口**:包括AR眼镜、脑机接口等,扩展人机交互带宽并生成海量物理交互数据。 这些领域将共同推动AI从数字世界走向物理世界,涌现出新能力,开启下一代颠覆性创新。

深潮导读: 这篇文章来自 a16z 研究员 Oliver Hsu,是 2026 年以来最系统的一份「物理 AI」投资地图。他的判断是:语言/代码这条主线仍在 scaling,但真正能跑出下一代颠覆性能力的,是紧挨着主线的三个领域——通用机器人、自主科学(AI 科学家)、脑机接口等新型人机接口。作者拆解了支撑它们的五个底层能力,并论证这三条战线之间会形成相互喂养的结构性飞轮。对想看清物理 AI 投资逻辑的人,这是目前最完整的框架。

今天主导 AI 的范式,围绕语言和代码组织。大语言模型的 scaling law 已经被刻画得很清楚,数据、算力、算法改进的商业飞轮正在转动,能力每上一个台阶带来的回报仍然很大,而且这些回报大部分是看得见的。这套范式配得上它吸走的资本和注意力。

但另一批毗邻领域,已经在孕育期里做出了实质进展。这里包括 VLA(视觉-语言-动作模型)、WAM(世界动作模型)等通用机器人路线,围绕「AI 科学家」展开的物理与科学推理,以及利用 AI 进展重塑人机交互的新型接口(包含脑机接口和神经科技)。

除了技术本身,这几个方向都开始吸引到人才、资本和创始人。把前沿 AI 延伸到物理世界的技术原语正在同时成熟,过去 18 个月的进展说明这些领域很快会进入各自的 scaling 阶段。

在任何一个技术范式里,当前能力和中期潜力之间 delta 最大的地方,往往具备两个特征:一是能吃到驱动当前前沿的同一套 scaling 红利,二是离主流范式又有一步距离——近到能继承它的基础设施和研究动能,远到需要做实打实的额外工作。

这段距离本身就有双重作用:它自然形成了对快速跟随者的护城河,同时也定义了一个信息更稀、更不拥挤的问题空间,因此更可能涌现新能力——恰恰因为捷径还没被走完。

今天符合这一描述的有三个领域:机器人学习、自主科学(尤其是材料和生命科学方向)、以及新型人机接口(包括脑机接口、无声语音、神经可穿戴,以及像数字化嗅觉这样的新感官通道)。

它们并非完全独立的工作,主题上属于同一群「物理世界的前沿系统」。它们共享一套底层原语:物理动力学的学习表征、面向具身动作的架构、仿真与合成数据基础设施、不断扩展的感官通道、以及闭环的智能体编排。它们在跨领域的反馈关系中彼此强化。它们也是最可能涌现出质变能力的地方——模型规模、物理落地、新数据形态三者交互的产物。

本文将梳理支撑这些系统的技术原语,说明为什么这三个领域代表了前沿机会,并提出它们之间的相互强化构成一个结构性飞轮,把 AI 推向物理世界。

五个底层原语

在看具体应用之前,先理解这些前沿系统共享的技术底座。把前沿 AI 推进到物理世界,靠的是五个主要原语。这些技术不专属于任何单一应用领域,它们是构件——能让「把 AI 延伸到物理世界」的系统被造出来。它们的同步成熟,是当下这个时刻之所以特别的原因。

原语一:物理动力学的学习表征

最根本的一个原语,是能学出一套压缩的、通用的物理世界行为表征——物体如何运动、形变、碰撞、对受力如何反应。没有这一层,每个物理 AI 系统都得从零学起自己领域的物理规律,这个成本没人付得起。

好几个架构流派正在从不同方向逼近这个目标。VLA 模型从上层切入:拿预训练好的视觉-语言模型——这类模型已经具备对物体、空间关系和语言的语义理解——在它们上面加一个动作解码器输出运动控制指令。

关键点在于,学会「看」和「理解世界」的巨额成本可以被互联网规模的图文预训练摊薄。Physical Intelligence 的 π0、Google DeepMind 的 Gemini Robotics、英伟达的 GR00T N1,都在越来越大的规模上验证了这种架构。

WAM 模型则从下层切入:基于在互联网规模视频上预训练的视频扩散 Transformer,继承对物理动力学的丰富先验(物体怎么下落、怎么被遮挡、受力后怎么互动),再把这些先验和动作生成耦合起来。

英伟达的 DreamZero 展示了对全新任务和环境的零样本泛化,用少量适配数据就能从人类视频演示中做跨本体迁移,真实世界泛化能力拿到了有意义的提升。

第三条路线或许对判断未来方向最有启发,它把预训练 VLM 和视频扩散骨干整个跳过。Generalist 的 GEN-1 是一个从头训练的原生具身基础模型,训练数据是超过 50 万小时的真实物理交互数据,主要通过低成本可穿戴设备从执行日常操作任务的人身上收集。

它不是标准意义上的 VLA(没有一个视觉-语言骨干在被微调),也不是 WAM。它就是一个专为物理交互设计的基础模型,从零开始,学的不是互联网图像、文本或视频的统计规律,而是人与物体接触的统计规律。

像 World Labs 这类公司在做的空间智能,对这个原语有价值,因为它补上了 VLA、WAM 和原生具身模型共同的短板:三者都没有显式建模所处场景的三维结构。

VLA 继承的是图文预训练的 2D 视觉特征;WAM 从视频里学动力学,视频本身是 3D 的 2D 投影;从穿戴传感器数据学习的模型能捕捉力和运动学,但捕捉不了场景几何。空间智能模型能帮补上这块——学会重建、生成物理环境的完整 3D 结构并对它推理:几何、光照、遮挡、物体关系、空间布局。

各条路线的收敛本身就是重点。不管表征是从 VLM 继承、从视频协同训练中学出来、还是原生从物理交互数据里搭出来的,底层原语是同一个:压缩的、可迁移的物理世界行为模型。

这些表征能吃到的数据飞轮非常庞大,大部分还没动——不只是互联网视频和机器人轨迹,还有可穿戴设备正在开始规模化采集的那片海量人类身体经验语料。同一套表征既能服务一个正在学叠毛巾的机器人,也能服务一个在预测反应结果的自主实验室,还能服务一个正在解读运动皮层抓握意图的神经解码器。

原语二:面向具身动作的架构

光有物理表征不够。把「理解」翻译成可靠的物理动作,需要架构去解决几个相互关联的问题:把高层意图映射到连续运动指令、在长动作序列上保持一致性、在实时延迟约束下运行、以及随经验持续提升。

双系统分层架构已经成了复杂具身任务的标准设计:慢而强的视觉-语言模型负责场景理解和任务推理(System 2),配上一个快而轻的视觉-运动策略负责实时控制(System 1)。GR00T N1、Gemini Robotics、Figure 的 Helix 都采用这种路线的变体,解决了「大模型提供丰富推理」和「物理任务要求毫秒级控制频率」之间的根本张力。Generalist 则走了另一条路,用「谐振推理」让思考和动作同时发生。

动作生成机制本身也在快速演化。π0 开创的基于流匹配和扩散的动作头,已经成为生成平滑、高频连续动作的主流方法,取代了从语言建模借来的离散 tokenization。这类方法把动作生成当成一个类似图像合成的去噪过程,产出的轨迹物理上更平滑、对误差累积更稳健,优于自回归 token 预测。

但架构层面最关键的进展,可能是把强化学习扩展到预训练 VLA 上——一个在示范数据上训练出来的基础模型,可以通过自主练习继续提升,就像人通过反复练习和自我修正打磨一项技能。Physical Intelligence 的 π*0。6 工作是对这一原则的最清晰规模化演示。他们的方法叫 RECAP(基于优势条件策略的经验与修正强化学习),解决的问题是纯模仿学习没法搞定的长序列信用分配。

一个机器人如果以略微偏斜的角度抓起了意式咖啡机的手柄,失败不会立即出现,可能到几步之后插入时才暴露。模仿学习没机制把这次失败归因到更早那次抓取上,RL 有。RECAP 训练一个价值函数,估计从任意中间状态开始成功的概率,然后让 VLA 选择高优势动作。关键在于,它把多种异质数据——示范数据、在策略自主经验、执行过程中专家远程操作提供的修正——整合进同一个训练管线。

这套方法的结果对 RL 在动作领域的前景是个好消息。π*0.6 在真实家庭环境中叠 50 种从未见过的衣物、可靠地组装纸箱、在专业机器上制作意式咖啡,连续运行几个小时无需人介入。在最难的任务上,RECAP 相对纯模仿基线把吞吐翻了一倍多,失败率砍掉一半以上。这套系统还证明了 RL 后训练会产生模仿学习得不到的质变行为:更平滑的恢复动作、更高效的抓取策略、示范数据里不存在的自适应纠错。

这些收益说明一件事:把大模型从 GPT-2 推到 GPT-4 的算力 scaling 动力,正开始在具身领域运转——只是现在位于曲线更早的位置,动作空间是连续的、高维的,并且要面对物理世界那些毫不留情的约束

原语三:作为 scaling 基础设施的仿真与合成数据

在语言领域,数据问题被互联网解决了:自然产生、免费可得的万亿级 token 文本。在物理世界,这个问题难上几个数量级——这一点现在已经是共识,最直接的信号是针对物理世界的数据供应商创业公司正在迅速增加。

真实世界的机器人轨迹采集成本高、规模化有风险、多样性有限。一个语言模型可以从十亿次对话中学习,一个机器人(暂时)没办法有十亿次物理交互。

仿真和合成数据生成是解决这一约束的基础设施层,它们的成熟是物理 AI 在今天而不是五年前加速的关键原因之一。

现代仿真栈把基于物理的仿真引擎、基于光线追踪的照片级渲染、程序化环境生成、以及用仿真输入生成照片级视频的世界基础模型组合在了一起——后者负责弥合 sim-to-real 的鸿沟。整条管线从真实环境的神经重建(只用一部手机就能做)开始,填充物理精确的 3D 资产,再到带自动标注的大规模合成数据生成。

仿真栈的改进意义在于,它在改变支撑物理 AI 的经济假设。如果物理 AI 的瓶颈从「收集真实数据」转向「设计多样虚拟环境」,成本曲线就会垮下来。仿真随算力扩展,不靠人力和物理硬件。这对训练物理 AI 系统的经济结构的改造,跟互联网文本数据对训练语言模型的改造是同一种——意味着对仿真基础设施的投资对整个生态杠杆极大。

但仿真不只是机器人原语。同一套基础设施服务于自主科学(实验室设备的数字孪生、假设预筛用的仿真反应环境)、新型接口(训练 BCI 解码器的仿真神经环境、标定新传感器的合成感官数据)、以及其他 AI 与物理世界交互的领域。仿真是物理世界 AI 的通用数据引擎。

原语四:扩展感官通道

物理世界传递信息的信号,远比视觉和语言丰富。触觉传递材料属性、抓握稳定性、接触几何等摄像头看不到的信息。神经信号以任何现有人机接口都远远不及的带宽编码运动意图、认知状态、感知经验。亚声带肌肉活动在任何声音产生之前就编码了言语意图。第四个原语,是 AI 对这些此前难以触达模态的感官通路快速扩展——不只来自研究,也来自一整个构建消费级设备、软件和基础设施的生态。

最直观的指标是新品类设备的出现。AR 设备近几年在体验和形态上大幅改善(已经有公司在这个平台上做消费和工业场景的应用);语音优先的 AI 可穿戴让语言类 AI 拿到了更完整的物理世界上下文——它们真的跟着用户走进物理环境。

长期来看,神经接口可能打开更完整的交互模态。AI 带来的计算方式转变,创造了一个让人机交互大幅升级的机会,Sesame 这样的公司正在为此打造新的模态和设备。

语音这种更主流的模态,也为新兴交互方式带来顺风车。像 Wispr Flow 这类产品把语音推成主要输入方式(因为它信息密度高,有天然优势),无声语音接口的市场条件也跟着改善。无声语音设备用多种传感器捕捉舌头和声带动作,无声识别语言——它代表一种比语音信息密度更高的人机交互模态。

脑机接口(有创和非侵入式)代表更深的前沿,围绕它的商业生态持续推进。信号会出现在临床验证、监管批准、平台整合、机构资本四者的汇合点上——而这是几年前还纯粹属于学术领域的一个技术品类。

触觉感知正进入具身 AI 架构,机器人学习里的一些模型开始把触觉作为一等公民显式纳入。嗅觉接口正在变成真实的工程产物:可穿戴嗅觉显示器用微型气味发生器、毫秒级响应,已经在混合现实应用里被演示;嗅觉模型也开始跟视觉 AI 系统配对,用于化工过程监控。

这些发展的共同规律是:它们在极限下会彼此收敛。AR 眼镜持续生成用户和物理环境交互的视觉和空间数据;EMG 腕带捕捉人类运动意图的统计规律;无声语音接口捕捉亚声带发音到语言输出的映射;BCI 以目前最高分辨率捕捉神经活动;触觉传感器捕捉物理操作的接触动力学。每一个新品类设备同时也是一个数据生成平台,喂养着多个应用领域底层的模型。

一个用 EMG 推断运动意图数据训练的机器人,和一个只靠远程操作数据训练的机器人,学到的抓握策略不一样;一个响应亚声带指令的实验室接口,和一个键盘控制的实验室,带来的科学家-机器交互方式完全不同;一个用高密度 BCI 数据训练的神经解码器,能产出任何其他渠道都拿不到的运动规划表征。

这些设备的扩散正在扩展训练前沿物理 AI 系统可用数据流形的有效维度——并且这种扩展很大一部分由资本充裕的消费品公司驱动,而非只来自学术实验室,意味着数据飞轮能跟着市场采纳率一起扩张。

原语五:闭环智能体系统

最后一个原语更偏架构层面。它指的是把感知、推理、动作编排成持续、自主、闭环运转的系统,在长时间维度上无人介入地工作。

在语言模型里,对应的发展是智能体系统的兴起——多步推理链、工具使用、自我纠正流程,把模型从单轮问答工具推到了自主问题解决者。在物理世界,同样的转变正在发生,只是要求苛刻得多。一个语言智能体出错可以无成本回退;一个物理智能体打翻一瓶试剂就回不去了。

物理世界的智能体系统有三个特性把它和数字版区分开来。

第一,它们需要嵌入实验或运行闭环:直接对接原始仪器数据流、物理状态传感器和执行原语,让推理落在物理现实上,而不是物理现实的文字描述上。

第二,它们需要长序列持久性:记忆、溯源追踪、安全监控、恢复行为,把多个运行周期连起来,而不是把每个任务当成独立插曲。

第三,它们需要闭环适应:根据物理结果修订策略,而不是只根据文字反馈。

这个原语把一个个独立能力(好的世界模型、可靠的动作架构、丰富的传感器套件)融合成能在物理世界自主运转的完整系统。它是集成层,它的成熟是下文三个应用领域能作为真实世界部署而非孤立研究演示存在的前提。

三个领域

上面这些原语是通用的使能层,它们本身并不指定最重要的应用会长在哪里。很多领域都涉及物理动作、物理测量或物理感知。把「前沿系统」和「仅仅是改良版现有系统」区分开的,是领域内模型能力提升和 scaling 基础设施发生复利的程度——不只是性能更好,而是涌现出以前做不到的新能力。

机器人、AI 驱动科学、新型人机接口是这种复利效应最强的三个领域。每一个都用独特方式把原语组装起来,每一个都被当前原语正在解除的约束卡住,也每一个都会在运行过程中副产品式地生成一种结构化物理数据——这种数据反过来让原语本身变得更好,形成反馈回路,加速整个系统。它们不是唯一值得关注的物理 AI 领域,但它们是前沿 AI 能力和物理现实交互最密集的地方,也是距离当前语言/代码范式最远、因此新能力涌现空间最大——同时又与之高度互补、能吃到其红利的地方。

机器人

机器人是最字面意义上的物理 AI 体现:一个 AI 系统要实时感知、推理、对物质世界施加物理动作。它也同时对每一个原语构成压力测试。

想想一个通用机器人要叠一条毛巾得做多少事。它需要对可变形材料在受力下如何表现有一套学到的表征——一个物理先验,而这不是语言预训练能提供的。它需要一个能把高层指令翻译成 20 Hz 以上控制频率连续运动指令序列的动作架构。

它需要仿真生成的训练数据,因为没人收集过几百万次真实叠毛巾演示。它需要触觉反馈来检测滑动并调整抓握力,因为视觉分不清一次稳固抓握和一次正在失败的抓握。它还需要一个闭环控制器,能在叠错时识别出错并恢复,而不是盲目执行记忆轨迹。

这就是为什么机器人是一个前沿系统,而不是一个工具更好的成熟工程学科。这些原语不是改良现有机器人能力,它们解锁的是之前在窄受控工业环境之外做不到的操作、运动和交互类别。

过去几年前沿进步显著——我们此前也写过。第一代 VLA 证明了基础模型可以控制机器人完成多样任务。架构进展在打通机器人系统的高层推理和底层控制。端侧推理变得可行,跨本体迁移意味着一个模型可以用有限数据适配到一个全新机器人平台。剩下的核心挑战是规模化的可靠性,这仍然是部署的瓶颈。每步 95% 成功率,在 10 步任务链上只有 60%,而生产环境要求远高于此。RL 后训练在这里潜力很大,能帮助这个领域跨到 scaling 阶段所需要的能力和鲁棒性门槛。

这些进展对市场结构有影响。机器人行业几十年来的价值都沉淀在机械系统本身,机械仍然是技术栈的关键部分,但随着学习策略变得更标准化,价值会往模型、训练基础设施、数据飞轮迁移。机器人同时也反哺上述原语:每条真实世界轨迹都是改善世界模型的训练数据,每次部署失败都暴露出仿真覆盖的缺口,每个新本体的测试都扩大可用于预训练的物理经验多样性。机器人既是原语最苛刻的消费者,也是它们最重要的改进信号来源之一。

自主科学

如果说机器人是用「实时物理动作」测试原语,自主科学测的是另一件略有不同的事——对因果复杂物理系统的持续多步推理,时间跨度以小时或天计,实验结果需要被解读、情境化,并用来修订策略。

AI 驱动的科学是原语组合最彻底的领域。一个自动驾驶实验室(self-driving lab,SDL)需要学到的物理化学动力学表征去预测实验会产出什么;需要具身动作去移液、定位样品、操作分析仪器;需要仿真做候选实验预筛和稀缺仪器时间分配;需要扩展的传感能力——光谱、色谱、质谱以及越来越新的化学和生物传感器——来表征结果。

它比任何其他领域都更需要闭环智能体编排原语:能维持多轮「假设-实验-分析-修正」工作流无人介入,保留溯源、监控安全、根据每轮揭示的信息调整策略。

没有其他领域如此深度地调用这些原语。这就是自主科学是前沿「系统」,而不是软件更好的实验室自动化的原因。Periodic Labs 和 Medra 这类公司,分别在材料科学和生命科学领域把科学推理能力和物理验证能力合成一体,实现科学迭代,并一路产出实验训练数据。

这类系统的价值在直觉上很明显。传统材料发现从概念到商业化要好几年,AI 加速工作流理论上能把这个过程压缩到远少于此。关键约束正在从假设生成(基础模型就能很好辅助)转向制造与验证(需要物理仪器、机器人执行、闭环优化)。SDL 就是冲着这个瓶颈去的。

自主科学另一个重要特性——在所有物理世界系统里都成立——是它作为数据引擎的角色。一个 SDL 跑的每个实验,产出的不只是一个科学结果,还是一个有物理落地、经过实验验证的训练信号。

一次关于聚合物在特定条件下如何结晶的测量,丰富了世界模型对材料动力学的理解;一条经过验证的合成路径,成为物理推理的训练数据;一次被表征的失败,告诉智能体系统它的预测在哪里失效。一个 AI 科学家做真实实验产出的数据,跟互联网文本或仿真输出在性质上不一样——它是结构化的、因果的、实证验证过的。这正是物理推理模型最需要、却没有其他来源能提供的那种数据。自主科学是直接把物理现实转化为结构化知识、改进整个物理 AI 生态的那条通路。

新型接口

机器人把 AI 延伸到物理动作,自主科学把 AI 延伸到物理研究。新型接口把它延伸到人工智能和人类感知、感官体验、身体信号的直接耦合——设备横跨 AR 眼镜、EMG 腕带一直到植入式脑机接口。

把这个品类黏合起来的不是单一技术,而是一个共同功能:扩展人类智能和 AI 系统之间通道的带宽和模态——并在此过程中生成直接可用于构建物理 AI 的人类-世界交互数据。

跟主流范式的距离,既是这个领域的挑战也是潜力所在。语言模型在概念层知道这些模态,但并不天然熟悉无声语音的运动模式、嗅觉受体结合的几何结构、或 EMG 信号的时序动力学。

解码这些信号的表征必须从正在扩展的感官通道里学出来。很多模态并没有互联网规模的预训练语料,数据往往只能从接口本身产出——意味着系统和它的训练数据在协同演化,这在语言 AI 里没有对应物。

这个领域的近期表现是 AI 可穿戴作为消费品类的迅速崛起。AR 眼镜或许是这个品类最显眼的例子,其他以语音或视觉为主要输入的可穿戴也在同步出现。

这套消费设备生态既为 AI 延伸到物理世界提供了新的硬件平台,也在成为物理世界数据的基础设施。一个戴着 AI 眼镜的人,能持续产出关于人如何在物理环境中导航、操作物体、与世界交互的第一人称视频流;其他可穿戴持续捕捉生物识别和运动数据。AI 可穿戴的装机量正在变成一个分布式的物理世界数据采集网络,以此前不可能的规模记录人类物理经验。

想想智能手机作为消费设备的体量——一个新品类消费设备在同等规模上让计算机以新模态感知世界,也为 AI 与物理世界的交互开出了一条巨大的新通道。

脑机接口代表更深的前沿。Neuralink 已经植入了多位患者,手术机器人和解码软件在迭代。Synchron 的血管内 Stentrode 已经被用来让瘫痪用户控制数字和物理环境。Echo Neurotechnologies 在做一套用于语言恢复的 BCI 系统,基于他们在高分辨率皮层语音解码上的研究。

Nudge 这类新公司也被组建起来,聚集人才和资本去做新的神经接口与脑交互平台。研究层面的技术里程碑也值得注意:BISC 芯片在单颗芯片上演示了 65536 电极的无线神经记录;BrainGate 团队直接从运动皮层解码了内部语言。

贯穿 AR 眼镜、AI 可穿戴、无声语音设备、植入式 BCI 的主线不只是「它们都是接口」,而是它们共同构成了人类物理经验和 AI 系统之间一条带宽递增的光谱——光谱上的每个点都在支撑本文三大领域背后那些原语的持续进展。

用几百万 AI 眼镜用户的高质量第一人称视频训练的机器人,学到的操作先验和用筛选过的远程操作数据集训练的机器人完全不同;响应亚声带指令的实验室 AI,和键盘控制的实验室在延迟和流畅性上完全是两回事;用高密度 BCI 数据训练的神经解码器,产出的运动规划表征是任何其他通道拿不到的。

新型接口是让感官通道本身变大的机制——它在物理世界和 AI 之间开出此前不存在的数据通道。而这种扩展由追求规模化部署的消费设备公司推动,意味着数据飞轮会跟着消费者采纳一起加速。

物理世界的系统

把机器人、自主科学、新型接口看作同一套原语组合出的前沿系统的不同实例,理由在于它们相互使能,并发生复利。

机器人使能自主科学。 自动驾驶实验室本质上就是机器人系统。为通用机器人开发的操作能力——灵巧抓握、液体处理、精确定位、多步任务执行——可以直接迁移到实验室自动化。机器人模型在通用性和鲁棒性上每前进一步,SDL 能自主执行的实验协议范围就扩一圈。机器人学习的每一次进展都在降低自主实验的成本、拉高它的吞吐。

自主科学使能机器人。 自动驾驶实验室产出的科学数据——经验证的物理测量、因果实验结果、材料属性数据库——能提供世界模型和物理推理引擎最需要的那种结构化、落地的训练数据。更进一步,下一代机器人需要的材料和器件(更好的执行器、更敏感的触觉传感器、更高密度电池等等)本身就是材料科学的产物。加速材料创新的自主发现平台,直接在改善机器人学习运行所在的硬件底层。

新型接口使能机器人。 AR 设备是采集「人如何感知和交互物理环境」数据的可规模化方式。神经接口产出关于人类运动意图、认知规划、感官处理的数据。这些数据对训练机器人学习系统极为宝贵,尤其是涉及人机协作或远程操作的任务。

这里还有一个关于前沿 AI 进展本身性质的更深层观察。语言/代码范式已经产出了非凡成果,在 scaling 时代还在强势上升。但物理世界提供的新问题、新数据类型、新反馈信号、新评估标准几乎是无限的。把 AI 系统落在物理现实上——通过操作物体的机器人、合成材料的实验室、对接生物和物理世界的接口——我们开出了和现有数字前沿互补的新 scaling 轴——并且很可能相互改进。

这些系统会涌现出什么行为很难精确预测——涌现的定义就是来自独立可理解、但组合起来前所未见的能力交互。但历史规律是乐观的。AI 系统每次获得一种和世界交互的新模态——看见(计算机视觉)、说话(语音识别)、读写(语言模型)——带来的能力跃迁都远超各自改进之和。向物理世界系统的过渡代表着下一次这种相变。这意义上,本文讨论的这些原语正在此刻被搭建起来,可能让前沿 AI 系统感知、推理、并作用于物理世界,在物理世界解锁大量的价值和进展。

相關問答

Q根据a16z的观点,AI的下一个前沿领域主要包含哪三个方向?

A根据a16z的观点,AI的下一个前沿领域主要包含通用机器人、自主科学(AI科学家)和脑机接口等新型人机接口这三个方向。

Q支撑物理AI前沿系统的五个底层原语是什么?

A支撑物理AI前沿系统的五个底层原语是:物理动力学的学习表征、面向具身动作的架构、仿真与合成数据基础设施、不断扩展的感官通道,以及闭环的智能体编排。

Q在机器人领域,为什么说强化学习(RL)后训练具有重要潜力?

A强化学习后训练具有重要潜力,因为它能解决纯模仿学习无法处理的长序列信用分配问题,通过自主练习和修正持续提升模型性能,在真实环境中实现更高的任务成功率和鲁棒性,例如Physical Intelligence的RECAP方法显著提升了机器人的操作效率和自适应纠错能力。

Q自主科学(如自动驾驶实验室)如何反哺整个物理AI生态?

A自主科学通过运行真实实验,生成结构化、因果性且经验证的科学数据(如材料属性、反应路径等),这些数据是物理推理模型最需要的训练信号,能改善世界模型和物理动力学表征,同时其发现的先进材料也可能直接推动机器人等硬件的进步。

Q新型人机接口(如脑机接口、AR眼镜)对物理AI发展的核心价值是什么?

A新型人机接口的核心价值在于扩展了人类与AI系统之间的交互带宽和模态,并规模化生成高质量的人类物理交互数据(如第一人称视频、神经信号等),这些数据能直接用于训练机器人、自主科学等系统,推动物理AI原语的演进,且其消费级设备的普及将进一步加速数据飞轮。

你可能也喜歡

交易

現貨
合約

熱門文章

什麼是 GROK AI

Grok AI: 在 Web3 時代革命性改變對話技術 介紹 在快速演變的人工智能領域,Grok AI 作為一個值得注意的項目脫穎而出,橋接了先進技術與用戶互動的領域。Grok AI 由 xAI 開發,該公司由著名企業家 Elon Musk 領導,旨在重新定義我們與人工智能的互動方式。隨著 Web3 運動的持續蓬勃發展,Grok AI 旨在利用對話 AI 的力量回答複雜的查詢,為用戶提供不僅具資訊性而且具娛樂性的體驗。 Grok AI 是什麼? Grok AI 是一個複雜的對話 AI 聊天機器人,旨在與用戶進行動態互動。與許多傳統 AI 系統不同,Grok AI 接納更廣泛的查詢,包括那些通常被視為不恰當或超出標準回應的問題。該項目的核心目標包括: 可靠推理:Grok AI 強調常識推理,根據上下文理解提供邏輯答案。 可擴展監督:整合工具協助確保用戶互動既受到監控又優化質量。 正式驗證:安全性至關重要;Grok AI 採用正式驗證方法來增強其輸出的可靠性。 長上下文理解:該 AI 模型在保留和回憶大量對話歷史方面表現出色,促進有意義且具上下文意識的討論。 對抗魯棒性:通過專注於改善其對操控或惡意輸入的防禦,Grok AI 旨在維護用戶互動的完整性。 總之,Grok AI 不僅僅是一個信息檢索設備;它是一個沉浸式的對話夥伴,鼓勵動態對話。 Grok AI 的創建者 Grok AI 的腦力來源無疑是 Elon Musk,這個名字與各個領域的創新息息相關,包括汽車、太空旅行和技術。在專注於以有益方式推進 AI 技術的 xAI 旗下,Musk 的願景旨在重塑對 AI 互動的理解。其領導力和基礎理念深受 Musk 推動技術邊界的承諾影響。 Grok AI 的投資者 雖然有關支持 Grok AI 的投資者的具體細節仍然有限,但公開承認 xAI 作為該項目的孵化器,主要由 Elon Musk 本人創立和支持。Musk 之前的企業和持股為 Grok AI 提供了強有力的支持,進一步增強了其可信度和增長潛力。然而,目前有關支持 Grok AI 的其他投資基金或組織的信息尚不易獲得,這標誌著未來潛在探索的領域。 Grok AI 如何運作? Grok AI 的運作機制與其概念框架一樣創新。該項目整合了幾種尖端技術,以促進其獨特的功能: 強大的基礎設施:Grok AI 使用 Kubernetes 進行容器編排,Rust 提供性能和安全性,JAX 用於高性能數值計算。這三者確保了聊天機器人的高效運行、有效擴展和及時服務用戶。 實時知識訪問:Grok AI 的一個顯著特點是其通過 X 平台(以前稱為 Twitter)訪問實時數據的能力。這一能力使 AI 能夠獲取最新信息,從而提供及時的答案和建議,而其他 AI 模型可能會錯過這些信息。 兩種互動模式:Grok AI 為用戶提供“趣味模式”和“常規模式”之間的選擇。趣味模式允許更具玩樂性和幽默感的互動風格,而常規模式則專注於提供精確和準確的回應。這種多樣性確保了根據不同用戶偏好量身定制的體驗。 總之,Grok AI 將性能與互動相結合,創造出既豐富又娛樂的體驗。 Grok AI 的時間線 Grok AI 的旅程標誌著反映其發展和部署階段的關鍵里程碑: 初始開發:Grok AI 的基礎階段持續了約兩個月,在此期間進行了模型的初步訓練和微調。 Grok-2 Beta 發布:在一個重要的進展中,Grok-2 beta 被宣布。這一版本推出了兩個版本的聊天機器人——Grok-2 和 Grok-2 mini,均具備聊天、編碼和推理的能力。 公眾訪問:在其 beta 開發之後,Grok AI 向 X 平台用戶開放。那些通過手機號碼驗證並活躍至少七天的帳戶可以訪問有限版本,使這項技術能夠接觸到更廣泛的受眾。 這一時間線概括了 Grok AI 從創建到公眾參與的系統性增長,強調其對持續改進和用戶互動的承諾。 Grok AI 的主要特點 Grok AI 包含幾個關鍵特點,促成其創新身份: 實時知識整合:訪問當前和相關信息使 Grok AI 與許多靜態模型區別開來,從而提供引人入勝和準確的用戶體驗。 多樣化的互動風格:通過提供不同的互動模式,Grok AI 滿足各種用戶偏好,邀請創造力和個性化的對話。 先進的技術基礎:利用 Kubernetes、Rust 和 JAX 為該項目提供了堅實的框架,以確保可靠性和最佳性能。 倫理話語考量:包含圖像生成功能展示了該項目的創新精神。然而,它也引發了有關版權和尊重可識別人物描繪的倫理考量——這是 AI 社區內持續討論的議題。 結論 作為對話 AI 領域的先驅,Grok AI 概括了數字時代轉變用戶體驗的潛力。由 xAI 開發,並受到 Elon Musk 願景的驅動,Grok AI 將實時知識與先進的互動能力相結合。它努力推動人工智能能夠達成的界限,同時保持對倫理考量和用戶安全的關注。 Grok AI 不僅體現了技術的進步,還體現了 Web3 環境中新對話範式的出現,承諾以靈活的知識和玩樂的互動吸引用戶。隨著該項目的持續演變,它成為技術、創造力和類人互動交匯處所能實現的見證。

462 人學過發佈於 2024.12.26更新於 2024.12.26

什麼是 GROK AI

什麼是 ERC AI

Euruka Tech:$erc ai 及其在 Web3 中的雄心概述 介紹 在快速發展的區塊鏈技術和去中心化應用的環境中,新項目頻繁出現,每個項目都有其獨特的目標和方法論。其中一個項目是 Euruka Tech,該項目在加密貨幣和 Web3 的廣闊領域中運作。Euruka Tech 的主要焦點,特別是其代幣 $erc ai,是提供旨在利用去中心化技術日益增長的能力的創新解決方案。本文旨在提供 Euruka Tech 的全面概述,探索其目標、功能、創建者的身份、潛在投資者以及它在更廣泛的 Web3 背景中的重要性。 Euruka Tech, $erc ai 是什麼? Euruka Tech 被描述為一個利用 Web3 環境提供的工具和功能的項目,專注於在其運作中整合人工智能。雖然有關該項目框架的具體細節仍然有些模糊,但它旨在增強用戶參與度並自動化加密空間中的流程。該項目的目標是創建一個去中心化的生態系統,不僅促進交易,還通過人工智能整合預測功能,因此其代幣被命名為 $erc ai。其目的是提供一個直觀的平台,促進更智能的互動和高效的交易處理,並在不斷增長的 Web3 領域中發揮作用。 Euruka Tech, $erc ai 的創建者是誰? 目前,關於 Euruka Tech 背後的創建者或創始團隊的信息仍然不明確且有些模糊。這一數據的缺失引發了擔憂,因為了解團隊背景通常對於在區塊鏈行業建立信譽至關重要。因此,我們將這些信息歸類為 未知,直到具體細節在公共領域中公開。 Euruka Tech, $erc ai 的投資者是誰? 同樣,關於 Euruka Tech 項目的投資者或支持組織的識別在現有研究中並未明確提供。對於考慮參與 Euruka Tech 的潛在利益相關者或用戶來說,來自知名投資公司的財務合作或支持所帶來的保證是至關重要的。沒有關於投資關係的披露,很難對該項目的財務安全性或持久性得出全面的結論。根據所找到的信息,本節也處於 未知 的狀態。 Euruka Tech, $erc ai 如何運作? 儘管缺乏有關 Euruka Tech 的詳細技術規範,但考慮其創新雄心是至關重要的。該項目旨在利用人工智能的計算能力來自動化和增強加密貨幣環境中的用戶體驗。通過將 AI 與區塊鏈技術相結合,Euruka Tech 旨在提供自動交易、風險評估和個性化用戶界面等功能。 Euruka Tech 的創新本質在於其目標是創造用戶與去中心化網絡所提供的廣泛可能性之間的無縫連接。通過利用機器學習算法和 AI,它旨在減少首次用戶的挑戰,並簡化 Web3 框架內的交易體驗。AI 與區塊鏈之間的這種共生關係突顯了 $erc ai 代幣的重要性,成為傳統用戶界面與去中心化技術的先進能力之間的橋樑。 Euruka Tech, $erc ai 的時間線 不幸的是,由於目前有關 Euruka Tech 的信息有限,我們無法提供該項目旅程中主要發展或里程碑的詳細時間線。這條時間線通常對於描繪項目的演變和理解其增長軌跡至關重要,但目前尚不可用。隨著有關顯著事件、合作夥伴關係或功能添加的信息變得明顯,更新將無疑增強 Euruka Tech 在加密領域的可見性。 關於其他 “Eureka” 項目的澄清 值得注意的是,多個項目和公司與 “Eureka” 共享類似的名稱。研究已經識別出一些倡議,例如 NVIDIA Research 的 AI 代理,專注於使用生成方法教導機器人複雜任務,以及 Eureka Labs 和 Eureka AI,分別改善教育和客戶服務分析中的用戶體驗。然而,這些項目與 Euruka Tech 是不同的,不應與其目標或功能混淆。 結論 Euruka Tech 及其 $erc ai 代幣在 Web3 領域中代表了一個有前途但目前仍不明朗的參與者。儘管有關其創建者和投資者的細節仍未披露,但將人工智能與區塊鏈技術相結合的核心雄心仍然是關注的焦點。該項目在通過先進自動化促進用戶參與方面的獨特方法,可能會使其在 Web3 生態系統中脫穎而出。 隨著加密市場的持續演變,利益相關者應密切關注有關 Euruka Tech 的進展,因為文檔創新、合作夥伴關係或明確路線圖的發展可能在未來帶來重大機會。當前,我們期待更多實質性見解的出現,以揭示 Euruka Tech 的潛力及其在競爭激烈的加密市場中的地位。

404 人學過發佈於 2025.01.02更新於 2025.01.02

什麼是 ERC AI

什麼是 DUOLINGO AI

DUOLINGO AI:將語言學習與Web3及AI創新結合 在科技重塑教育的時代,人工智能(AI)和區塊鏈網絡的整合預示著語言學習的新前沿。進入DUOLINGO AI及其相關的加密貨幣$DUOLINGO AI。這個項目旨在將領先語言學習平台的教育優勢與去中心化的Web3技術的好處相結合。本文深入探討DUOLINGO AI的關鍵方面,探索其目標、技術框架、歷史發展和未來潛力,同時保持原始教育資源與這一獨立加密貨幣倡議之間的清晰區分。 DUOLINGO AI概述 DUOLINGO AI的核心目標是建立一個去中心化的環境,讓學習者可以通過實現語言能力的教育里程碑來獲得加密獎勵。通過應用智能合約,該項目旨在自動化技能驗證過程和代幣分配,遵循強調透明度和用戶擁有權的Web3原則。該模型與傳統的語言習得方法有所不同,重點依賴社區驅動的治理結構,讓代幣持有者能夠建議課程內容和獎勵分配的改進。 DUOLINGO AI的一些顯著目標包括: 遊戲化學習:該項目整合區塊鏈成就和非同質化代幣(NFT)來表示語言能力水平,通過引人入勝的數字獎勵來激發學習動機。 去中心化內容創建:它為教育者和語言愛好者提供了貢獻課程的途徑,促進了一個有利於所有貢獻者的收益共享模型。 AI驅動的個性化:通過採用先進的機器學習模型,DUOLINGO AI個性化課程以適應個別學習進度,類似於已建立平台中的自適應功能。 項目創建者與治理 截至2025年4月,$DUOLINGO AI背後的團隊仍然是化名的,這在去中心化的加密貨幣領域中是一種常見做法。這種匿名性旨在促進集體增長和利益相關者的參與,而不是專注於個別開發者。部署在Solana區塊鏈上的智能合約註明了開發者的錢包地址,這表明對於交易的透明度的承諾,儘管創建者的身份未知。 根據其路線圖,DUOLINGO AI旨在演變為去中心化自治組織(DAO)。這種治理結構允許代幣持有者對關鍵問題進行投票,例如功能實施和財庫分配。這一模型與各種去中心化應用中社區賦權的精神相一致,強調集體決策的重要性。 投資者與戰略夥伴關係 目前,沒有與$DUOLINGO AI相關的公開可識別的機構投資者或風險投資家。相反,該項目的流動性主要來自去中心化交易所(DEX),這與傳統教育科技公司的資金策略形成鮮明對比。這種草根模型表明了一種社區驅動的方法,反映了該項目對去中心化的承諾。 在其白皮書中,DUOLINGO AI提到與未具名的「區塊鏈教育平台」建立合作,以豐富其課程提供。雖然具體的合作夥伴尚未披露,但這些合作努力暗示了一種將區塊鏈創新與教育倡議相結合的策略,擴大了對多樣化學習途徑的訪問和用戶參與。 技術架構 AI整合 DUOLINGO AI整合了兩個主要的AI驅動組件,以增強其教育產品: 自適應學習引擎:這個複雜的引擎從用戶互動中學習,類似於主要教育平台的專有模型。它動態調整課程難度,以應對特定學習者的挑戰,通過針對性的練習加強薄弱環節。 對話代理:通過使用基於GPT-4的聊天機器人,DUOLINGO AI為用戶提供了一個參與模擬對話的平台,促進更互動和實用的語言學習體驗。 區塊鏈基礎設施 建立在Solana區塊鏈上的$DUOLINGO AI利用了一個全面的技術框架,包括: 技能驗證智能合約:此功能自動向成功通過能力測試的用戶頒發代幣,加強了對真實學習成果的激勵結構。 NFT徽章:這些數字代幣標誌著學習者達成的各種里程碑,例如完成課程的一部分或掌握特定技能,允許他們以數字方式交易或展示自己的成就。 DAO治理:持有代幣的社區成員可以通過對關鍵提案進行投票來參與治理,促進一種鼓勵課程提供和平台功能創新的參與文化。 歷史時間線 2022–2023:概念化 DUOLINGO AI的基礎工作始於白皮書的創建,強調了語言學習中的AI進步與區塊鏈技術去中心化潛力之間的協同作用。 2024:Beta發佈 限量的Beta版本推出了流行語言的課程,作為項目社區參與策略的一部分,獎勵早期用戶以代幣激勵。 2025:DAO過渡 在4月,進行了完整的主網發佈,並開始流通代幣,促使社區討論可能擴展到亞洲語言和其他課程開發的問題。 挑戰與未來方向 技術障礙 儘管有雄心勃勃的目標,DUOLINGO AI面臨著重大挑戰。可擴展性仍然是一個持續的擔憂,特別是在平衡與AI處理相關的成本和維持響應靈敏的去中心化網絡方面。此外,在去中心化的提供中確保內容創建和審核的質量,對於維持教育標準來說也帶來了複雜性。 戰略機會 展望未來,DUOLINGO AI有潛力利用與學術機構的微證書合作,提供區塊鏈驗證的語言技能認證。此外,跨鏈擴展可能使該項目能夠接觸到更廣泛的用戶基礎和其他區塊鏈生態系統,增強其互操作性和覆蓋範圍。 結論 DUOLINGO AI代表了人工智能和區塊鏈技術的創新融合,為傳統語言學習系統提供了一種以社區為中心的替代方案。儘管其化名開發和新興經濟模型帶來某些風險,但該項目對遊戲化學習、個性化教育和去中心化治理的承諾為Web3領域的教育技術指明了前進的道路。隨著AI的持續進步和區塊鏈生態系統的演變,像DUOLINGO AI這樣的倡議可能會重新定義用戶與語言教育的互動方式,賦能社區並通過創新的學習機制獎勵參與。

405 人學過發佈於 2025.04.11更新於 2025.04.11

什麼是 DUOLINGO AI

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 AI (AI)幣價的意見。

活动图片