Agent化的OS：拼的不是AI，是底盘

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

本文探讨了操作系统（OS）进入“Agent化”时代的核心竞争要素，指出竞争焦点并非表面AI功能，而在于支撑其可靠运行的底层技术“底盘”。文章以Google、Microsoft、Apple、华为等主流OS厂商的动向为例，说明端侧OS集成主动式AI能力（Agent）已成为明确趋势。然而，发布会展示的功能背后，真正的较量在于三层核心能力底座： 1. **系统级AI Runtime**：作为调度中枢，它将端侧模型的推理能力变为OS层共享服务，统一调度算力与内存，是Agent能跨App执行系统级操作的基础。例如Google的AICore、Apple的Foundation Models框架。 2. **可控芯片**：自研或深度可控的芯片（如Apple Silicon、Google Tensor、华为麒麟）是实现深度软硬协同优化的关键，决定了端侧Agent的响应速度、功耗和体验上限。 3. **端云模型矩阵**：云端模型处理复杂任务，端侧模型（如Gemini Nano、Phi Silica、盘古端侧模型）保障日常任务的低延迟、隐私和稳定性。端侧模型需与OS和NPU深度耦合，自研是主流选择。这三层能力自下而上紧密耦合：芯片决定模型效率，模型决定Runtime能力，Runtime决定Agent的可靠性。协同越深，OS厂商在响应延迟、隐私保护、系统级上下文理解、服务可靠性等方面的产品差异化就越明显，护城河也越厚。此外，文章指出，OS Agent的长期竞争力还受制于与App厂商的博弈（通过API深度集成还是屏幕识别交互）、隐私保护体系的构建等关键变量。这场竞争已超越手机和PC，正随着多设备生态向汽车、XR眼镜等IoT领域扩展。最终，OS Agent化的成功非一朝一夕，依赖于芯片、模型与Runtime在长期迭代中的深度融合与打磨。

文 | 云涌AI ,作者 | 黄云皓

一. Google I/O 2026之后:四大端侧OS步入Agent时代

2026年5月12日,Google举办了Android Show|I/O Edition发布会,这是5月19日I/O大会之前的Android专场。Android生态总裁Sameer Samat给这场发布会定调:Android要从操作系统转化成一套智能系统。承接这条主线的,就是Gemini Intelligence——Android系统层的一套主动式AI能力。

2026年Android Show|I/O Edition发布会海报
来源:Android Heaadlines

与去年Gemini Nano+AICore的组合相比,这次Google让Agent跨App与上下文的能力进一步嵌入OS层:跨App任务自动化(订餐、采购、下单)、表单自动填充、网页摘要、自定义小组件,依次写进系统级能力清单。Google同时把用户显性控制(explicit user control)、全面数据保护(comprehensive data protection)、运营透明(operational transparency)列为产品三原则。

一周后的5月19日I/O主题演讲上,Google CEO Sundar Pichai沿这条主线开场:

Welcome to the agentic Gemini era(欢迎进入Agent化的Gemini时代)

投身端侧OS Agent化浪潮,Google算不上起跑早。

Microsoft在2024年5月的Build 2024上推出Copilot+PC(搭载40+ TOPS NPU的新一代Windows 11机型品类),基于端侧小模型Phi Silica、屏幕Agent能力Click to Do、系统级活动记忆Recall三项能力将Agent能力嵌入OS系统。

2024年6月的WWDC24上,Apple就已正式公布“Apple Intelligence”,Apple当时给它的定位就是“personal intelligence system”(个人智能系统),后续陆续上线了一些AI辅助功能,只不过由于自家大模型难产、Siri“弱智”等问题,Apple Intelligence的核心Agent能力一直未能面世。

华为则在2025年6月HDC 2025上发布HarmonyOS 6与鸿蒙智能体框架(HMAF),随后小艺智能体广场上线了80多个智能体。

端侧OS Agent化的大趋势已经同时出现在Android、iOS、HarmonyOS、Windows等主流操作系统上。

发布会展示的只是功能,OS厂商真正要拼的,是支撑OS Agent可靠运行、实际解决问题的三层能力底:系统级AI Runtime、可控芯片、端云模型矩阵。

二. 发布会之下:撑起OS Agent的三层底盘

系统级AI Runtime:端侧智能的调度中枢

Runtime是端侧模型在操作系统里运行的推理引擎与系统服务。往下,它直接对接NPU与系统资源调度;往上,它以稳定API把推理能力暴露给所有App。它把端侧模型变成了“OS层的共享智能”:跨App共享模型权重、统一调度算力与内存、承载Agent所需的工具调用、引导生成、上下文与权限对接。它决定了OS Agent究竟是App里的一个聊天按钮,还是操作系统上能执行系统级操作的常驻服务。

Android体系内最完整的样本是Google AICore。2023年12月,AICore作为Android 14的系统服务(system service)上线;2025年8月,Gemini Nano通过ML Kit GenAI APIs对开发者开放。从系统服务底座到面向App的稳定API,AICore走了近两年,不断打磨。

其他OS厂商走的是同一条路,节奏不同。Apple在WWDC25把Foundation Models框架开放给开发者,框架自带@Generable装饰器、工具调用、引导生成(guided generation)与有状态会话(stateful session),背后接的是约3B参数的端侧基础模型,加上私密云端计算提供云端支持。Microsoft把端侧AI框架Foundry on Windows与Phi Silica装进Windows 11,以Windows ML作为底层推理后端。华为在HDC 2025发布Agent Framework Kit(鸿蒙智能体框架,HMAF),把意图体系与Agent协作协议一起开放。

Android AICore 作为系统服务,调度 Gemini Nano 在硬件加速器上推理
来源:Android Developers

可控芯片:软硬协同的支点

Google在Android Show|I/O Edition上为Gemini Intelligence设置明确的硬件门槛:完整功能集首发仅面向Pixel 10系列与Galaxy S26系列等少数最新旗舰,去年的机型均不在列。这指向一个简单事实:AI模型还在快速演进,软件对硬件持续提出新要求。可控芯片是承接这些要求的底盘,可控程度决定OS厂商为端侧OS Agent做软硬适配的空间。

Apple是软硬一体路线的典范。iOS与macOS从一开始就与A系列、M系列芯片同代演进,Core ML则把CPU、GPU、ANE的调度统一封装到框架层。这条路线在LLM时代继续延伸。Apple Machine Learning Research给出过一组实测:按Core ML的优化路径把Llama 3.1 8B Instruct部署到M1 Max上,本地解码速度可达约33 tokens/s。《Apple Intelligence Foundation Language Models》技术报告也披露,Apple为自家芯片做了KV cache共享与2-bit量化感知训练等架构级优化,才得以成功把约3B的端侧基础模型通过Foundation Models框架开放给开发者。这种深度,只有把芯片握在自己手里才做得出——这正是可控芯片之于OS厂商的价值:它决定了软硬协同的深度,也提高了端侧OS Agent的体验上限。

进入AI时代,Google也在做同一件事——从Pixel 6起走自研Tensor SoC路线,最新的Tensor G5把TPU性能最高提升60%、CPU平均提升34%,作为首款完整运行最新一代Gemini Nano的SoC在Pixel 10落地。当然,Tensor G5也有短板:Android Central实测显示其内存配置(RAM容量)仍是AI性能瓶颈、Geekbench AI跑分输给骁龙8 Elite;Macworld的Geekbench 6实测中,G5的单核与多核分数都低于A18 Pro。Google还在追赶,但自研Tensor加端侧Gemini的协同路线已经成形。

华为麒麟搭配达芬奇NPU与盘古端侧模型,是另一条与Apple、Google并行的可控芯片路径。小米落地了玄戒O1,是朝可控芯片方向走出的新进者。

端云模型矩阵:Agent的智力源泉

端云模型矩阵是终端设备的“智力”源泉:云端模型撑起复杂任务的能力天花板,端侧模型托起日常运行的下限——延迟、续航、隐私、稳定性都压在端侧这一头。两端缺一不可,差别在与OS的耦合深度。端侧模型要嵌入每一台终端设备的OS、与本机NPU深度耦合,在OS里承担双重身份:往下,它是Runtime的本地推理后端;往上,它通过Runtime的框架与SDK作为系统级API向App开放。

自研在云端、端侧都有意义,只是端侧的回报更显性。云端模型外采也能撑起能力天花板,自研的优势则主要体现在路由控制权、商业条款、模型迭代节奏。端侧不同。端侧模型嵌入到每一台设备的OS与NPU之中,自研的回报直接体现在产品性能上:KV cache共享、为某代芯片专门设计的2-bit量化感知训练、Per-Layer Embedding(源自Gemma 3n,按层从快速存储增量加载嵌入参数)等等,这些都得是模型与硬件同步设计才方便实现;与此同时,协同节奏也不可再受第三方硬件厂商制约。

Tensor G5的TPU算力较上一代G4最高提升60%,但Gemini Nano在G5上的提升远不止于此——据Google官方与Jon Peddie Research整理,本地处理速度达上一代的2.6倍、能耗降至原先的一半、token窗口从12,000扩到32,000(相当于一次性消化约百张截图)。这些显著超出的性能表现,源自Gemini Nano v3采用的Matryoshka Transformer弹性推理架构,叠加与Tensor G5 TPU的协同优化。

Gemini Nano on Tensor G5较上一代的性能跃迁
来源:Google/Jon Peddie Research,云涌AI制图

端侧模型这一层,各主流OS厂商手里握着的都是自家牌:Google的Gemini Nano、Apple约3B参数的端侧基础模型、Microsoft的Phi Silica、华为的盘古端侧模型。自研,是这一层的默认选项。

三. 三层之间:协同越深,差异化空间越大

三层能力底盘自下而上耦合:可控芯片→端侧/云端模型→Runtime→Agent。可控芯片决定端侧模型可达到的推理效率与功耗,端侧模型决定Runtime可调度的本地智能,Runtime决定Agent作为系统服务跨App执行的可靠性。三者协同越深,OS厂商在端侧Agent上的产品体验差异化越大,护城河也越厚。

三层在同一套软硬件中咬合得越深,OS Agent 的产品能力也越会涌现出单层做不到的差异。

响应延迟与功耗。Gemini Nano在Tensor G5上拿到的2.6倍处理速度与能耗减半,依靠的是模型架构、芯片设计、Runtime调度三层在同代软硬设计里相互适配,这种量级的改善才会涌现。
隐私与可信。涉及隐私数据的常用任务由端侧模型就地完成,复杂请求再交给云端——这是现阶段OS Agent对待用户数据的合理默认姿态。三层耦合决定这种“端侧优先、云端兜底”能否真正落地:NPU与端侧模型深度适配,是仍处于发展期的端侧模型肩负起日常高频推理的关键路径;模型为NPU做量化压缩与KV cache共享;Runtime按任务复杂度在端侧与云端之间路由。三层任一不到位,“端侧优先”就只能是营销话术。
系统级上下文。OS厂商把跨App和OS层用户数据(语义索引、屏幕感知、长期记忆)重组成系统级个人语境提供给Agent,是Agent真正“理解用户”的前提,也是OS Agent不同于单一应用级Agent的核心特征。落地依赖三层咬合:Runtime持有跨App索引与权限,端侧模型常驻负责理解推理,NPU提供本地高效算力。Apple的Core Spotlight在终端建立语义索引,App通过App Intents把动作与数据接入系统,Agent将通过Personal Context获取语境(Apple已宣布该能力将随未来软件更新上线);Android侧AppFunctions走的是同一条路径。
作为系统服务的可靠性。OS Agent要被当作系统级服务调用,就得在不联网、低电量、热降频等现实场景下保持可用。端侧模型常驻设备,让Agent离开网络也能工作;高度软硬优化的NPU承担低功耗推理;Runtime在设备资源紧张时按可用性回退调度(切到更轻量的模型,或把请求路由到云端)。三层任一缺位,OS Agent就撑不起系统服务的形态,只能退回App级聊天按钮。

Apple Intelligence呈现了完整的协同范式:Apple Silicon、约3B端侧基础模型、Foundation Models 框架自下而上咬合,端侧处理常用场景,复杂请求转入私密云端计算。Google是另一种形态。Tensor G5作为首款完整运行最新一代Gemini Nano的SoC在Pixel 10落地,由AICore统一调度,让Magic Cue、Pixel Screenshots等系统级Agent功能可以不依赖云端默认开启。华为是国内构筑三层协同的典范:麒麟、达芬奇 NPU、盘古端侧、HMAF 四件全部自有,自下而上耦合成完整的三层底盘。

端侧OS Agent三层底盘咬合机制
来源:云涌AI

四. 底盘之上:长期护城河的其他关键变量

三层协同筑起护城河的核心。底盘之上还有众多变量影响OS Agent时代的产品竞争力,包括Agent与App的交互能力、隐私保护等。

OS Agent与App的交互,处于OS厂商和App厂商博弈的最前线。眼下两条路径并行。一条是识屏与自动化,包括Gemini Live屏幕共享、Apple Visual Intelligence、Circle to Search等。OS Agent靠读屏幕、点按钮介入App,单次任务可行,但每次调用都缺乏结构化信息,多步动作难以稳定搭建工作流。另一条是API深度集成,包括Google AppFunctions、Apple App Intents、华为Intents Kit等。App把核心动作以结构化接口暴露给系统,Agent调用稳定,也能搭建多步工作流。API路径能否铺开,关键不在OS厂商,而在App厂商。把核心功能交给Agent调用,意味着用户可能不再直接打开App,品牌曝光、广告位、行为数据、付费入口都有被OS截走的风险。这将是用户侧终端流量分配权的核心争夺点。

隐私保护,是端侧系统的关键价值和底线。OS厂商在端侧握有最深的系统级权限和最敏感的用户数据,隐私既是本职立场,也是前两件事长期推进的前置条件。Apple通过端侧Secure Enclave独立安全芯片与私有云计算PCC节点共享的同一套硬件级安全设计,构建了基于终端的隐私保护体系,这一产品策略让“Privacy. That’s Apple.”成为Apple在全球高端市场的核心品牌标签,进而赢得用户信任。

Apple的“Privacy. That’s Apple.”标签
来源:Apple官网

三层协同立起护城河的核心,底盘之上的这些长期变量则影响它能加固到多深。

五. 不只是重做OS

端侧OS Agent化趋势下,系统级AI Runtime、可控芯片、端云模型矩阵这三层底盘越扎实,OS厂商在这场仗里的产品下限就越高、差异化空间也越大。把握住这一趋势的OS厂商,才有机会推动端侧入口流量分配权的重置,拿到更强的竞争位置。

这一趋势不止于手机和PC。OS Agent的底层能力沿着各家已搭建的多设备生态向更多终端外溢,尤以IoT为盛。可控芯片向汽车SoC等场景下沉,华为已布局车规级麒麟芯片、小米澎湃OS走进自家车型;端侧模型向眼镜等新形态硬件轻量化迁移,Google与Samsung、Gentle Monster、Warby Parker联合开发的Android XR智能眼镜将在2026年秋季上市;Runtime与Agent的协同则借由各家已铺设的“超级终端/分布式”框架扩展到设备群,例如华为的1+8+N与鸿蒙分布式软总线、小米的“人车家全生态”与HyperConnect、Apple的Continuity、Google的Cross device SDK与跨设备服务。OS Agent这场仗,远不限于手机和PC的胜负。

AICore打磨了近两年;Apple的OS与Apple silicon系列芯片磨合了十几年;Tensor一路改到G5,Pixel 10方能肩负Gemini Nano v3的重担。这场仗的高下,从来不在发布会上的一两个小时,而在一代代的芯片、模型与Runtime中磨出来的。

参考资料:

Gemini Intelligence brings proactive AI to Android|Google Blog
I/O 2026: Welcome to the agentic Gemini era|Google Blog
Phi Silica, small but mighty on-device SLM|Windows Experience Blog
Apple Delays Siri Upgrade Indefinitely|Bloomberg
HarmonyOS 6 开发者 Beta 启动新闻稿(HDC 2025)|华为
The latest Gemini Nano with on-device ML Kit GenAI APIs|Android Developers Blog
Foundation Models framework documentation|Apple Developer
鸿蒙智能体框架白皮书|华为开发者
On-Device Llama 3.1 with Core ML|Apple Machine Learning Research
Apple Intelligence Foundation Language Models Tech Report 2025|Apple Machine Learning Research
Google Tensor G5: Benchmarks and everything you need to know|Android Central
Google’s new M5 SoC(Tensor G5 详解·Matryoshka Transformer)|Jon Peddie Research
Private Cloud Compute: A new frontier for AI privacy in the cloud|Apple Security Engineering
Overview of AppFunctions|Android Developers
App Intents|Apple Developer
Intents Kit 简介(HarmonyOS)|华为开发者
The Google Pixel 10 Pro’s Tensor G5 chip is impressive—if you compare it to an iPhone 14|Macworld
Gemma 3n model overview|Google AI for Developers

你可能也喜欢

69岁强化学习之父Richard Sutton创业：造20瓦人脑级智能体

强化学习之父、图灵奖得主Richard Sutton在69岁时宣布创业，与学生Khurram Javed离开John Carmack的Keen Technologies，共同创立Oak Lab。Sutton是强化学习领域的奠基人，其著作是该领域经典教材，并培养出David Silver等多位AI顶尖人才。他认为当前深度学习路线效率低下，难以实现更高阶的通用智能，因此需要全新的基础思想。Oak Lab的终极目标是开发一个万亿参数规模、能实时学习与规划、整机功耗仅20瓦（与人脑耗能相当）的智能体。 Sutton强调，智能应来自运行时持续产生的经验，而非依赖离线预训练的海量静态数据。他主张AI应在与环境交互的每一刻进行学习，通过“时间抽象”将系列动作沉淀为可复用技能。Oak Lab的核心架构OaK（Options and Knowledge）旨在让智能体从经验中发现抽象结构，形成可规划调用的技能，并以batch size为1的方式实时更新，无需存储和回放历史数据。这一理念延续了Sutton2019年提出的“苦涩的教训”，即通用学习方法终将胜过依赖人类知识的系统。如今，他进一步推动AI从依赖人类数据转向依靠智能体自身经验。Oak Lab的创业是这一研究方向的具体实践。 Sutton将于上海世界人工智能大会（WAIC）分享相关主题。

marsbit21分钟前

marsbit21分钟前

新增 4.5 亿美元股价仍下跌，STRC 缺的从来不是钱

全球持有比特币最多的上市公司Strategy近日新增4.5亿美元现金储备，总现金达30亿美元，旨在支持其优先股STRC的股息发放。然而，市场对此利好反应冷淡，STRC价格不涨反跌，较100美元面值折价约13%。文章指出，问题的核心并非资金不足，而是投资者对管理层尤其是创始人迈克尔・塞勒的信心崩塌。塞勒曾多次推翻公开承诺，例如修改股票增发条款、违背“永不卖出比特币”的宣言、大幅下调业绩预期等。这些反复无常的行为严重消耗了市场信任。尽管STRC被宣传为稳定产品，但其价格曾暴跌至71.25美元，与“高息存款”的类比相去甚远。它既无资产直接担保，也无公司回购保障，投资者变现只能依赖二级市场。因此，即便公司现金充足，也难以弥补信任缺失这一根本症结。市场担忧的并非支付能力，而是管理层的履约诚意。

Foresight News47分钟前

Foresight News47分钟前

新罕布什尔州州长凯利·阿约特签署‘区块链基本法’——HB 639法案内容是什么？

新罕布什尔州州长凯利·阿约特签署了名为“区块链基本法”的HB 639法案。该法案的核心内容包括：保障个人对其数字资产的“自我保管”权，即无需依赖银行或交易所即可在自有钱包中持有加密货币；保护公民使用加密货币支付合法商品与服务的自由，不受各级政府干预；并明确为运行节点、挖矿、质押等区块链基础设施运营者提供法律保护，防止其活动被不当归类为“货币传输”或“证券”活动。此外，法案设立了专门处理区块链纠纷的“区块链争议案卷”程序，由具备专业知识的法官负责，旨在更高效、可预测地处理相关诉讼。此举与该州2025年5月通过的允许州财政官将最多5%公共资金投资比特币的“战略比特币储备”法案（HB 302）一脉相承，共同目标是为该州的区块链创新与商业活动建立明确的监管框架与法律保障。新罕布什尔州区块链委员会主席表示，这彰显了该州引领全国区块链发展的意图。

ambcrypto1小时前

新罕布什尔州州长凯利·阿约特签署‘区块链基本法’——HB 639法案内容是什么？

ambcrypto1小时前

回购销毁只是空头承诺？代币与股权难以弥合的权利鸿沟

当你持有公司股票，便享有剩余索取权和投票、分红等法定权利。加密协议常向代币持有者描绘类似蓝图，即参与治理并分享收益，但这本质上是一种缺乏法律强制力的单方面承诺。股票的核心在于其代表可依法强制执行的企业所有权。而代币持有者无权强制获得股息或收购款项，项目常用的“回购销毁”政策也可被团队单方面修改或终止，代币持有者缺乏维权依据。随着行业成熟，Venice AI、Aave等协议开始引入传统股权融资，导致了股权持有者（享有法定权利）与代币持有者（依赖项目方自愿政策）之间的权利鸿沟凸显。Houdini Swap被收购时代币持有者一无所获的案例，清晰展示了这种风险。美国《CLARITY Act》法案推进将进一步激化矛盾。该法案拟将代币划分为“数字商品”或“证券”。若归为数字商品，则明确禁止赋予代币持有者针对企业营收、利润等资产的法定索取权。这意味着，目前游走在灰色地带的、承诺分享企业收益的回购销毁模式将面临巨大监管压力。协议面临明确选择：要么承认代币是数字商品，停止宣传其能分享企业收益；要么将代币注册为证券，承担相应合规成本。Aave等协议尝试用自动化链上机制来增强承诺可信度，但这仍是代码而非法律合约，治理层仍可能投票更改。一旦外部股权投资者带着正式法律协议入场，“代币即资产”的旧叙事便难以为继。

Foresight News1小时前

Foresight News1小时前

探索事件交易世界：适合各类用户的五大预测市场平台

预测市场已从小众爱好发展成高速增长行业，预计到2026年中，主要平台的月交易总额将超过200亿美元。本文分析了五大预测市场平台的核心特点，帮助用户根据自身需求选择。 **Polymarket**：基于Polygon的去中心化平台，面向全球加密用户，使用USDC稳定币结算，以高流动性和广泛的全球事件合约著称，但缺乏内置风险管理工具。 **Kalshi**：受美国CFTC监管的合规交易所，面向美国机构和合规交易者，支持法定货币直接出入金，主打宏观经济和体育合约，提供机构级清算基础设施。 **Outpoll**：采用CeDeFi架构，专为专业和算法交易者设计，核心优势是提供内置的止盈止损等风险管理工具，交易费率约为0.1%，并支持完整的API自动化交易。 **OG Predictive**：由Crypto.com推出，同样是CFTC监管平台，专注于体育赛事预测，提供固定每合约费用模式，并计划扩展更细分的玩家表现市场。 **Manifold Markets**：纯粹的虚拟货币平台，使用“Mana”游戏币，无需KYC，任何人都可创建市场，适合策略测试、休闲预测和开发者研究。选择平台的关键不仅在于预测主题，更需考虑监管架构、流动性、费率、订单类型、风险工具（如止盈止损）以及API支持等技术执行能力。随着行业成熟，盈利不仅取决于预测准确性，更依赖于对交易基础设施的熟练运用。

TheNewsCrypto2小时前

交易

现货

Agent化的OS：拼的不是AI，是底盘

文章摘要

一. Google I/O 2026之后:四大端侧OS步入Agent时代

二. 发布会之下:撑起OS Agent的三层底盘

系统级AI Runtime:端侧智能的调度中枢

可控芯片:软硬协同的支点

端云模型矩阵:Agent的智力源泉

三. 三层之间:协同越深,差异化空间越大

四. 底盘之上:长期护城河的其他关键变量

五. 不只是重做OS

热门币种推荐

相关问答

你可能也喜欢

69岁强化学习之父Richard Sutton创业：造20瓦人脑级智能体

新增 4.5 亿美元股价仍下跌，STRC 缺的从来不是钱

新罕布什尔州州长凯利·阿约特签署‘区块链基本法’——HB 639法案内容是什么？

回购销毁只是空头承诺？代币与股权难以弥合的权利鸿沟

探索事件交易世界：适合各类用户的五大预测市场平台

交易

热门文章

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

从H2A到A2A：AI Agent经济体与Crypto新机遇

美股TradFi：传统金融在AI IPO浪潮下的稳健锚点

相关讨论

热门问答

热门分类

热门标签