Agent化的OS:拼的不是AI,是底盘

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

本文探讨了操作系统(OS)进入“Agent化”时代的核心竞争要素,指出竞争焦点并非表面AI功能,而在于支撑其可靠运行的底层技术“底盘”。 文章以Google、Microsoft、Apple、华为等主流OS厂商的动向为例,说明端侧OS集成主动式AI能力(Agent)已成为明确趋势。然而,发布会展示的功能背后,真正的较量在于三层核心能力底座: 1. **系统级AI Runtime**:作为调度中枢,它将端侧模型的推理能力变为OS层共享服务,统一调度算力与内存,是Agent能跨App执行系统级操作的基础。例如Google的AICore、Apple的Foundation Models框架。 2. **可控芯片**:自研或深度可控的芯片(如Apple Silicon、Google Tensor、华为麒麟)是实现深度软硬协同优化的关键,决定了端侧Agent的响应速度、功耗和体验上限。 3. **端云模型矩阵**:云端模型处理复杂任务,端侧模型(如Gemini Nano、Phi Silica、盘古端侧模型)保障日常任务的低延迟、隐私和稳定性。端侧模型需与OS和NPU深度耦合,自研是主流选择。 这三层能力自下而上紧密耦合:芯片决定模型效率,模型决定Runtime能力,Runtime决定Agent的可靠性。协同越深,OS厂商在响应延迟、隐私保护、系统级上下文理解、服务可靠性等方面的产品差异化就越明显,护城河也越厚。 此外,文章指出,OS Agent的长期竞争力还受制于与App厂商的博弈(通过API深度集成还是屏幕识别交互)、隐私保护体系的构建等关键变量。这场竞争已超越手机和PC,正随着多设备生态向汽车、XR眼镜等IoT领域扩展。 最终,OS Agent化的成功非一朝一夕,依赖于芯片、模型与Runtime在长期迭代中的深度融合与打磨。

文 | 云涌AI ,作者 | 黄云皓

. Google I/O 2026之后:四大端侧OS步入Agent时代

2026年5月12日,Google举办了Android Show|I/O Edition发布会,这是5月19日I/O大会之前的Android专场。Android生态总裁Sameer Samat给这场发布会定调:Android要从操作系统转化成一套智能系统。承接这条主线的,就是Gemini Intelligence——Android系统层的一套主动式AI能力。

2026年Android Show|I/O Edition发布会海报
来源:Android Heaadlines

与去年Gemini Nano+AICore的组合相比,这次Google让Agent跨App与上下文的能力进一步嵌入OS层:跨App任务自动化(订餐、采购、下单)、表单自动填充、网页摘要、自定义小组件,依次写进系统级能力清单。Google同时把用户显性控制(explicit user control)、全面数据保护(comprehensive data protection)、运营透明(operational transparency)列为产品三原则。

一周后的5月19日I/O主题演讲上,Google CEO Sundar Pichai沿这条主线开场:

Welcome to the agentic Gemini era(欢迎进入Agent化的Gemini时代)

投身端侧OS Agent化浪潮,Google算不上起跑早。

Microsoft在2024年5月的Build 2024上推出Copilot+PC(搭载40+ TOPS NPU的新一代Windows 11机型品类),基于端侧小模型Phi Silica、屏幕Agent能力Click to Do、系统级活动记忆Recall三项能力将Agent能力嵌入OS系统。

2024年6月的WWDC24上,Apple就已正式公布“Apple Intelligence”,Apple当时给它的定位就是“personal intelligence system”(个人智能系统),后续陆续上线了一些AI辅助功能,只不过由于自家大模型难产、Siri“弱智”等问题,Apple Intelligence的核心Agent能力一直未能面世。

华为则在2025年6月HDC 2025上发布HarmonyOS 6与鸿蒙智能体框架(HMAF),随后小艺智能体广场上线了80多个智能体。

端侧OS Agent化的大趋势已经同时出现在Android、iOS、HarmonyOS、Windows等主流操作系统上。

发布会展示的只是功能,OS厂商真正要拼的,是支撑OS Agent可靠运行、实际解决问题的三层能力底:系统级AI Runtime、可控芯片、端云模型矩阵。

二. 发布会之下:撑起OS Agent的三层底盘

系统级AI Runtime:端侧智能的调度中枢

Runtime是端侧模型在操作系统里运行的推理引擎与系统服务。往下,它直接对接NPU与系统资源调度;往上,它以稳定API把推理能力暴露给所有App。它把端侧模型变成了“OS层的共享智能”:跨App共享模型权重、统一调度算力与内存、承载Agent所需的工具调用、引导生成、上下文与权限对接。它决定了OS Agent究竟是App里的一个聊天按钮,还是操作系统上能执行系统级操作的常驻服务。

Android体系内最完整的样本是Google AICore。2023年12月,AICore作为Android 14的系统服务(system service)上线;2025年8月,Gemini Nano通过ML Kit GenAI APIs对开发者开放。从系统服务底座到面向App的稳定API,AICore走了近两年,不断打磨。

其他OS厂商走的是同一条路,节奏不同。Apple在WWDC25把Foundation Models框架开放给开发者,框架自带@Generable装饰器、工具调用、引导生成(guided generation)与有状态会话(stateful session),背后接的是约3B参数的端侧基础模型,加上私密云端计算提供云端支持。Microsoft把端侧AI框架Foundry on Windows与Phi Silica装进Windows 11,以Windows ML作为底层推理后端。华为在HDC 2025发布Agent Framework Kit(鸿蒙智能体框架,HMAF),把意图体系与Agent协作协议一起开放。

Android AICore 作为系统服务,调度 Gemini Nano 在硬件加速器上推理
来源:Android Developers

可控芯片:软硬协同的支点

Google在Android Show|I/O Edition上为Gemini Intelligence设置明确的硬件门槛:完整功能集首发仅面向Pixel 10系列与Galaxy S26系列等少数最新旗舰,去年的机型均不在列。这指向一个简单事实:AI模型还在快速演进,软件对硬件持续提出新要求。可控芯片是承接这些要求的底盘,可控程度决定OS厂商为端侧OS Agent做软硬适配的空间。

Apple是软硬一体路线的典范。iOS与macOS从一开始就与A系列、M系列芯片同代演进,Core ML则把CPU、GPU、ANE的调度统一封装到框架层。这条路线在LLM时代继续延伸。Apple Machine Learning Research给出过一组实测:按Core ML的优化路径把Llama 3.1 8B Instruct部署到M1 Max上,本地解码速度可达约33 tokens/s。《Apple Intelligence Foundation Language Models》技术报告也披露,Apple为自家芯片做了KV cache共享与2-bit量化感知训练等架构级优化,才得以成功把约3B的端侧基础模型通过Foundation Models框架开放给开发者。这种深度,只有把芯片握在自己手里才做得出——这正是可控芯片之于OS厂商的价值:它决定了软硬协同的深度,也提高了端侧OS Agent的体验上限。

进入AI时代,Google也在做同一件事——从Pixel 6起走自研Tensor SoC路线,最新的Tensor G5把TPU性能最高提升60%、CPU平均提升34%,作为首款完整运行最新一代Gemini Nano的SoC在Pixel 10落地。当然,Tensor G5也有短板:Android Central实测显示其内存配置(RAM容量)仍是AI性能瓶颈、Geekbench AI跑分输给骁龙8 Elite;Macworld的Geekbench 6实测中,G5的单核与多核分数都低于A18 Pro。Google还在追赶,但自研Tensor加端侧Gemini的协同路线已经成形。

华为麒麟搭配达芬奇NPU与盘古端侧模型,是另一条与Apple、Google并行的可控芯片路径。小米落地了玄戒O1,是朝可控芯片方向走出的新进者。

端云模型矩阵:Agent的智力源泉

端云模型矩阵是终端设备的“智力”源泉:云端模型撑起复杂任务的能力天花板,端侧模型托起日常运行的下限——延迟、续航、隐私、稳定性都压在端侧这一头。两端缺一不可,差别在与OS的耦合深度。端侧模型要嵌入每一台终端设备的OS、与本机NPU深度耦合,在OS里承担双重身份:往下,它是Runtime的本地推理后端;往上,它通过Runtime的框架与SDK作为系统级API向App开放。

自研在云端、端侧都有意义,只是端侧的回报更显性。云端模型外采也能撑起能力天花板,自研的优势则主要体现在路由控制权、商业条款、模型迭代节奏。端侧不同。端侧模型嵌入到每一台设备的OS与NPU之中,自研的回报直接体现在产品性能上:KV cache共享、为某代芯片专门设计的2-bit量化感知训练、Per-Layer Embedding(源自Gemma 3n,按层从快速存储增量加载嵌入参数)等等,这些都得是模型与硬件同步设计才方便实现;与此同时,协同节奏也不可再受第三方硬件厂商制约。

Tensor G5的TPU算力较上一代G4最高提升60%,但Gemini Nano在G5上的提升远不止于此——据Google官方与Jon Peddie Research整理,本地处理速度达上一代的2.6倍、能耗降至原先的一半、token窗口从12,000扩到32,000(相当于一次性消化约百张截图)。这些显著超出的性能表现,源自Gemini Nano v3采用的Matryoshka Transformer弹性推理架构,叠加与Tensor G5 TPU的协同优化。

Gemini Nano on Tensor G5较上一代的性能跃迁
来源:Google/Jon Peddie Research,云涌AI制图

端侧模型这一层,各主流OS厂商手里握着的都是自家牌:Google的Gemini Nano、Apple约3B参数的端侧基础模型、Microsoft的Phi Silica、华为的盘古端侧模型。自研,是这一层的默认选项。

三. 三层之间:协同越深,差异化空间越大

三层能力底盘自下而上耦合:可控芯片→端侧/云端模型→Runtime→Agent。可控芯片决定端侧模型可达到的推理效率与功耗,端侧模型决定Runtime可调度的本地智能,Runtime决定Agent作为系统服务跨App执行的可靠性。三者协同越深,OS厂商在端侧Agent上的产品体验差异化越大,护城河也越厚。

三层在同一套软硬件中咬合得越深,OS Agent 的产品能力也越会涌现出单层做不到的差异。

  • 响应延迟与功耗。Gemini Nano在Tensor G5上拿到的2.6倍处理速度与能耗减半,依靠的是模型架构、芯片设计、Runtime调度三层在同代软硬设计里相互适配,这种量级的改善才会涌现。
  • 隐私与可信。涉及隐私数据的常用任务由端侧模型就地完成,复杂请求再交给云端——这是现阶段OS Agent对待用户数据的合理默认姿态。三层耦合决定这种“端侧优先、云端兜底”能否真正落地:NPU与端侧模型深度适配,是仍处于发展期的端侧模型肩负起日常高频推理的关键路径;模型为NPU做量化压缩与KV cache共享;Runtime按任务复杂度在端侧与云端之间路由。三层任一不到位,“端侧优先”就只能是营销话术。
  • 系统级上下文。OS厂商把跨App和OS层用户数据(语义索引、屏幕感知、长期记忆)重组成系统级个人语境提供给Agent,是Agent真正“理解用户”的前提,也是OS Agent不同于单一应用级Agent的核心特征。落地依赖三层咬合:Runtime持有跨App索引与权限,端侧模型常驻负责理解推理,NPU提供本地高效算力。Apple的Core Spotlight在终端建立语义索引,App通过App Intents把动作与数据接入系统,Agent将通过Personal Context获取语境(Apple已宣布该能力将随未来软件更新上线);Android侧AppFunctions走的是同一条路径。
  • 作为系统服务的可靠性。OS Agent要被当作系统级服务调用,就得在不联网、低电量、热降频等现实场景下保持可用。端侧模型常驻设备,让Agent离开网络也能工作;高度软硬优化的NPU承担低功耗推理;Runtime在设备资源紧张时按可用性回退调度(切到更轻量的模型,或把请求路由到云端)。三层任一缺位,OS Agent就撑不起系统服务的形态,只能退回App级聊天按钮。

Apple Intelligence呈现了完整的协同范式:Apple Silicon、约3B端侧基础模型、Foundation Models 框架自下而上咬合,端侧处理常用场景,复杂请求转入私密云端计算。Google是另一种形态。Tensor G5作为首款完整运行最新一代Gemini Nano的SoC在Pixel 10落地,由AICore统一调度,让Magic Cue、Pixel Screenshots等系统级Agent功能可以不依赖云端默认开启。华为是国内构筑三层协同的典范:麒麟、达芬奇 NPU、盘古端侧、HMAF 四件全部自有,自下而上耦合成完整的三层底盘。

端侧OS Agent三层底盘咬合机制
来源:云涌AI


四.
底盘之上:长期护城河的其他关键变量

三层协同筑起护城河的核心。底盘之上还有众多变量影响OS Agent时代的产品竞争力,包括Agent与App的交互能力、隐私保护等。

OS Agent与App的交互,处于OS厂商和App厂商博弈的最前线。眼下两条路径并行。一条是识屏与自动化,包括Gemini Live屏幕共享、Apple Visual Intelligence、Circle to Search等。OS Agent靠读屏幕、点按钮介入App,单次任务可行,但每次调用都缺乏结构化信息,多步动作难以稳定搭建工作流。另一条是API深度集成,包括Google AppFunctions、Apple App Intents、华为Intents Kit等。App把核心动作以结构化接口暴露给系统,Agent调用稳定,也能搭建多步工作流。API路径能否铺开,关键不在OS厂商,而在App厂商。把核心功能交给Agent调用,意味着用户可能不再直接打开App,品牌曝光、广告位、行为数据、付费入口都有被OS截走的风险。这将是用户侧终端流量分配权的核心争夺点。

隐私保护,是端侧系统的关键价值和底线。OS厂商在端侧握有最深的系统级权限和最敏感的用户数据,隐私既是本职立场,也是前两件事长期推进的前置条件。Apple通过端侧Secure Enclave独立安全芯片与私有云计算PCC节点共享的同一套硬件级安全设计,构建了基于终端的隐私保护体系,这一产品策略让“Privacy. That’s Apple.”成为Apple在全球高端市场的核心品牌标签,进而赢得用户信任。

Apple的“Privacy. That’s Apple.”标签
来源:Apple官网

三层协同立起护城河的核心,底盘之上的这些长期变量则影响它能加固到多深。

五. 不只是重做OS

端侧OS Agent化趋势下,系统级AI Runtime、可控芯片、端云模型矩阵这三层底盘越扎实,OS厂商在这场仗里的产品下限就越高、差异化空间也越大。把握住这一趋势的OS厂商,才有机会推动端侧入口流量分配权的重置,拿到更强的竞争位置。

这一趋势不止于手机和PC。OS Agent的底层能力沿着各家已搭建的多设备生态向更多终端外溢,尤以IoT为盛。可控芯片向汽车SoC等场景下沉,华为已布局车规级麒麟芯片、小米澎湃OS走进自家车型;端侧模型向眼镜等新形态硬件轻量化迁移,Google与Samsung、Gentle Monster、Warby Parker联合开发的Android XR智能眼镜将在2026年秋季上市;Runtime与Agent的协同则借由各家已铺设的“超级终端/分布式”框架扩展到设备群,例如华为的1+8+N与鸿蒙分布式软总线、小米的“人车家全生态”与HyperConnect、Apple的Continuity、Google的Cross device SDK与跨设备服务。OS Agent这场仗,远不限于手机和PC的胜负。

AICore打磨了近两年;Apple的OS与Apple silicon系列芯片磨合了十几年;Tensor一路改到G5,Pixel 10方能肩负Gemini Nano v3的重担。这场仗的高下,从来不在发布会上的一两个小时,而在一代代的芯片、模型与Runtime中磨出来的。

参考资料:

  • Gemini Intelligence brings proactive AI to Android|Google Blog
  • I/O 2026: Welcome to the agentic Gemini era|Google Blog
  • Phi Silica, small but mighty on-device SLM|Windows Experience Blog
  • Apple Delays Siri Upgrade Indefinitely|Bloomberg
  • HarmonyOS 6 开发者 Beta 启动新闻稿(HDC 2025)|华为
  • The latest Gemini Nano with on-device ML Kit GenAI APIs|Android Developers Blog
  • Foundation Models framework documentation|Apple Developer
  • 鸿蒙智能体框架白皮书|华为开发者
  • On-Device Llama 3.1 with Core ML|Apple Machine Learning Research
  • Apple Intelligence Foundation Language Models Tech Report 2025|Apple Machine Learning Research
  • Google Tensor G5: Benchmarks and everything you need to know|Android Central
  • Google’s new M5 SoC(Tensor G5 详解·Matryoshka Transformer)|Jon Peddie Research
  • Private Cloud Compute: A new frontier for AI privacy in the cloud|Apple Security Engineering
  • Overview of AppFunctions|Android Developers
  • App Intents|Apple Developer
  • Intents Kit 简介(HarmonyOS)|华为开发者
  • The Google Pixel 10 Pro’s Tensor G5 chip is impressive—if you compare it to an iPhone 14|Macworld
  • Gemma 3n model overview|Google AI for Developers

相关问答

Q文章中提到的四大端侧OS(Android、iOS、HarmonyOS、Windows)进入Agent时代的主要表现是什么?

AAndroid通过Gemini Intelligence将主动式AI能力嵌入系统层;Apple推出Apple Intelligence作为个人智能系统;华为发布HarmonyOS 6与鸿蒙智能体框架;Microsoft推出Copilot+PC,在Windows 11中嵌入Agent能力。它们共同的特点是让AI从操作系统层面提供跨应用、系统级的智能服务。

Q支撑OS Agent可靠运行的“三层能力底”具体指什么?

A三层能力底是指:1)系统级AI Runtime,作为端侧智能的调度中枢,负责模型推理和系统服务;2)可控芯片,如Google的Tensor、Apple的A/M系列、华为的麒麟,实现软硬深度协同;3)端云模型矩阵,云端模型处理复杂任务,端侧模型(如Gemini Nano、Phi Silica)保障日常低延迟、高隐私的本地推理。这三层自下而上紧密耦合,共同决定OS Agent的体验上限。

Q为什么文章认为“可控芯片”对于OS Agent的体验至关重要?

A可控芯片(如Apple Silicon、Google Tensor、华为麒麟)允许操作系统厂商深度优化软硬协同。例如,Apple能为自家芯片做KV cache共享、2-bit量化等架构级优化,从而高效运行端侧基础模型;Google的Tensor G5与Gemini Nano v3协同,实现了处理速度2.6倍提升和能耗减半。这种深度优化只有掌握芯片设计权才能实现,它直接决定了端侧Agent的响应速度、功耗和功能上限。

QOS Agent与普通App内的AI助手(聊天按钮)的核心区别是什么?

A核心区别在于OS Agent是操作系统级的常驻服务,而非依附于单个App。它依托系统级AI Runtime,能跨应用调用数据和服务(如通过App Intents/AppFunctions)、访问系统级个人上下文(如语义索引、屏幕感知)、并在端侧模型和可控芯片支持下实现低延迟、高隐私的本地推理。这使其能执行复杂的多步工作流,并在离线、低电量等场景下保持可靠,而非仅是一个简单的聊天交互界面。

Q除了技术底盘,文章还指出哪些因素会影响OS Agent时代的长期竞争力?

A除了技术底盘,长期竞争力还受制于:1)与App的交互深度:依赖于App厂商是否愿意通过API(如App Intents、AppFunctions)开放核心功能给Agent调用,这涉及流量和数据权的博弈;2)隐私保护能力:如Apple通过Secure Enclave和私有云计算构建的隐私体系,已成为其核心品牌资产和信任基础;3)生态扩展能力:将Agent底层能力向汽车、XR眼镜等IoT设备延伸,通过多设备协同框架(如华为分布式软总线、小米HyperConnect)抢占更广阔的入口。

你可能也喜欢

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

523人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片