6月1日,英伟达在台北电脑展期间举办的GTC Taipei 2026大会上发布了Vera CPU,其同期发布的新一代AI超算平台Vera Rubin,首批客户包括OpenAI和Anthropic。
这是英伟达第一次推出独立的CPU产品线,英伟达过去20年的增长几乎完全建立在GPU之上。英伟达CEO黄仁勋在发布会上表示,在AI智能体时代,CPU已经成为数据中心性能的关键瓶颈,不能让CPU拖慢AI工厂的token(词元)生产速度。
此前的5月份,AMD CEO苏姿丰在财报电话会上宣布,将服务器CPU的市场规模预测从600亿美元翻倍上调至1200亿美元以上,对应2025至2030年的复合年增长率从18%提高到35%。
根据IDC统计,2025年全球服务器市场规模达到4441亿美元,同比增长80.4%,其中AI服务器贡献了大部分增量。瑞银在近期的半导体行业研报中预测,服务器CPU的潜在市场规模将从2025年的约300亿美元增长到2030年的约1700亿美元,5年增长近5倍。
市场调研机构Mercury Research的数据显示,2026年一季度AMD的服务器CPU收入份额达到46.2%,英特尔为53.8%。但AMD的出货量份额只有33.2%,英特尔仍占到66.8%。也就是说,AMD用更少的芯片创造了更高的收入,高核数产品的溢价能力在这一个季度得到集中体现。
芯片说ICTIME首席分析师林美炳告诉经济观察报,CPU是当前这一轮AI周期里最超预期的变量。AI从对话走向Agent(智能体),推理对CPU的需求量已经超过训练。
GPU在“等”CPU
英特尔与佐治亚理工学院在2025年11月联合发表了题为《以CPU为中心的智能体AI视角(A CPU-Centric Perspective on Agentic AI)》的论文。在这篇论文中,研究团队对五类典型的Agent工作负载进行了实测,结果显示CPU端工具处理所占用的时间,达到总延迟的43.8%到90.6%。
一位长期跟踪半导体板块的券商分析师称,在大模型训练阶段,CPU的工作量占比大约只有一到三成,某些工作负载可能达到近四成,绝大部分计算由GPU承担。这是因为AI大模型训练的计算过程高度规整,数以亿计的参数在海量数据上反复做矩阵乘法,GPU的并行架构就是为这类任务设计的,CPU在其中负责数据加载、通信调度和结果拷贝,不涉及核心的矩阵运算。
但到了推理阶段,这个比例开始翻转。CPU承担的工作量占比上升到七成以上,Agent场景下会更高。因为Agent任务需要多步推理、调用外部工具、执行代码、读写数据库、搜索网页,然后将中间结果编排成最终输出。
编程助手、数据分析工具、自动化研究Agent都属于这一类,也是目前大模型应用中增长最快的场景。这些工作的共同特征是控制流密集、分支复杂、输入输出频繁,GPU面对这类串行、碎片化的任务利用率会明显下降。
多位业内人士表示,在Agent任务中,GPU的整体利用率普遍不到50%,远低于传统推理服务的70%到85%。Agent方式下AI部署的token消耗量通常是普通对话的20到30倍,因为一次用户交互背后往往包含数十次工具调用和中间推理。
据IDC预计,全球Agent年执行任务数将从2025年的约440亿次增长到2030年的超过400万亿次。
英特尔管理层在2026年一季度财报电话会上表示,AI智能体时代每吉瓦功耗所需的CPU核心数可能从当前的约3000万增长到1.2亿。市场研究机构Gartner也预测,到2027年将有40%的Agent项目因基础设施成本超支而被收缩或取消,其中相当一部分超支来自CPU端持续产生的工具调用和上下文管理开销。
Agent在处理长对话和复杂任务时会产生大量中间数据。AI系统在推理过程中需要记住之前所有的对话内容和工具调用结果,行业术语叫KV Cache(键值缓存),它会随着对话轮次不断膨胀,但GPU自带的存储容量非常有限,英伟达H100只有80GB,下一代B200也只有192GB,一个复杂的Agent任务产生的中间数据很容易就超过这个上限。
目前,业界普遍采用的办法是把这些中间数据从GPU转移到CPU一侧。CPU可以外挂DDR5内存,单颗容量达到数TB,比GPU存储大出一到两个数量级。
由英特尔、AMD、ARM等芯片厂商组成的CXL行业联盟在2025年11月发布了CXL 4.0协议(Compute Express Link,一种用于芯片之间高速互联的开放标准),允许多颗CPU共享同一个大容量内存池,减少数据在芯片之间搬运的开销。
由此,CPU不再只负责任务调度,还要负责AI推理过程中的数据存储和内存管理。
另外,CPU本身在过去几年也经历了密集的技术升级。服务器CPU的核心数从2017年的28核,攀升到2026年的288核(英特尔Clearwater Forest)和256核(AMD Venice),密度提升接近10倍。
英特尔在2023年引入了AMX(高级矩阵扩展)指令集,让CPU第一次具备专用矩阵计算单元。根据英特尔方面的测试数据,在深度学习推理场景下,搭载AMX的第四代至强处理器AI性能较前一代最高提升近10倍。内存子系统也从DDR4升级到DDR5,单平台带宽和容量均实现翻倍。
核心数和指令集的升级,也对应着CPU与GPU配比的变化。英特尔CEO陈立武在2026年一季度财报电话会上说,训练场景下通常是7到8颗GPU配1颗CPU,推理场景下收敛到3到4颗GPU配1颗CPU,Agent场景下有望进一步收敛至1:1。
英特尔CFO大卫·辛斯纳(David Zinsner)在同一场电话会上补充表示,行业整体的CPU与GPU配比已从过去的1:8收敛至约1:4。
十多年来首次大涨价
上述配比变化已经传导到产品定价上。
深圳一家CPU经销商的市场负责人贾彬告诉记者,从2026年2月起,英特尔和AMD陆续上调了全系列服务器CPU价格,整体涨幅在10%到15%之间,部分高端AI服务器CPU的现货溢价更高,下半年可能会有新一轮价格上调。
贾彬说,过去十多年,服务器CPU基本是“加量不加价”,性能随制程提升,但单价维持不变,今年的涨价幅度在行业里很少见。英特尔主力产线的产能利用率已经从此前不足80%上升到100%,多个型号处于缺货状态,交货周期在3到4个月。
AMD同样面临产能紧张。贾彬说,2026年是他入行以来第一次看到英特尔和AMD的服务器CPU产能基本被全部订满,“过去CPU的供给一直是充足的,今年反过来了”。
贾彬还注意到,客户在采购AI服务器时对CPU的需求正在分化成两类。一类是机柜内部配合GPU运算的CPU,追求极限核数,128核以上,均价在4000美元以上,传统服务器CPU均价只有2000多美元。另一类是机柜外部独立部署的CPU,用于Agent的工具执行、沙箱运行和任务编排,不需要极限性能,64核左右就够,但数量要大得多。
贾彬说,每个Agent任务在理想状态下独占一颗CPU,独立部署比虚拟化分区效率更高,柜外CPU均价约3000美元,“核数越高单价涨幅越大,不是按比例增长的。所以,柜外用中档产品铺量,柜内用旗舰产品保性能,是目前客户的普遍做法”。
美银证券在6月11日发布的一份题为《智能体崛起(Rise of the Agents)》的半导体行业研报中,将2030年服务器CPU的总潜在市场规模(TAM)预测上调至1700亿美元以上,并首次将这个市场拆成三个部分:传统云计算CPU约300亿美元,AI集群头节点CPU约700亿美元,AI智能体独立节点CPU约700亿美元。其中,第三个部分在2025年的规模接近于零,是2026年才开始出现的全新市场。
摩根士丹利在6月4日的一份研报中也预测,智能体AI将在2030年前为服务器CPU市场带来325亿至600亿美元的新增需求。中泰证券在6月7日发布的CPU深度研报中将2026年定义为“CPU受益AI放量的元年”。
上述美银证券研报还列出了一组出货量的历史对比:2022年AI CPU的出货量相当于AI加速器(GPU等)出货量的19%,到2025年这个比例升至51%,预计2030年将达到127%。按照这个预测,AI服务器中CPU的数量将在5年内超过GPU。
国产CPU的新需求
英伟达在台北电脑展期间公布的信息显示,其最新发布的Vera CPU基于ARM架构(一种以低功耗和高能效著称的CPU指令集,与x86并列为两大主流架构),单机柜可部署256颗,采用液冷散热。
在Agent沙箱场景中,Vera的性能是x86处理器的1.8倍。在英伟达最新发布的Vera Rubin超级计算集群(英伟达下一代AI数据中心平台)中,一个40机架的POD(由多个机架组成的最小完整计算单元)包含1152颗Rubin GPU和最多1088颗Vera CPU,两者配比接近1:1。
英伟达方面还提到,此前发布的Grace CPU已累计出货近250万颗,2026年CPU相关收入有望接近200亿美元。
贾彬认为,上述200亿美元的统计口径较宽,涵盖了CPU在多种产品形态中的收入归属,与传统意义上单独销售CPU芯片的收入不完全相同。但即便考虑口径差异,对一个2024年还没有独立CPU业务的公司来说,这个体量已经不小。
林美炳认为,英伟达做CPU的信号意义大于产品本身,过去AI服务器以GPU为核心,CPU只是配套,当全球最大的GPU公司亲自做CPU并把首批客户锁定为OpenAI和Anthropic,CPU的市场地位已经和两年前完全不同。
根据AMD2026年一季度财报,该公司数据中心业务收入达到57.75亿美元,首次超过英特尔同期的51亿美元。并且,苏姿丰在财报电话会上提出了一个五年目标:数据中心年营收迈向1000亿美元。
英特尔CEO陈立武也在多个公开场合表示,他对CPU在AI时代的核心作用抱有坚定信心。
这对中国的CPU产业链企业也是一个机会。贾彬称,国内头部云厂商今年在加大服务器CPU的采购力度,一方面是为新建AI数据中心配套GPU采购CPU,另一方面是因为CPU与GPU的配比从过去的1:8收敛到1:4甚至更高,同一个数据中心需要的CPU数量比去年多出一倍以上。
事实上,在国内,围绕服务器CPU已经形成了相对完整的产业链。
海光信息(688041.SH)是目前国内x86架构服务器CPU出货量最大的厂商之一。根据相关财报,海光信息2025年的营收为143.77亿元,同比增长56.92%;2026年一季度营收为40.34亿元,同比增速进一步提高到68.06%。
根据公开信息,华为鲲鹏走ARM全栈自研路线,鲲鹏920/950与昇腾AI芯片深度协同,主要服务华为自有生态和信创市场。
在配套芯片方面,澜起科技(688008.SH)的主营产品是内存接口芯片(服务器CPU与内存条之间的信号中转芯片)。根据公开信息,其内存接口芯片在2024年以36.8%的市场份额位居全球第一;另一条产品线PCIe Retimer芯片(用于高速数据传输中的信号放大和修复),2024年全球市场份额为10.9%,排名第二。
在封测制造环节,根据公开信息,通富微电(002156.SZ)是AMD在全球范围内最重要的封测合作伙伴之一。
李彬告诉记者,国产芯片的软件生态正在接近一个临界点。他举了一个例子:DeepSeek V4发布当天,多家国产芯片厂商在同一天内完成了适配,而此前DeepSeek R1的适配周期需要1到2个月。适配速度的大幅加快说明国产芯片的软件工具链和驱动层正在快速成熟,这对整个国产CPU和加速器产业链都是利好。
在林美炳看来,国产CPU的受益逻辑分为两层:一层是全球服务器CPU需求增长带来的行业增长,另一层是信创政策驱动的国产替代。
根据国资委2022年下发的相关文件要求,央国企要在2027年底前完成信息化系统的国产化改造。记者在采访过程中也了解到,国内高端服务器CPU的国产化率目前仍较低,替代空间广阔。距离政策节点还有不到2年时间,信创CPU的交付窗口正在收窄,这对海光信息、龙芯中科(688047.SH)等国产CPU厂商的产品成熟度和出货能力都是一次集中检验。
林美炳认为,当前这一轮CPU涨价周期和过去不同,增量来自AI Agent对CPU的全新需求,而非制程升级带动的换代需求。
应志伟的判断类似。他说,过去几年市场的注意力几乎全部集中在GPU上,但当AI应用真正进入大规模落地阶段,CPU承担的调度和管理职能只会越来越重。在他看来,这不是CPU要取代GPU,GPU依然重要,但接下来真正拉开差距的是CPU和GPU之间的协同能力,而非单颗芯片的性能参数。
本文来自微信公众号: 经济观察报 ,作者:郑晨烨








