越过“内存墙”，AI推理时代的晶圆级革命与算力路线

marsbit发布于2026-06-05更新于2026-06-05

文章摘要

2026年，AI产业进入新拐点：全球主要云厂商的推理资本支出首次超过训练。这意味着算力需求核心从“炼模型”转向“用模型”，瓶颈也从计算规模变为“内存墙”——即数据在GPU与片外存储间搬运带来的高能耗与延迟。为突破内存墙，Cerebras公司选择了“晶圆级计算”的激进路线。其核心产品WSE-3不切割晶圆，直接制成超大芯片，集成90万个AI核心和44GB片上SRAM，带来远超传统GPU（如英伟达B200）的片上内存带宽。其架构将模型权重存储于片外MemoryX，按需流式传输至芯片计算，从而在LLM推理，尤其是首token延迟和长上下文任务中展现出显著优势，token生成速率可达GPU的1.5-5倍。同时，其芯片内互联功耗也远低于当前GPU。但这种极致物理优化也带来挑战：通过先进制程提升SRAM容量的路径已近天花板；整片晶圆发热量大，需专用液冷；片外I/O带宽有限，难以高速扩展形成大规模集群；软件生态也与主流CUDA不兼容。与此同时，行业巨头正通过多条路径围剿：1）自研ASIC推理芯片（如谷歌TPU、微软Maia）；2）利用台积电SoW等先进封装技术将“晶圆级”能力通用化、平民化；3）探索光互联/光计算作为终极解决方案。 Cerebras还面临商业转型的挑战，巨额订单迫使其从芯片商转向云服务商，需快速建设专用数据中心，交付压力巨大。最终，AI推理时代的算力架构呈现路线分野：Cerebras向左，追求单任务下的极致低延迟；英伟达向右，以通用性应对多变负载。技术变革仍在继续，谁将主导未来，尚无定论。

2026年,全球AI的发展迎来了一个标志性的拐点——超大规模云厂商的推理资本支出,历史上第一次超过训练资本支出。产业锚点从“炼大模型”向“用大模型”转移,算力需求的结构发生了根本性翻转。

在训练时代,算力的核心矛盾是“双精度浮点与集群规模”;而步入推理时代,核心矛盾变成了“内存带宽与通信延迟”。

大模型推理的瓶颈不再仅仅是计算,而是数据搬运——模型权重、中间激活值和KV Cache需要在片外DRAM(如HBM)和GPU之间频繁交互,模型越大,数据搬移的能耗与延迟越高,最终远超计算本身的能耗,从而形成了内存墙。

英伟达GPU凭借CUDA和NVLink构筑了坚固堡垒,但仍然避免不了带宽瓶颈引发的GPU空转。

国内大模型公司智谱做了一个很简单的实验:一个512卡的推理集群,GPU不变、模型不变、代码不变,只把网络带宽上限从200GB/S换成400GGB/S,推理吞吐直接涨了10%,首token输出时延降了19%——道理很简单,只要把路拓宽,车就能跑得更快。

然而,以Cerebras为代表的非GPU架构,似乎正在内存墙上撕开一道口子。

Cerebras WSE-3 芯片与英伟达B200 GPU 尺寸对比

Cerebras的本质:一台基于SRAM的近存计算机器

Cerebras Systems由 Andrew Feldman 等人在硅谷创立,早期的创始团队悉数来自一家叫SeaMicro的低功耗微服务器,这家公司后来被AMD收购,随后:

2015年,创始团队确立“晶圆级计算”路线;

2016年,完成注册、A轮融资,进入隐身研发阶段;

2019年,发布首款产品WSE-1 芯片和CS-1系统,基于台积电16nm工艺;

2021年,发布第二代产品,基于台积电7nm工艺;

2024年,发布第三代产品(WSE-3 / CS-3),基于台积电5nm工艺,芯片和系统均在美国完成制造,是地道的纯美国制造的芯片系统。

CS-3系统配置,包含1颗 WSE-3芯片

Cerebras的晶圆级引擎(Wafer-Scale Engine, WSE)架构哲学,简单粗暴却直击痛点:用物理空间的极致放大,换取对数据搬运延迟的极致压缩。

普通芯片是把一片晶圆切成很多小芯片,比如英伟达GPU就是这种思路。 Cerebras反过来:不切,直接把几乎整片晶圆做成一颗超大芯片,叫 Wafer-Scale Engine,WSE。

传统芯片是将一整块300mm直径晶圆,切割成数百个小芯片而形成;而Cerebras选择保留整片晶圆,直接作为整个芯片。最新的WSE-3拥有4万亿晶体管、90万个AI核心,每个核心配备48KB本地SRAM,从而让整个芯片的的片上SRAM达到44GB,提供21PB/秒的片上内存带宽(on‐chip memory bandwidth)和214Pb/秒的网络带宽(fabric bandwidth),这是传统HBM带宽的数千倍。

Cerebras WSE的内存带宽是英伟达B200封装芯片的2625倍,打破了大模型推理场景下的内存带宽瓶颈。

在Cerebras的架构中,模型权重从来都不会存在SRAM上,而是在片外存储MemoryX上,并逐层向大芯片上转移。实现方式是将神经网络模型的权重存储与计算单元相互分离。

所有模型权重均外置存放于内存扩展模块MemoryX中,网络每一层计算所需的权重,会按需逐层传输至CS-3系统。权重存储在MEMORY X的DRAM与闪存内,并以满带宽速率向CS-3系统传输。这些权重不会存入CS-3系统,就连临时缓存也不会留存,CS-3依靠核心底层的数据流机制完成运算。

Cerebras凭借晶圆级架构,在受限于内存带宽的LLM推理中,展现出降维打击般的壁垒。逐Token生成时,权重按层从片外MemoryX流式传输至CS-3,跑不同的模型,token速率是英伟达B200的1.5 - 5倍。

英伟达DGX B200 GPU versus Cerebras CS-3芯片,跑不同大模型的Token速率比较

其优势核心在于:CS-3的44GB片上SRAM提供21 PB/s(B200的2625倍)超高带宽与214 Pb/s互联,使权重流传输摆脱HBM接口限制。故在TTFT(Time To First Token,从请求发出到模型返回第一个token 的时间)、长上下文以及智能体工作负载上,表现尤为突出。

虽然权重外置于MemoryX按需逐层加载且不在片上缓存,CS-3依靠核心数据流机制在SRAM完成全FP16精度无损运算;凭借线性性能扩展,其在多用户并发推理下亦释放出惊人的总吞吐。

除了带宽,还有功耗的优势。近期,中际旭创董事长刘圣演讲中也提到,客户对于光模块的要求是1 pJ/bit,而当前是10 pJ/bit。在Cerebras芯片中,互联的功耗只有0.15 pJ/bit, 而当前GPU的互联功耗是10 pJ/bit。

Cerebras互联与GPU互联架构的带宽和功耗对比

由此可见,如果Cerebras的晶圆级大芯片架构成为AI推理甚至训练的主流,也许将会对传统光模块和CPO(共封装光学)的出货量产生显著的抑制和结构性改变。核心逻辑在于:光模块和CPO的高需求,本质上是为了解决GPU集群中“芯片间互联”和“节点间互联”的带宽瓶颈;而Cerebras的架构恰恰是通过“消除分布式互联”来解决问题的。

反直觉:晶圆级大芯片的“真假”硬伤

芯片的核心永远在于Trade Off(取舍之道)。Cerebras为了片上SRAM的极致带宽,也带来一些问题。

良率低?

恰恰相反,单个AI核心尺寸减至0.05平方毫米(H100 单个运算核心尺寸的1%),因此良率反而更高。通过片上的路由,可关停和绕过有缺陷的核心,从而使得与传统多核处理器相比,缺陷容忍度提升了100倍。其实整个芯片有100万个AI核心,但是考虑了良率,对外声称是90万个AI核心。

只擅长推理,不擅长训练?

在Cerebras成立的数年之内,训练是主流课题,因此公司始终围绕着训练做了大量工作,只是推理需求火爆后,大家发现其在推理方面的优势更明显。

实际上简化的分布计算,也带来了代码复杂度降低、通信开销降低的一系列优势。

在4000块GPU上训练一个1750亿参数的模型,通常需要大约2万行分布式训练代码。

Cerebras 实现了565行代码的等效训练——整个模型可安装在晶圆上,且不需处理数据并行复杂性。

SRAM缩放已死,核心优势面临物理天花板。

第三代产品基于台积电5nm,其SRAM容量仅仅比基于台积电7nm的第二代产品增加了10%,在5nm之后,SRAM单元面积几乎不再随制程进步而缩小。

这意味着Cerebras无法再像过去那样,通过升级台积电制程(如从5nm走向3nm)来显著增加其核心优势(SRAM容量)。

受限于晶圆尺寸、散热能力及制造成本,片上SRAM等存储资源难以与计算核心同步线性扩展,资源配比遭遇瓶颈。这几乎堵死了其进化之路。

Cerebras 三代产品技术规格

散热、工艺与生态的三重炼狱。

整片晶圆集中发热,热流密度较高,必须依赖定制机房和专用液冷系统,此外,生态通用性意味着客户必须适应其定制化的软件栈,与现有CUDA等通用编程框架的兼容性弱,软件移植与适配成本高昂。

片外带宽低,成为扩展“孤岛”。

由于晶圆级物理设计的限制,WSE边缘能够引出的I/O引脚数量极其有限,导致其I/O带宽仅为150GB/s。这与英伟达NVLink动辄1.8TB/s的双向带宽相比,犹如蜗牛。这意味着WSE极难向外高速扩展。尽管Cerebras的SwarmX互联在多系统组合上做得尚可,但在需要多芯片高速互联的超大模型面前,极低的片外带宽成为了结构性的物理枷锁。

路线之争:大厂自研,Cerebras的窗口期还剩多久?

大厂解决“推理需要更高带宽+更低延迟”的方法,不止wafer-scale一条路,他们正在通过三条并行路径,对初创公司的技术红利进行围剿。

1 自研 ASIC芯片

Google TPU v8已经分裂为training-specific和inference-specific两个版本;AWS Trainium 4在路上;Microsoft Maia已在Azure内部使用,基于台积电 3nm 工艺构建,原生 FP8/FP4 张量核心,重新设计的内存系统,配备 216GB HBM3e,272MB 片上SRAM;甚至连Anthropic都开始评估自研inference chip。

这条路径的概率极高,它将直接导致“第三方inference采购”在2028年的TAM(总可达市场),上限被压缩10%到25%。

2 标准Packaging路线的工艺通用化

这是对Cerebras最直接的降维打击。

TSMC的SoW(System-on-Wafer)已经向客户广泛开放,CoWoS 9.5x interposer也将在2027年上线。

这两个产品做的事——把多颗die在wafer级别stitching——本质上就是把Cerebras的物理工艺通用化、平民化。

英伟达的Vera Rubin将在2026下半年进入这个生态。

Cerebras自家做的cross-reticle stitching虽是独占,但独占的窗口期最长只有2到3年,到2027 - 2028年之后,其工艺壁垒将被台积电的先进封装稀释。

3 光互联/光计算的突围

电子芯片的互联与内存墙已至极限,光子的高带宽、低延迟、零串扰是终极解法。

以Lumentum为代表的光学路线正在崛起。Wafer-scale的最大优势就是片上计算,但模型必然越来越大,wafer scale往上的高速互联是刚需。

随着CPO(共封装光学)和Optical Interconnects的成熟,未来我们极有可能看到光I/O直接引入WSE晶圆,打破电互联枷锁;而英伟达也可能通过收购LPU(如Groq)等具备特定架构优势的公司,结合光互联,开发兼容现有NV超节点软件的晶圆级系统。

悬崖上的狂奔:Cerebras的商业与交付

Cerebras目前正面临一场由巨额订单倒逼的悬崖式狂奔。

与OpenAI等头部大客户的交易,迫使Cerebras从一家芯片公司转型为新型云服务商。它不再只是卖硬件,而是需要在短期内锁定并建设海量的数据中心电力和设施。

根据合同要求,Cerebras需要在2026 - 2028年每年交付250MW的数据中心容量。然而,晶圆级系统对机房的要求极高,无法直接塞进传统的风冷IDC。目前,Cerebras在数据中心容量的筹备上进度已经明显落后于合同要求。

从流片到建厂,从电力审批到冷却系统部署,这是一个重资产、长周期的泥潭。

尾声:向左还是向右?

回到最初的命题,当推理算力拐点已至,算力架构的核心永远在于取舍。

没有绝对的对错,只有在最重要负载下的相对最优解。负载其实已经在变。

Cerebras向左,选择了极致的物理优化,用整片晶圆和海量SRAM换取单任务下的极致低延迟,这对首token延迟极度敏感的场景下是无敌的。

英伟达向右,选择了保持通用性,用HBM + NVLink + 超大集群吞吐,应对负载的千变万化,以不变应万变。

风起云涌,前路未卜。正是这种技术与商业的双重不确定性,才孕育着颠覆的可能。在通往AGI的算力洪流中,现在下定论还为时尚早——因为不确定,才有机会。

本文来自微信公众号“大蒜粒机研所”,作者:霹雳游侠

你可能也喜欢

MemeCore代币暴跌，ZachXBT警告再次引发对内部供应问题的关注

Memecore的M代币在短期内暴跌超过70%，引发市场关注。此次抛售并无明确官方原因，但重新引起了人们对流动性薄弱、内部人员持币集中以及交易所上币标准的担忧。链上调查员ZachXBT此前已多次警告，某些代币结构由内部人员高度控制，且交易所的上币审核或存漏洞。此次事件凸显了模因币估值的脆弱性：当买盘消失、流动性枯竭时，巨大的账面市值可能会迅速蒸发。这对模因币交易者是一个警示：交易所上市和社交热度并不等同于强大的流动性。一旦开始抛售，名义市值与实际买单之间的差距将暴露无遗。市场正关注团队回应、交易所评论及链上数据，以判断抛售驱动因素。此事也反映出当前加密市场的更广泛背景：监管趋严、机构产品发展，以及交易者在流动性减弱时反应迅速。它再次提醒市场参与者，在高波动性代币交易中需警惕流动性风险和结构性问题。

bitcoinist17分钟前

bitcoinist17分钟前

GPT设计GPT

OpenAI推出其首款自研芯片Jalapeño，这标志着公司不再满足于仅做一家模型公司，而是开始控制智能生产的全链条。当前，模型能力的领先窗口正在缩短，真正的长期壁垒已转向底层基础设施——算力、推理成本与能源效率。Jalapeño是一款面向大模型推理的芯片，旨在降低OpenAI自身产品的Token生成成本，尤其是日常的推理开销。该芯片仅用九个月完成流片，其关键在于OpenAI将运行ChatGPT等产品的实际负载经验融入了芯片设计，甚至利用AI辅助优化设计流程，形成了“AI设计芯片，芯片运行下一代AI”的闭环。这不仅能提升系统效率、削减“推理税”，还可能加速迭代，形成强大的业务飞轮。此举并非简单挑战英伟达，而是效仿苹果构建软硬一体闭环的战略。OpenAI正整合模型、产品、API、芯片与数据中心，目标是成为控制智能生产的“矿山”，直接出售智能本身，而非依赖外部算力平台。这预示着AI行业的竞争核心正从模型本身，转向拥有计算工厂与全栈控制力的少数玩家。

marsbit18分钟前

marsbit18分钟前

以太坊基金会临时执行董事发声：我们的使命是什么？

以太坊基金会（EF）临时联合执行董事 Aerugo 发文明确了基金会的核心使命：确保以太坊始终是真正无需许可、保障用户自主权的基础设施，能够抵御审查、开源自由、私密安全，并支持大规模的自主协调。文章首先明确了EF的“不为”：不追求自身重要性或商业吸引力，不服务短期投机者，也不推广所有应用。其核心作用是“消除弱点”，防御以太坊在协议、访问、用户和机构各层可能出现的榨取性、控制性或监视性风险。具体工作重点包括： 1. **自身实践**：将EF薪酬与财务转向以太坊原生资产，以身作则使用其力图改进的技术栈。 2. **对抗有害MEV**：将其视为核心威胁而非次要市场问题，致力于从系统层面降低MEV提取，防止交易流程被特权供应链把控，维护可信中立执行。 3. **强化隐私**：认为缺乏严格隐私默认设置的公链实为监控平台，必须优先实现强大的无条件隐私保护。 4. **保障质押去中心化**：视质押为协议安全基石，防止其集中在少数发行者或运营商手中。 5. **维护访问层自主性**：确保用户和机构能自主、抗胁迫地访问以太坊，而非通过削弱其核心价值的妥协方式。同时，EF也致力于“抓住机遇”，推动以太坊发展为：抗量子攻击的全球基础设施；具备完全自主可验证、最小化有害MEV的协议栈；私密、尊重尊严的普通数字现金与协调平台；用户拥有完整主权的个人AI代理钱包；以及在机构场景中凭借其可信中立性胜出，而非沦为后端工具。文章最后提及了近期的人员变动与“衍生公司”问题，强调离职原因多样，EF尊重所有贡献者但不会公开讨论个人事宜。对于从EF分离出去的项目，EF将谨慎评估资助，标准在于其是否对实现以太坊核心使命（无需许可、自主权等）至关重要，而非出于人情或延续旧项目。EF明确表示对以太坊的发展方向并非中立，将全力支持并优先推进那些保障其核心特性的工作。

链捕手1小时前

链捕手1小时前

读博最后一年转方向，拿到OpenAI offer：我的面试之路充满「意外」

布朗大学博士生Yong Zheng-Xin（中文名应为“永正新”）将在下个月以Astra Fellow身份加入OpenAI，专注于AI安全研究（AI Safety Research）。他在博士最后一年从多语言大模型研究方向转向AI安全领域，并分享了求职过程中的六个“意外”发现： 1. **论文数量并非关键**：获得面试和工作机会，真正起作用的往往只有一两篇高质量论文，甚至无需论文，更看重当场解决问题的能力。 2. **面试形式高度多样**：除了常规技术面试，还可能涉及系统设计、并行编程，甚至考察使用AI智能体的能力。 3. **工作试用期渐成常态**：尤其是在AI初创公司，候选者可能需要与团队合作完成一项有时长达一周的有偿任务，这会影响同时准备其他面试。 4. **时机至关重要**：就业市场的热点、职位需求窗口期、个人研究作品的走红时机，都会极大影响求职过程和结果。 5. **研究职位鲜有“留用”机会**：与软件工程岗位不同，研究类职位（如实习、奖学金结束后）通常仍需经历完整的面试流程才能转正。 6. **面试内容常与研究方向无关**：尽管他转向了AI安全领域，但许多面试环节并未专门考察该领域的知识，而是评估其作为AI研究员的综合基础能力。他建议，在准备面试时要广泛学习，夯实基础，并可根据情况合理要求调整面试时间。最终，他对自己能获得满意的工作机会感到庆幸。

marsbit1小时前

marsbit1小时前

David Villa 正式出任 BitradeX 品牌大使

2026年世界杯热潮席卷全球之际，数字资产生态平台BitradeX宣布，聘请2010年世界杯冠军成员、西班牙传奇前锋大卫·比利亚（David Villa）出任其全球品牌大使。双方将在品牌建设、全球市场推广及社区拓展等领域深度合作，共同提升BitradeX的全球影响力。比利亚是西班牙足球黄金时代的代表，曾助国家队夺得2008年、2012年欧洲杯及2010年世界杯冠军，并以59球长期保持西班牙国家队历史射手王纪录。其职业生涯展现了坚持、专注与突破的冠军精神，这与BitradeX所秉持的创新、长期发展和全球化理念高度契合。 BitradeX作为AI驱动的数字资产生态平台，业务涵盖AiBot、BXC Ecosystem、BTX Card等核心板块。比利亚的加入将凭借其全球影响力与公众信任，成为连接全球用户的重要桥梁，助力平台全球化战略推进。此次合作不仅是品牌联合，更是冠军精神的传递，象征着双方在数字时代共同追求卓越、创造长期价值的决心。新的征程已开启，BitradeX将继续以用户价值为核心，与全球用户携手迎接新机遇。

链捕手1小时前

链捕手1小时前

交易

现货

合约

越过“内存墙”，AI推理时代的晶圆级革命与算力路线

文章摘要

Cerebras的本质:一台基于SRAM的近存计算机器

反直觉:晶圆级大芯片的“真假”硬伤

路线之争:大厂自研,Cerebras的窗口期还剩多久?

悬崖上的狂奔:Cerebras的商业与交付

尾声:向左还是向右?

热门币种推荐

相关问答

你可能也喜欢

MemeCore代币暴跌，ZachXBT警告再次引发对内部供应问题的关注

GPT设计GPT

以太坊基金会临时执行董事发声：我们的使命是什么？

读博最后一年转方向，拿到OpenAI offer：我的面试之路充满「意外」

David Villa 正式出任 BitradeX 品牌大使

交易

热门文章

如何购买ERA

相关讨论

热门问答

热门分类

热门标签