越过“内存墙”,AI推理时代的晶圆级革命与算力路线

marsbit發佈於 2026-06-05更新於 2026-06-05

文章摘要

2026年,AI产业进入新拐点:全球主要云厂商的推理资本支出首次超过训练。这意味着算力需求核心从“炼模型”转向“用模型”,瓶颈也从计算规模变为“内存墙”——即数据在GPU与片外存储间搬运带来的高能耗与延迟。 为突破内存墙,Cerebras公司选择了“晶圆级计算”的激进路线。其核心产品WSE-3不切割晶圆,直接制成超大芯片,集成90万个AI核心和44GB片上SRAM,带来远超传统GPU(如英伟达B200)的片上内存带宽。其架构将模型权重存储于片外MemoryX,按需流式传输至芯片计算,从而在LLM推理,尤其是首token延迟和长上下文任务中展现出显著优势,token生成速率可达GPU的1.5-5倍。同时,其芯片内互联功耗也远低于当前GPU。 但这种极致物理优化也带来挑战:通过先进制程提升SRAM容量的路径已近天花板;整片晶圆发热量大,需专用液冷;片外I/O带宽有限,难以高速扩展形成大规模集群;软件生态也与主流CUDA不兼容。 与此同时,行业巨头正通过多条路径围剿:1)自研ASIC推理芯片(如谷歌TPU、微软Maia);2)利用台积电SoW等先进封装技术将“晶圆级”能力通用化、平民化;3)探索光互联/光计算作为终极解决方案。 Cerebras还面临商业转型的挑战,巨额订单迫使其从芯片商转向云服务商,需快速建设专用数据中心,交付压力巨大。 最终,AI推理时代的算力架构呈现路线分野:Cerebras向左,追求单任务下的极致低延迟;英伟达向右,以通用性应对多变负载。技术变革仍在继续,谁将主导未来,尚无定论。

2026年,全球AI的发展迎来了一个标志性的拐点——超大规模云厂商的推理资本支出,历史上第一次超过训练资本支出。产业锚点从“炼大模型”向“用大模型”转移,算力需求的结构发生了根本性翻转。

在训练时代,算力的核心矛盾是“双精度浮点与集群规模”;而步入推理时代,核心矛盾变成了“内存带宽与通信延迟”。

大模型推理的瓶颈不再仅仅是计算,而是数据搬运——模型权重、中间激活值和KV Cache需要在片外DRAM(如HBM)和GPU之间频繁交互,模型越大,数据搬移的能耗与延迟越高,最终远超计算本身的能耗,从而形成了内存墙。

英伟达GPU凭借CUDA和NVLink构筑了坚固堡垒,但仍然避免不了带宽瓶颈引发的GPU空转。

国内大模型公司智谱做了一个很简单的实验:一个512卡的推理集群,GPU不变、模型不变、代码不变,只把网络带宽上限从200GB/S换成400GGB/S,推理吞吐直接涨了10%,首token输出时延降了19%——道理很简单,只要把路拓宽,车就能跑得更快。

然而,以Cerebras为代表的非GPU架构,似乎正在内存墙上撕开一道口子。

Cerebras WSE-3 芯片与英伟达B200 GPU 尺寸对比

Cerebras的本质:一台基于SRAM的近存计算机器

Cerebras Systems由 Andrew Feldman 等人在硅谷创立,早期的创始团队悉数来自一家叫SeaMicro的低功耗微服务器,这家公司后来被AMD收购,随后:

2015年,创始团队确立“晶圆级计算”路线;

2016年,完成注册、A轮融资,进入隐身研发阶段;

2019年,发布首款产品WSE-1 芯片和CS-1系统,基于台积电16nm工艺;

2021年,发布第二代产品,基于台积电7nm工艺;

2024年,发布第三代产品(WSE-3 / CS-3),基于台积电5nm工艺,芯片和系统均在美国完成制造,是地道的纯美国制造的芯片系统。

CS-3系统配置,包含1颗 WSE-3芯片

Cerebras的晶圆级引擎(Wafer-Scale Engine, WSE)架构哲学,简单粗暴却直击痛点:用物理空间的极致放大,换取对数据搬运延迟的极致压缩。

普通芯片是把一片晶圆切成很多小芯片,比如英伟达GPU就是这种思路。 Cerebras反过来:不切,直接把几乎整片晶圆做成一颗超大芯片,叫 Wafer-Scale Engine,WSE。

传统芯片是将一整块300mm直径晶圆,切割成数百个小芯片而形成;而Cerebras选择保留整片晶圆,直接作为整个芯片。最新的WSE-3拥有4万亿晶体管、90万个AI核心,每个核心配备48KB本地SRAM,从而让整个芯片的的片上SRAM达到44GB,提供21PB/秒的片上内存带宽(on‐chip memory bandwidth)和214Pb/秒的网络带宽(fabric bandwidth),这是传统HBM带宽的数千倍。

Cerebras WSE的内存带宽是英伟达B200封装芯片的2625倍,打破了大模型推理场景下的内存带宽瓶颈。

在Cerebras的架构中,模型权重从来都不会存在SRAM上,而是在片外存储MemoryX上,并逐层向大芯片上转移。实现方式是将神经网络模型的权重存储与计算单元相互分离。

所有模型权重均外置存放于内存扩展模块MemoryX中,网络每一层计算所需的权重,会按需逐层传输至CS-3系统。权重存储在MEMORY X的DRAM与闪存内,并以满带宽速率向CS-3系统传输。这些权重不会存入CS-3系统,就连临时缓存也不会留存,CS-3依靠核心底层的数据流机制完成运算。

Cerebras凭借晶圆级架构,在受限于内存带宽的LLM推理中,展现出降维打击般的壁垒。逐Token生成时,权重按层从片外MemoryX流式传输至CS-3,跑不同的模型,token速率是英伟达B200的1.5 - 5倍。

英伟达DGX B200 GPU versus Cerebras CS-3芯片,跑不同大模型的Token速率比较

其优势核心在于:CS-3的44GB片上SRAM提供21 PB/s(B200的2625倍)超高带宽与214 Pb/s互联,使权重流传输摆脱HBM接口限制。故在TTFT(Time To First Token,从请求发出到模型返回第一个token 的时间)、长上下文以及智能体工作负载上,表现尤为突出。

虽然权重外置于MemoryX按需逐层加载且不在片上缓存,CS-3依靠核心数据流机制在SRAM完成全FP16精度无损运算;凭借线性性能扩展,其在多用户并发推理下亦释放出惊人的总吞吐。

除了带宽,还有功耗的优势。近期,中际旭创董事长刘圣演讲中也提到,客户对于光模块的要求是1 pJ/bit,而当前是10 pJ/bit。在Cerebras芯片中,互联的功耗只有0.15 pJ/bit, 而当前GPU的互联功耗是10 pJ/bit。

Cerebras互联与GPU互联架构的带宽和功耗对比

由此可见,如果Cerebras的晶圆级大芯片架构成为AI推理甚至训练的主流,也许将会对传统光模块和CPO(共封装光学)的出货量产生显著的抑制和结构性改变。核心逻辑在于:光模块和CPO的高需求,本质上是为了解决GPU集群中“芯片间互联”和“节点间互联”的带宽瓶颈;而Cerebras的架构恰恰是通过“消除分布式互联”来解决问题的。

反直觉:晶圆级大芯片的“真假”硬伤

芯片的核心永远在于Trade Off(取舍之道)。Cerebras为了片上SRAM的极致带宽,也带来一些问题。

良率低?

恰恰相反,单个AI核心尺寸减至0.05平方毫米(H100 单个运算核心尺寸的1%),因此良率反而更高。通过片上的路由,可关停和绕过有缺陷的核心,从而使得与传统多核处理器相比,缺陷容忍度提升了100倍。其实整个芯片有100万个AI核心,但是考虑了良率,对外声称是90万个AI核心。

只擅长推理,不擅长训练?

在Cerebras成立的数年之内,训练是主流课题,因此公司始终围绕着训练做了大量工作,只是推理需求火爆后,大家发现其在推理方面的优势更明显。

实际上简化的分布计算,也带来了代码复杂度降低、通信开销降低的一系列优势。

在4000块GPU上训练一个1750亿参数的模型,通常需要大约2万行分布式训练代码。

Cerebras 实现了565行代码的等效训练——整个模型可安装在晶圆上,且不需处理数据并行复杂性。

SRAM缩放已死,核心优势面临物理天花板。

第三代产品基于台积电5nm,其SRAM容量仅仅比基于台积电7nm的第二代产品增加了10%,在5nm之后,SRAM单元面积几乎不再随制程进步而缩小。

这意味着Cerebras无法再像过去那样,通过升级台积电制程(如从5nm走向3nm)来显著增加其核心优势(SRAM容量)。

受限于晶圆尺寸、散热能力及制造成本,片上SRAM等存储资源难以与计算核心同步线性扩展,资源配比遭遇瓶颈。这几乎堵死了其进化之路。

Cerebras 三代产品技术规格

散热、工艺与生态的三重炼狱。

整片晶圆集中发热,热流密度较高,必须依赖定制机房和专用液冷系统,此外,生态通用性意味着客户必须适应其定制化的软件栈,与现有CUDA等通用编程框架的兼容性弱,软件移植与适配成本高昂。

片外带宽低,成为扩展“孤岛”。

由于晶圆级物理设计的限制,WSE边缘能够引出的I/O引脚数量极其有限,导致其I/O带宽仅为150GB/s。这与英伟达NVLink动辄1.8TB/s的双向带宽相比,犹如蜗牛。这意味着WSE极难向外高速扩展。尽管Cerebras的SwarmX互联在多系统组合上做得尚可,但在需要多芯片高速互联的超大模型面前,极低的片外带宽成为了结构性的物理枷锁。

路线之争:大厂自研,Cerebras的窗口期还剩多久?

大厂解决“推理需要更高带宽+更低延迟”的方法,不止wafer-scale一条路,他们正在通过三条并行路径,对初创公司的技术红利进行围剿。

1 自研 ASIC芯片

Google TPU v8已经分裂为training-specific和inference-specific两个版本;AWS Trainium 4在路上;Microsoft Maia已在Azure内部使用,基于台积电 3nm 工艺构建,原生 FP8/FP4 张量核心,重新设计的内存系统,配备 216GB HBM3e,272MB 片上SRAM;甚至连Anthropic都开始评估自研inference chip。

这条路径的概率极高,它将直接导致“第三方inference采购”在2028年的TAM(总可达市场),上限被压缩10%到25%。

2 标准Packaging路线的工艺通用化

这是对Cerebras最直接的降维打击。

TSMC的SoW(System-on-Wafer)已经向客户广泛开放,CoWoS 9.5x interposer也将在2027年上线。

这两个产品做的事——把多颗die在wafer级别stitching——本质上就是把Cerebras的物理工艺通用化、平民化。

英伟达的Vera Rubin将在2026下半年进入这个生态。

Cerebras自家做的cross-reticle stitching虽是独占,但独占的窗口期最长只有2到3年,到2027 - 2028年之后,其工艺壁垒将被台积电的先进封装稀释。

3 光互联/光计算的突围

电子芯片的互联与内存墙已至极限,光子的高带宽、低延迟、零串扰是终极解法。

以Lumentum为代表的光学路线正在崛起。Wafer-scale的最大优势就是片上计算,但模型必然越来越大,wafer scale往上的高速互联是刚需。

随着CPO(共封装光学)和Optical Interconnects的成熟,未来我们极有可能看到光I/O直接引入WSE晶圆,打破电互联枷锁;而英伟达也可能通过收购LPU(如Groq)等具备特定架构优势的公司,结合光互联,开发兼容现有NV超节点软件的晶圆级系统。

悬崖上的狂奔:Cerebras的商业与交付

Cerebras目前正面临一场由巨额订单倒逼的悬崖式狂奔。

与OpenAI等头部大客户的交易,迫使Cerebras从一家芯片公司转型为新型云服务商。它不再只是卖硬件,而是需要在短期内锁定并建设海量的数据中心电力和设施。

根据合同要求,Cerebras需要在2026 - 2028年每年交付250MW的数据中心容量。然而,晶圆级系统对机房的要求极高,无法直接塞进传统的风冷IDC。目前,Cerebras在数据中心容量的筹备上进度已经明显落后于合同要求。

从流片到建厂,从电力审批到冷却系统部署,这是一个重资产、长周期的泥潭。

尾声:向左还是向右?

回到最初的命题,当推理算力拐点已至,算力架构的核心永远在于取舍。

没有绝对的对错,只有在最重要负载下的相对最优解。负载其实已经在变。

Cerebras向左,选择了极致的物理优化,用整片晶圆和海量SRAM换取单任务下的极致低延迟,这对首token延迟极度敏感的场景下是无敌的。

英伟达向右,选择了保持通用性,用HBM + NVLink + 超大集群吞吐,应对负载的千变万化,以不变应万变。

风起云涌,前路未卜。正是这种技术与商业的双重不确定性,才孕育着颠覆的可能。在通往AGI的算力洪流中,现在下定论还为时尚早——因为不确定,才有机会。

本文来自微信公众号“大蒜粒机研所”,作者:霹雳游侠

相關問答

Q文章提到2026年AI产业的一个标志性拐点是什么?

A2026年,全球AI发展迎来了一个标志性拐点:超大规模云厂商的推理资本支出,历史上第一次超过训练资本支出。这标志着产业锚点从“炼大模型”向“用大模型”转移,算力需求结构发生了根本性翻转。

QCerebras晶圆级引擎(WSE)架构的主要设计哲学是什么?它带来了什么关键优势?

ACerebras WSE架构的哲学是:用物理空间的极致放大,换取对数据搬运延迟的极致压缩。它将几乎整片晶圆做成一颗超大芯片,其关键优势在于片上拥有海量的SRAM(如WSE-3为44GB),提供高达21PB/秒的片上内存带宽,是传统HBM带宽的数千倍,从而在大模型推理中极大地缓解了“内存墙”瓶颈。

Q文章指出Cerebras的晶圆级架构可能对传统光模块和CPO需求产生什么影响?原因是什么?

A文章指出,Cerebras的晶圆级大芯片架构若成为主流,可能会对传统光模块和CPO的出货量产生显著的抑制和结构性改变。核心逻辑在于:光模块和CPO的高需求本质是为了解决GPU集群中“芯片间互联”和“节点间互联”的带宽瓶颈,而Cerebras的架构恰恰是通过“消除分布式互联”(将计算集中在一块大芯片上)来从根本上解决这个问题,从而降低了对高速外部互联的需求。

Q除了优势,文章分析了Cerebras WSE架构面临哪些主要挑战或“硬伤”?

A文章分析了Cerebras WSE架构面临的几大挑战:1. 技术天花板:SRAM单元面积在5nm制程后几乎不再缩小,核心优势(SRAM容量)难以随制程进步线性增长。2. 物理限制:整片晶圆集中发热,散热要求极高,需要专用液冷和定制机房;I/O引脚有限,导致片外带宽(仅150GB/s)极低,成为扩展“孤岛”。3. 生态挑战:软件栈定制化,与现有CUDA等通用生态兼容性弱,软件移植和适配成本高昂。

Q为了应对推理时代的带宽和延迟挑战,大厂们正在通过哪三条主要路径进行布局?这对Cerebras意味着什么?

A大厂们主要通过三条路径布局:1. 自研ASIC芯片(如Google TPU v8、Microsoft Maia),这将压缩第三方推理芯片的市场空间。2. 标准封装路线的工艺通用化(如台积电SoW、CoWoS),这将在2027-2028年后稀释Cerebras的独占性工艺壁垒。3. 光互联/光计算的突围,利用光子技术突破电互联极限。这些布局意味着Cerebras作为初创公司所享受的技术红利窗口期正在收窄,面临来自巨头的直接竞争和行业标准化的降维打击。

你可能也喜歡

霍斯金森否认退出卡尔达诺的传闻:'我不会离开'

卡尔达诺创始人查尔斯·霍斯金森在6月4日的直播中否认了关于他将离开生态系统的传言,称自己只是减少公开沟通,并非辞职。此前他在X平台发布的“休息一下”帖子引发了社区担忧。 霍斯金森在直播中表示,他决定远离社交媒体主要是因为X平台上的毒性环境已难以忍受。他分析了自己近期帖子的约130条回复,发现近三分之一充满敌意、辱骂或污言秽语,部分甚至显示出有组织的攻击迹象。他认为在这种环境下进行有意义的交流几乎不可能。 他强调自己并未离开卡尔达诺,仍致力于包括RealFi、比特币可编程化、Midnight等项目的研究与开发工作。但他明确表示,自己的热情并非推动ADA价格上涨以满足投机者,他从未将此视为自己的职责。 霍斯金森描述了“两个卡尔达诺”的现状:一方面,自2021年以来协议、工程基础、去中心化和研究栈取得了显著进步;另一方面,市场价格表现导致批评者称该项目失败。这种差距造成了“认知失调”,他认为社区需要解决这个问题。 他呼吁生态系统需要做出改变:放弃以X为主要讨论场所、重新思考建设者激励、调整部分管理文化,并制定一个新的路线图以凝聚共识。他特别批评了卡尔达诺基金会,称其治理结构是自己职业生涯中“最糟糕的错误”,社区缺乏对其董事会、优先事项和人员的有效问责机制。 霍斯金森表示将暂时远离公开视频、采访和社交媒体,继续专注于Midnight的工作。他计划进行反思和恢复,未来再提出关于卡尔达诺发展的建议,范围可能从渐进式改革到更彻底的变革。他强调自己的底线是必须得到尊重和尊严,只愿留在能确保这一点的沟通渠道中。

bitcoinist1 小時前

霍斯金森否认退出卡尔达诺的传闻:'我不会离开'

bitcoinist1 小時前

美国参议员敦促银行监管机构制定‘公平’的加密货币资本规则

美国参议员呼吁制定“公平”的加密资本规则。由参议院数字资产小组委员会主席辛西娅·卢米斯牵头,多名共和党参议员致信美联储、联邦存款保险公司(FDIC)及货币监理署(OCC)负责人,要求为银行从事加密资产活动建立更清晰、公平的资本框架。 信中批评了巴塞尔银行监管委员会现行的加密资产资本标准,该标准对加密资产施加了1250%的风险权重,参议员们认为这并非基于实际风险评估,而像是一种按资产类别“一刀切”的惩罚,实质上阻碍了银行持有此类资产,与监管机构倡导的“技术中立”原则相悖。 议员们赞赏了监管机构近期关于代币化证券的联合指引,该指引明确了此类资产应获得与其非代币化对应物同等的资本待遇。他们敦促监管机构将这一风险导向原则一致性地应用于其他数字资产,并基于近期在加密市场结构法案方面的进展,开始为银行的资产负债表加密资产活动制定新的资本框架。 与此同时,FDIC、OCC和美联储负责人近期在国会作证时,概述了其转向更“基于风险”的监管方向,旨在改革监管框架以提高效率,并审查过去的监管措施。他们强调,强有力的资本标准对保障银行体系韧性和支持经济增长至关重要,同时监管应促进而非阻碍负责任的创新。

bitcoinist3 小時前

美国参议员敦促银行监管机构制定‘公平’的加密货币资本规则

bitcoinist3 小時前

交易

現貨
合約

熱門文章

如何購買ERA

歡迎來到HTX.com!在這裡,購買Caldera (ERA)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Caldera (ERA)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Caldera (ERA)購買Caldera (ERA)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Caldera (ERA)在HTX的現貨市場輕鬆交易Caldera (ERA)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

692 人學過發佈於 2025.07.17更新於 2026.06.02

如何購買ERA

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 ERA (ERA)幣價的意見。

活动图片