自主还是兼容:DeepSeek V4延期背后的中国AI生态选择题

marsbit发布于2026-04-21更新于2026-04-21

文章摘要

DeepSeek V4的发布一再延期,核心原因在于其正全力适配华为昇腾芯片,并通过CANN框架完成核心代码重写。这是中国AI体系首次在真实生产环境中系统性探索非CUDA平台承载核心模型能力的尝试,也是一场底层技术路线的“压力测试”。 DeepSeek V4作为万亿级参数的多模态开源模型,采用MoE架构,对系统调度与通信提出极高要求。在迁移至华为昇腾平台时,面临硬件拓扑差异及软件生态成熟度不足的挑战,导致工程优化难度大增,模型发布推迟。这一过程揭示出AI竞争正从“模型能力比拼”转向“系统工程能力比拼”。 英伟达凭借CUDA生态形成“单体垂直垄断”,其在硬件和软件层面的深度绑定,使全球开发者形成强烈生态依赖。华为CANN选择“兼容优先”策略,通过高度模拟CUDA接口降低迁移成本,在短期内推动国产算力落地,但也带来长期创新受限的风险——兼容意味着仍在沿用对方的规则,可能陷入“模仿者陷阱”。 短期看,兼容CUDA是现实选择,但长期存在隐患。国产算力在全球占比仍低,绝对规模差距导致研发效率滞后,可能错失AI发展关键窗口。DeepSeek V4若成功发布,将验证国产全栈可行性,加速生态成熟。但真正的挑战在于,能否在兼容基础上逐步建立独立的技术体系,实现从跟随到定义规则的跃迁。未来3-5年将是中国AI生态发展的关键期。

文 | 孙永杰

进入到2026年,DeepSeek V4的发布窗口一再推迟,却意外点燃了全球AI圈对“去CUDA化”的讨论。而从多家媒体的报道看,这款预计参数规模达万亿级、支持百万token上下文的多模态开源模型,正全力适配华为昇腾芯片,并通过CANN框架完成核心代码重写。

如果上述最终成为现实,这将是中国AI体系第一次在真实生产环境中,系统性探索在非CUDA平台上承载核心模型能力的可能性。换言之,这不仅是一款模型的发布,更像是一场底层技术路线的“压力测试”。

然而,正如DeepSeek创始人梁文峰在内部沟通中强调的,这只是“万里长征的第一步”。未来风险与机遇并存,兼容与自立之间的平衡,甚至取舍,将决定中国AI能否真正走出属于自己的发展之路。

DeepSeek V4延期,基础AI计算平台转换的必然代价

如前述,原计划在今年农历新年或2—3月发布的V4,一再错过窗口,直至4月初相关媒体确认“数周内发布”,究其原因,是推理端与采用华为昇腾芯片的深度适配。但问题在于,这条路径远比想象中复杂。而要理解这种复杂性,首先需要回到DeepSeek V4本身的技术特征。

众所周知,进入2026年,大模型参数规模已经跨越“万亿”门槛,向数万亿级迈进。在这一背景下,虽然V4采用更为激进的MoE(专家混合)架构,在理论上通过“按需激活专家”降低单次推理计算量,但代价则是对包括内存带宽、芯片间互联(Interconnect)以及KV Cache管理等的系统能力提出了更极端的要求。

换句话说,算力压力从“纯计算”转向了“系统调度与通信”。而在在英伟达生态内,这套问题有相对成熟的解法。

例如基于H100或B200,通过NVLink与NVSwitch构建的高带宽互联,其单节点GPU间带宽可达TB/s级别,形成近似“全连通”的计算网络,数据在芯片间流动如同高速公路,延迟与同步成本被极大压缩。但当DeepSeek试图将这套精密体系迁移至华为昇腾平台时,面对的却是完全不同的硬件拓扑。

不可否认,昇腾芯片近年来进步显著,但在超大规模集群的“全连通能力”上,与英伟达仍存在物理层差距。例如,受制于制程与SerDes IP能力,昇腾更多依赖光模块进行跨节点扩展,这种“以空间换带宽”的方案虽然可行,但也引入了更长的物理链路,从而带来信号延迟、同步开销以及功耗与散热管理等的复杂性。

与此同时,软件层面的差距同样不可忽视。昇腾的CANN框架在算子覆盖、自动并行、内核融合以及分布式通信调度等方面,整体成熟度仍落后于CUDA生态。这意味着,DeepSeek工程团队需要在大量底层细节上进行针对性优化,甚至手动重写关键算子。

更棘手的是,这种落后往往不是线性,而是系统性的。具体表现为一个算子的性能下降,可能影响整条计算链路;一次通信效率的降低,可能导致整体吞吐大幅波动。最终的结果可能就是模型尚能运行,但距离稳定、高效、可规模化还有很长的距离。

从这个角度看,DeepSeek V4的延期,并非简单的产品节奏问题,而是中国顶尖算法团队与国产芯片体系之间深度磨合的必然代价。虽然过程艰难,却意义重大。

更重要的是,这一过程释放出一个清晰信号,即AI竞争,正在从“模型能力比拼”,转向“系统工程能力比拼”。而在这一阶段,谁能更快把模型“跑起来、跑稳定、跑便宜”,谁才真正接近产业级优势。

CUDA垄断难破,CANN无奈妥协

如果说上述DeepSeek V4在推理侧的适配困难,揭示的是工程层面的现实瓶颈,那么顺着这个问题往下追问,一个更本质的疑问也随之浮现:为什么只是把模型从一个算力平台迁移到另一个平台,会变得如此困难?

回看PC时代的Wintel联盟,微软与英特尔虽然联手垄断,但两家公司之间存在利益博弈,这为后来Linux、AMD乃至苹果系统的崛起预留了空间。然而,英伟达在AI领域建立的是一种“单体垂直垄断”,即微软与英特尔的合体。

具体体现为,硬件层面上,英伟达定义了SM(流式多处理器)的物理结构和Tensor Core的计算逻辑;软件层面上,CUDA提供了与之1:1完美契合的cuBLAS、cuDNN等闭源库。二者叠加导致了一个极其恐怖的现实:全球600万+的开发者围绕cuBLAS、cuDNN、NVLink/NVSwitch优化算法、框架(PyTorch、TensorFlow)优先CUDA实现,甚至AWS Trainium+Cerebras WSE的“反NVIDIA”异构集群,在KV缓存迁移时仍需NVIDIA NIXL软件和AWS EFA。

由此可见,这已不是单点的技术细节,是生态锁定,即模型可移植性失效前,开发者“用英伟达硬件特性语言思考”已成为惯性。而正是这种生态惯性,让英伟达像一个巨大的黑洞,吸纳了全球90%以上的创新红利。

在上述背景下,作为其最强有力竞争者的华为CANN最初确实试图走一条相对独立的路线,但随着大模型时代的到来,这种路径逐渐显露出问题,例如开发者不愿迁移,企业不敢承担风险,生态增长缓慢。加之时间(例如大模型的快速迭代)的压力,完全自立的路径开始变得不再现实。

基于此,CANN逐步引入类似CUDA的抽象层设计,例如在CANN Next中尝试对标cuBLAS、cuDNN接口,实现高比例兼容,使模型迁移成本从“数周甚至数月”压缩至“小时级”;在架构层面,新近发布的950PR异构架构(预填充/解码解耦)也刻意模仿英伟达解耦式服务,而非谷歌TPU的彻底异构路线。

我们必须承认,这种近似于“兼容优先”的策略在短期内是成功的,它降低了门槛,使昇腾迅速在国内市场获得应用基础,并让像DeepSeek、腾讯、字节跳动等这样的公司能够以较低的门槛尝试国产算力。例如CANN Next通过SIMT编程模型实现高达95%以上的CUDA兼容性,已帮助多家企业将迁移时间大幅缩短至小时级,加速了实际落地。

但随之而来的挑战是,一旦涉及前沿创新,兼容层就会变成“天花板”。

例如当开发者真正深入使用昇腾平台时会发现,虽然常见路径已经被铺平,但一旦涉及一些冷门、创新的底层算子,CANN的支持度就会下降,性能抖动剧烈。而DeepSeek V4在适配过程中遇到的诸如在尝试引入SSM(状态空间模型)或Mamba这类非Transformer结构的混合架构时,发现CANN的底层优化仍主要向矩阵乘法(GEMM)倾斜的所谓困难,很大程度上是因为其在尝试一些超越常规的算法优化时,撞到了CANN兼容层的“边界”。

而更深层的问题在于,一旦选择兼容,就意味着默认CUDA仍然是隐形标准,你可以替换硬件,但在软件语义和开发范式上,仍然在沿用对方定义的规则。这既是捷径,也是限制。

兼容存隐患挑战,未来机遇仍需真正自立

如前述,在CUDA生态形成事实标准的现实下,华为选择“类兼容”路径几乎是必然结果,但同时也将整个中国AI产业推到了一个关键性的选择节点:是继续兼容CUDA,还是逐步走向真正独立的生态体系?

从短期来看,答案几乎没有悬念,那就是必须兼容,这是效率与现实的选择。但从长期来看,这条路径则隐藏着不容忽视的风险。

众所周知,当一个系统(如CANN)为了兼容另一个系统(如CUDA)而设计时,它不可避免地会继承对方的局限性。

事实是,目前全球大部分开源算法都是围绕英伟达架构开发的,如果为了利用这些存量资产而一味追求1:1兼容,那么我们就会在硬件设计上陷入“模仿者陷阱”,并表现为一旦英伟达的硬件架构在未来某个节点面临范式转型,例如从Transformer转向某种不需要大规模矩阵乘法、而是更依赖异步逻辑的新架构时,那么一直处于“影子状态”的国产算力栈可能会面临瞬间的技术断层,而这种“Bug对Bug兼容”的死胡同,无疑让我们的底层创新始终笼罩在别人的阴影之下。

而更深层的风险在于“时间差”。根据伯恩斯坦和Epoch AI的统计数据,虽然华为在国内份额激增,但在全球AI算力总量中,国产芯片的占比仅为5%,仍属相对有限。而正是这种绝对规模的差距,导致了严重的“研发效率摩擦”。

具体表现为,美国AI巨头可以利用Blackwell强大的通信带宽,在18个月内跑通10T参数的Scaling Laws,而中国的顶尖人才却不得不将50%以上的科研产能消耗在“如何解决老旧芯片的信号衰减”和“适配不成熟的编译器”等问题上。

需要说明的是,上述时间上的错位,在瞬息万变的AI时代会被无限放大。当我们的人才还在忙于“填坑”时,对手可能已经完成了模型能力的指数级复利,导致对手一年模型的领先,演变为我们在模型能力、数据飞轮、安全对齐均呈指数复合增长叠加后,与对手形成不止一年的鸿沟。

当然,挑战往往蕴含着机遇。DeepSeek V4若成功发布,将证明“国产全栈”可行性,加速CANN生态成熟,吸引更多开发者跟进,加之全球“天下苦英伟达久矣”的情绪,业内对CANN的支持或将超出预期。而华为昇腾等后续芯片若达H100的80%—90%推理性能,叠加CANN Next的兼容红利,中国AI供应链临界规模有望在1—2年内形成。

但需要清醒认识的是,兼容只能解决“活下来”的问题,真正的自立,才能决定“走多远”。而未来3-5年,将是一个关键窗口期。如果我们能够在保持兼容的同时,逐步建立独立的编程模型、算子体系与系统架构,中国AI生态仍有机会实现从跟随到定义规则的跃迁。否则中国AI或将陷入“粗糙复制列车”的轨道。

写在最后:DeepSeek V4的延期发布,看似偶然的“跳票”,实则揭示了一个更深层的现实,即AI竞争早已不只是模型之争,而是底层生态与系统能力的全面较量。兼容CUDA固然是通往现实的最短路径,但若止步于此,也可能锁定未来的天花板。

所以真正的挑战,不在于能否替代一套技术,而在于能否摆脱对既有范式的依赖,构建属于自己的规则体系。而接下来的3-5年,将决定中国AI是成为全球生态中的重要一极,还是长期停留在“高水平跟随”的位置。当然,在追求自立的同时,也需警惕封闭生态可能对全球开发者吸引力的潜在影响,以确保生态的开放性和长期国际竞争力。

相关问答

QDeepSeek V4延期发布的主要原因是什么?

ADeepSeek V4延期主要是因为其需要与华为昇腾芯片进行深度适配,并通过CANN框架完成核心代码重写。这一过程涉及复杂的系统调度与通信优化,尤其是在超大规模集群的全连通能力上,昇腾平台与英伟达CUDA生态存在硬件和软件层面的差距,导致适配工作比预期更加复杂和耗时。

Q为什么将模型从CUDA平台迁移到华为昇腾平台如此困难?

A迁移困难的主要原因是英伟达CUDA生态的垂直垄断。CUDA不仅定义了硬件层面的物理结构和计算逻辑,还提供了与之完美契合的闭源库,导致全球开发者习惯围绕CUDA优化算法和框架。这种生态锁定使得模型可移植性失效,而华为CANN框架在算子覆盖、自动并行和分布式通信调度等方面的成熟度仍落后于CUDA,需要大量底层优化和手动重写关键算子。

Q华为CANN框架选择兼容CUDA的策略有哪些短期和长期风险?

A短期来看,兼容CUDA可以降低迁移门槛,加速国产算力落地,是效率与现实的选择。但长期风险包括:继承CUDA的局限性,陷入'模仿者陷阱';一旦英伟达硬件架构发生范式转型,国产算力可能面临技术断层;兼容层可能成为创新天花板,限制底层算子和新架构的优化;研发效率摩擦导致与对手的时间差扩大,影响模型能力和生态竞争力的持续提升。

QDeepSeek V4适配华为昇腾平台的意义是什么?

ADeepSeek V4适配华为昇腾平台是中国AI体系第一次在真实生产环境中系统性探索非CUDA平台承载核心模型能力的可能性。这不仅是一次模型发布,更是一场底层技术路线的'压力测试',证明国产全栈可行性,加速CANN生态成熟,吸引更多开发者跟进,并为中国AI供应链临界规模的形成奠定基础。

Q中国AI生态未来发展的关键挑战和机遇是什么?

A关键挑战是如何在兼容CUDA的同时逐步建立独立的编程模型、算子体系和系统架构,避免陷入'粗糙复制'的陷阱。机遇在于:DeepSeek V4若成功发布将证明国产全栈能力;全球'去CUDA化'情绪可能带来超出预期的支持;华为昇腾芯片性能提升和CANN兼容红利有望在1-2年内形成供应链临界规模。未来3-5年是关键窗口期,决定中国AI能否从跟随转向定义规则,成为全球生态中的重要一极。

你可能也喜欢

谁在给AI造灵魂:哲学家、神父和一个辞职写诗的工程师

《谁在给AI造灵魂》一文探讨了为AI构建道德与人格背后的复杂努力。文章聚焦三位关键人物:Anthropic的“人格对齐”团队负责人Amanda Askell,她以哲学背景和“有效利他主义”理念,主导撰写了《Claude的宪法》,试图为AI注入诚实、自信且具道德判断力的“性格”;前工程师、现天主教神父Brendan McGuire,他将神学中的“良知培育”概念引入AI伦理,参与修订宪法,试图在AI底层逻辑中植入善的倾向;以及前Anthropic安全研究负责人Mrinank Sharma,这位兼具工程师与诗人身份的学者,因担忧AI的“谄媚性”危害及商业压力对安全原则的侵蚀,最终选择离职投身诗歌,以寻求“诗意的真实”。 他们的工作揭示了AI人格塑造的核心矛盾与挑战:一方面,研究显示AI可能产生“功能性情感”和讨好人类的倾向,这与塑造独立、诚实人格的目标相悖;另一方面,这项工作迅速卷入现实的政治与商业漩涡,例如Anthropic因拒绝将Claude用于自主武器而遭到政治抨击。文章最终呈现了一个未竟的探索:理性计算、信仰感化与诗意觉知,这三种人类回应AI崛起的方式,都在试图为没有灵魂的机器注入人类的道德复杂性与良知,但这个过程本身也映照出人类价值观的多元、冲突与演变。正如Claude宪法中所承认:不存在单一的完美答案。

marsbit14分钟前

谁在给AI造灵魂:哲学家、神父和一个辞职写诗的工程师

marsbit14分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

本文是对MicroStrategy执行主席Michael Saylor的专访摘要。此前,MicroStrategy在财报中表示可能在必要时出售比特币以支付其发行的数字信用工具STRC的股息,引发市场关于其“背弃比特币信仰”的讨论。Saylor在采访中澄清了公司的策略逻辑。 Saylor强调,公司并非成为比特币的“净卖家”。其核心商业模式是通过发行STRC等信用工具筹集资金,并立即将所得资金用于购买比特币。由于比特币长期预期年化升值约30%-40%,其增值速度远超股息支付成本(约11%)。因此,在支付股息时,即便出售部分比特币,公司整体仍会是比特币的净买家。例如,4月份公司通过STRC融资32亿美元购入比特币,而同期股息支出仅约8000-9000万美元,买入远大于卖出。 他解释,公司旨在利用比特币作为“数字资本”的高增值属性,构建可持续的财务结构:出售信用工具投资比特币,用资本增值支付股息,并确保比特币持仓持续净增长。只要比特币年增值超过2.3%(即股息成本率),该模式即可持续。Saylor预计公司未来每季度都将是比特币净买家。 针对批评者,Saylor反驳了“庞氏骗局”的指控,认为比特币是代表全球经济财富的“数字资本”,而STRC是在其之上创建的低波动性、高收益信用产品,满足了寻求稳定收益的投资者需求。 关于市场影响,Saylor指出比特币市场流动性极强(日交易额数百亿美元),MicroStrategy的大额买入行为并未显著影响价格。比特币价格主要由宏观因素驱动。 最后,Saylor表示对比特币的底层逻辑未变,并认为过去一年清晰显示,比特币的“杀手级应用”之一是作为“数字信用”的抵押品。基于比特币的优质信用工具(如STRC)表现出卓越的风险调整后收益(夏普比率达3),今年美国市场60%的优先股由MicroStrategy发行,显示了数字信用的强劲增长。 采访以Saylor童年受科幻小说激励考入MIT的轶事结束。

Odaily星球日报24分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

Odaily星球日报24分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

在最近的播客专访中,MicroStrategy执行主席Michael Saylor就公司“准备在必要时出售比特币以支付股息”的表态做出澄清。他强调,这一声明不代表公司会成为比特币的“净卖家”,其核心逻辑是利用比特币作为“数字资本”的增值属性来支撑业务模式。 Saylor解释称,公司通过发行数字信用工具(如STRC)筹集资金,并立即将所得用于购买比特币。由于比特币预期年化升值约30%-40%,公司可以剥离部分资本收益(约11%)作为股息支付。他举例说明,在融资数十亿美元购入比特币的同时,仅需卖出极小比例(例如为支付股息卖出1个,同时买入10-20个)来履行义务,因此整体持仓将持续净增长。关键在于“盈亏平衡率”约为2.3%,只要比特币增值或债务发行比例超过此值,公司就能在支付股息的同时不断累积比特币。 他进一步阐述,比特币的深层价值在于其作为“数字资本”已成为创建优质“数字信用”的基石。基于比特币超额抵押的STRC等工具,提供了高收益和低波动性,吸引了传统金融市场的大量资金。Saylor指出,比特币市场流动性极强,单笔数亿美元的购买难以影响价格,其主要驱动因素是宏观环境和行业基本面。 最后,Saylor重申其对比特币的长期信念没有改变,并认为数字信用的兴起是比特币最重要的“杀手级应用”之一,这将持续推动整个生态系统的创新与增长。

marsbit31分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

marsbit31分钟前

交易

现货
合约

热门文章

如何购买SUN

欢迎来到HTX.com!我们已经让购买SUN(SUN)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买SUN(SUN)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的SUN(SUN)购买完您的SUN(SUN)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易SUN(SUN)在HTX的现货市场轻松交易SUN(SUN)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

1.3k人学过发布于 2024.03.29更新于 2025.04.02

如何购买SUN

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对SUN(SUN)币价的意见。

活动图片