中国芯片,DeepSeek与Kimi的隐秘交点

marsbit发布于2026-04-22更新于2026-04-22

文章摘要

Kimi近期发布其最强代码模型K2.6,在编程能力、Agent集群处理及长上下文理解等方面实现显著提升。该版本支持不间断编码13小时、并行处理多达300个子Agent,并在多项基准测试中表现优异。同时,Kimi提出“预填充即服务(PrfaaS)”架构,通过跨数据中心与异构硬件协同,显著降低推理成本、提升效率。这一技术路径为中国芯片企业带来新机遇,推动国产模型与国产算力的深度融合,形成在外部限制下的自主发展路线。

“K2.6是我们迄今为止最强代码模型。”Kimi在公众号中写道。

4月20日晚间,Kimi正式推出编程、Agent能力都表现更强的开源模型K2.6,距离上一个版本K2.5发布刚好一个季度左右。

这里还有一个小插曲,传闻本周DeepSeek V4也将发布。如果一切按外界预期的推进,这将是Kimi和DeepSeek的第N次撞车。但在更底层的基础设施层面,还有一条暗线:Kimi和DeepSeek这两个大模型创业公司,终将踏入同一条河流——与国产芯片创业公司共进退。

时间倒回2026年3月份,杨植麟在英伟达GTC演讲台,谈及Kimi的技术路线图。他说:“目前普遍使用的很多技术标准,本质上是八九年前的产物,逐渐成为Scaling的瓶颈。”

为了解决类似问题,Kimi给开源社区贡献了首次大规模应用的二阶优化器MuonClip、让大模型处理长上下文更高效的Kimi Linear架构,以及优化深度神经网络层连接的Attention Residuals。

Kimi的Scaling策略

杨植麟认为,将Kimi的进化逻辑归纳为Token效率、长上下文以及智能体集群“合体”。刚刚上线的Kimi K2.6,可以理解为杨植麟在这条Scaling路径下新交的一份作业。

Kimi官网已接入K2.6

代码、Agent,还有呢?

作为最容易标准化的能力项之一,代码是前沿模型的必争之地。

从K2、到K2.5、再到K2.6,Kimi在几个开源模型上保持着平均一个季度左右的迭代节奏,但由于这是个小版本号,暗示杨植麟手中可能还有更多的底牌。

“K2.6长程编码能力显著提升,在测试中可以不间断编码13小时,编写或修改超过4000行代码,”Kimi在一份传播材料中写道,“在涵盖了多种复杂端到端任务的、Kimi内部严格代码评测基准Kimi Code Bench中,K2.6的成绩比K2.5提升了约20%。”

要知道K2.5已经是一个非常“能打的模型”,OpenRouter上2月份一度霸榜。一位接近Kimi的知情人士贴出了联合创始人张宇韬发当时在朋友圈的截图,“他貌似对这个版本很满意。”

通用Agent、编程和视觉Agent基准测试上,K2.6的表现

对OpenClaw、Hermes这类Agent框架,K2.6的核心提升集中在API调用的精准性和长时间运行的稳定性——一个是提升任务执行的成本,一个则是优化任务执行的销效率。

1月份上线的K2.5当中,Kimi提出了“Agent集群”的概念,将一项任务拆分成多个子项目,自动化分配给不同领域的Agent来跟进处理,进而缩短任务处理的失效,同时避免串行任务流下整个项目崩溃的可能性。

Kimi K2.6的Agent集群能力演示

在新的K2.6版本中,这个能力被进一步放大,将广度搜索与深度调研、大规模文档分析与长篇撰写以及多格式内容生成进行集成与并行处理,最多支持300个子Agent并行完成4000个协作步骤。

如果要一句话概括Kimi K2.6亮点,大致包括:代码和长程任务能力进化、Agent集群能力进化与主流Agent框架适配优化。

如果要从上述的功能特性里面找一个个人的偏好,我认为Agent集群是最有价值的一个能力,它直接将并行计算爆炸性能力具象化了——无论是代码,还是长程任务的稳定性,这些都是模型迭代必须去做的事情,更重要的是,基于这些能力提升,推动Agent的工作方式、效率甚至是交互方式创新。

毕竟,作为用户,我要的不是它告诉我能怎么样,而是它能驱动Agent来解决我实实在在的问题,形成有效生产力。

K2.5上线的时候,一位学界研究员开始利用这款模型开展科研项目,当时他的评价是没有短板,可以作为科研助手。

“官方提供的多Agent确实有效,去年国产的Agent很多还是toy。”

如果Kimi K2.5在内外部评价都不错,在这个基础上更进一步的K2.6,效果会如何呢?

Artifacial Analysis智能榜单,Kimi K2.6仅次于三家闭源模型,并领跑开源模型权重榜单

路线图里的“新故事”

Kimi总是时不时给行业搞点新意思,其中就包括杨植麟演讲中路线图里提到MuonClip、Kimi Linear、Attention Residuals,一些探索也得到了行业顶流的正向打Call。

3月中旬,Kimi发布Attention Residuals这篇论文,提出利用注意力机制来改造残差连接,马斯克直接发推称这是“Kimi做得令人印象深刻的突破。”

上周末,Kimi发布了一篇新论文《Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter》,(PrfaaS,预填充即服务),提及Kimi在架构上的新探索,核心讨论的仍然PD分离(Prefill和Decode)。

PD分离并不是新话题——模型推理的Prefill阶段属于计算密集任务,Decode阶段则依赖显存带宽,显存要来回读写KV Cache——这种架构要解决的是将计算密集型任务和带宽密集型任务解耦,提高算力利用率和吞吐量,进而降本增效。

PD分离虽好,但也有一个卡点:必须基于同机房的RDMA高速网络。

Kimi的PrfaaS这篇论文,核心点在于:基于混合模型(Kimi Linear)大幅缩减了KV缓存体积,然后把Prefill和Decode彻底解耦到不同的异构集群。

论文提及的实验示例显示,PrfaaS专用预填充集群使用32张主打高算力的H200;本地PD解码集群使用64张通过RDMA内网互联的H20 GPU;两组集群通过VPC专线打通,跨集群总带宽约100Gbps。测试模型为1T参数的Kimi Linear混合注意力模型。

实测结果显示,PrfaaS‐PD跨数据中心方案,相比采用96卡H20同PD集群方案,吞吐量提升54%,P90 TTFT(90%的用户,从发请求到看到第一个字返回的等待时间)从9.73s降至3.51s,降低64%,跨数据中心 KV缓存传输带宽仅占用总带宽100Gbps中13%。

不同上下文长度下,混合架构模型与稠密模型KV吞吐量对比

为了证明混合模型架构的优势,论文提到一组实验:8卡H200和SGLang v0.5.9推理框架下,对多款主流模型进行基准测试,32K上下文长度时,采用混合注意力的MiMo‐V2‐Flash模型KV 吞吐量仅4.66Gbps,而同规模稠密注意力模型MiniMax‐M2.5高达59.93Gbps,直接证明混合注意力架构可将KV缓存传输需求压至普通以太网可承载范围。

“跨数据中心+异构硬件,解锁显著降低单token成本的潜力。”Kimi在官方账号上说。

关于Token降本,我在《人民想念DeepSeek》这篇里就提到过,模型、硬件层面都优化的空间,上海财经大学胡延平教授特地发了一条朋友圈,强调降本这件事不能只靠一个DeepSeek,“问题的解决取决于算力供给的成本效率、模型素质的跨代提升、智能范式的持续进阶、工作流和场景拉通的放大效应等。”

这个角度看,Kimi又给行业讲了一个Token降本的新故事。

中国模型召唤中国芯片

在预填充即服务这篇论文里,更多的人只注意到了跨数据中心这个叙事,而忽略了异构硬件这一点。

需要注意,H200和H20在芯片架构上仍然是Hopper架构,论文提到的异构代指带宽、算力上的异构,它的启示在于:我们可以用一部分算力强的国产卡来做Prefill,或者带宽强的国产卡来做Decode,当然也可以与海外卡混用来实现降本增效。

可以说,这是Kimi为中国芯片打开的一扇大模型推理的大门。

在一位国产算力人士看来,要接住预填充即服务这种方案带来的这波流量利好,依旧不得不面生态这个老问题。

过去几年,中国大模型一直因为生态难题被卡在国产算力之外,但还有另一个不被注意的细节:H20这样的产品,已经断供一年了。换句话说,推理芯片短期内只有国产一个选项。

随着推理需求暴涨,相比于供给,生态挑战将切换为次要问题——中国大模型对国产算力的依赖从过去可用可不用,转变为不得不用。也是因为这一点,很多预测都在讨论DeepSeek V4正在适配国产算力。

我和胡延平老师在《给DeepSeek的最后一封催更信》中说,适配国产算力,这条路对国产模型来说非常艰难,但从更长远的时间来看又不得不做。一件不得不做的事情,总要有起点,或许DeepSeek V4就是那个起点。

现在,DeepSeek V4还没有来,而Kimi已经用自己的实践,为中国模型+中国芯片的合体,探索了一条可行的路径。

Kimi率先作为模型代表伸出橄榄枝,问题现在交给了国产芯片创业公司。

大家还记得在《the Dwarkesh Podcast》最新的播客中,被问及禁止中国出口芯片时黄仁勋的反应吗?他说,芯片又不是铀浓缩,禁售阻挡不了中国芯片的进步,他们依旧可以通过国产芯片暴力堆叠来开发模型。

为什么黄仁勋这样说?DeepSeek和Kimi的下一步,就是标准答案。

本文来自微信公众号“腾讯科技”,作者:苏扬,编辑:徐青阳

相关问答

QKimi K2.6版本在代码和Agent能力方面有哪些主要提升?

AKimi K2.6在代码能力方面,长程编码能力显著提升,可连续编码13小时,编写或修改超过4000行代码,在内部代码评测基准Kimi Code Bench中比K2.5提升约20%。在Agent能力方面,提升了API调用的精准性和长时间运行的稳定性,支持最多300个子Agent并行完成4000个协作步骤,集成了广度搜索、深度调研、大规模文档分析与长篇撰写以及多格式内容生成等功能。

QKimi提出的PrfaaS(预填充即服务)架构有什么创新之处?

APrfaaS架构的创新在于基于混合模型(Kimi Linear)大幅缩减KV缓存体积,将Prefill(计算密集型)和Decode(带宽密集型)任务彻底解耦到不同的异构集群,甚至支持跨数据中心部署。实验显示,该方案相比同集群方案吞吐量提升54%,P90 TTFT降低64%,且仅占用13%的跨数据中心带宽,显著提升了算力利用率和推理效率。

Q为什么说Kimi和DeepSeek终将与中国国产芯片创业公司共进退?

A由于海外高端推理芯片(如H20)断供,中国大模型公司在推理阶段不得不依赖国产算力。Kimi通过PrfaaS架构证明了异构硬件(包括国产芯片)在大模型推理中的可行性,而DeepSeek V4也被预测正在适配国产算力。生态问题虽存在,但供给短缺迫使中国模型公司与国产芯片深度结合,共同探索降本增效的路径。

QKimi在技术架构上贡献了哪些创新?

AKimi贡献了多项技术创新,包括:大规模应用的二阶优化器MuonClip、提升长上下文处理效率的Kimi Linear架构、优化深度神经网络层连接的Attention Residuals,以及最新提出的支持跨数据中心部署的PrfaaS(预填充即服务)架构。这些创新旨在突破Scaling瓶颈,提升模型性能和推理效率。

QAgent集群能力在Kimi K2.6中如何体现其价值?

AKimi K2.6的Agent集群能力允许将复杂任务拆分为多个子任务,由不同领域的Agent并行处理,最多支持300个子Agent协同完成4000个步骤。这种设计避免了串行任务流的单点故障风险,显著缩短任务处理时间,并将并行计算能力具象化为实际生产力,适用于科研、文档分析、多格式内容生成等场景。

你可能也喜欢

我用了一年,才看清 Agent 支付扎心的真相

我用了一年时间深入研究Agent支付领域,发现当前市场存在诸多扎心现实。总体来看,真正的、大规模的需求尚未形成,初创公司面临结构性问题。 首先,在Agent对商户的“代购式商业”方面,用户体验存在根本缺陷。对于需要视觉比价的大多数商品(如服装、电子产品),纯文本对话界面远不如传统电商界面直观高效。虽然AI在理解需求和比价指令上表现不错,但无法替代并排浏览、挑选的体验。商户目前接入主要是出于“防御性”的“Agent引擎优化”考虑,担心未来落后,而非当前有实际客流。外卖等高频低决策场景有潜力,但受限于平台未开放API和过高的推理成本。另一个突破口是帮助用户处理复杂、体验差的购物流程(如叠加优惠、非母语操作),但这需要强大的B2C分发渠道,而这是巨头的优势。 其次,在Agent对API(机器间调用服务)方面,虽然存在机器间支付场景,但当前开发者大多已通过预付额度等方式解决小额支付问题。更深层矛盾在于,主流SaaS供应商的商业模式依赖大额企业合同,不愿支持极小额、临时性的API访问。新兴协议更适合服务长尾、小众的需求,但这个市场的付费意愿和规模有限。 第三,Agent对Agent的商业模式目前几乎完全停留在理论层面,尚未产生有意义的交易量。虽然这是一个需要专用结算基础设施的长期愿景,但与当前市场脱节。 相比之下,Agent对金融是目前唯一存在既有需求和付费意愿的类别。将AI嵌入基金经理、财务团队等现有工作流是自然演进,并能创造全新能力(如实时监控、自动调仓)。但该领域竞争激烈,受严格监管,老牌机构拥有显著优势。 文章最后指出,行业巨头因资金充足和防御心态仍在投入建设,但对初创公司而言,时间线至关重要。真正的机遇不在于单纯的支付层,而在于解决“协同”这一更宏大的问题——即如何协调Agent与人类的工作、验证成果并进行结算。大规模协同将自然催生结算机制,解决协同问题的公司终将吞并支付业务。经过一年探索,作者团队已将方向转向一个市场需求真实存在、增长迅速且尚未被充分服务的新领域。

链捕手16分钟前

我用了一年,才看清 Agent 支付扎心的真相

链捕手16分钟前

Claude Opus 4.8 找到一个 45 亿美元的 Bug,AI时代正在批量生产黑客

一名安全研究员使用AI模型Claude Opus 4.8在Zcash加密货币的隐私协议Orchard中发现了一个严重的“无限增发”漏洞,导致其市值短时间内蒸发约45亿美元。这一事件并非由Anthropic公司最尖端但受限的Claude Mythos模型完成,而是由已公开发布、进入日常工具的普通模型实现的,凸显了AI正在将发现高危漏洞的能力“民主化”和“廉价化”。 AI降低了漏洞挖掘的门槛,带来了双重影响:一方面,它催生了大量由AI生成的虚假或低质量安全报告,如同“注意力DDoS”攻击,消耗着本就人力匮乏的开源维护者精力;另一方面,它也能更快地找出那些隐藏多年、以往需要专家耗费巨大成本才能发现的真实漏洞。我们的数字世界一直建立在存在诸多潜在缺陷的代码之上,过去的“安全”在相当程度上源于发现成本高昂。 然而,能力的扩散并未带来责任的均摊。网络安全行业本就面临巨大的人才缺口,尤其是在复杂分析和应急响应层面。当AI让攻击和漏洞报告变得泛滥时,修复漏洞、守护系统的人力链条却变得更加紧张。破坏可以被自动化脚本轻易复制,但重建信任与安全仍需依赖稀缺的专业人力进行艰苦、细致的修复工作。 AI时代揭示了一个现实:我们习以为常的平稳数字生活,并非理所当然,而是依赖于一条脆弱的人力协作防线在持续对抗风险。未来真正的挑战或许不是找到漏洞,而是是否有足够的人愿意并能够修复它们。

marsbit49分钟前

Claude Opus 4.8 找到一个 45 亿美元的 Bug,AI时代正在批量生产黑客

marsbit49分钟前

以太坊价格预测:ETH可能翻倍,而Cardano(ADA)和这一新秀代币则有望迎来近500%的飙升

加密货币市场正显现新的活力迹象,投资者为下一轮牛市周期做准备。尽管大型加密货币仍占投资组合重要部分,但投资趋势正转向有望获得更高百分比回报的项目。 以太坊(ETH)作为领先的智能合约平台,若市场在2026年走牛,其价格可能从当前约2,014.7美元再次突破4,000美元,实现翻倍增长。 卡尔达诺(ADA)现交易价格约0.2329美元,因其对可扩展性、基于研究的开发和长期可持续性的关注而被部分投资者视为未来增长的基础。 新兴项目Little Pepe(LILPEPE)正获得显著关注。该项目是一个兼容以太坊的Layer 2环境,目前处于预售第13阶段,价格为0.0022美元,已筹集超过2,819万美元。它旨在为模因社区构建一个降低交易成本、提高速度并发展应用生态的Layer 2区块链。一些投资者基于其预售需求强劲、生态功能规划(如质押、模因启动平台和DAO治理)以及活跃的社区参与,预测其有500%的上涨潜力(目标价约0.0132美元)。 总结而言,以太坊仍是区块链领域重要的长期投资选择,卡尔达诺具备上行潜力,而Little Pepe则因其独特的Layer 2基础设施和社区建设,吸引着寻求高增长机会的投资者。随着市场预期2026年走强,这些项目值得关注。

TheNewsCrypto1小时前

以太坊价格预测:ETH可能翻倍,而Cardano(ADA)和这一新秀代币则有望迎来近500%的飙升

TheNewsCrypto1小时前

从以太坊到 AI的「CROPS」:Vitalik 反复强调的这套「慢变量」,究竟是什么?

以太坊基金会近期在文件“EF Mandate”中系统阐述了其核心指导原则“CROPS”,即抗审查性(Censorship Resistance)、抗捕获性(Capture Resistance)、开源(Open Source)、隐私(Privacy)和安全(Security)。这套原则旨在确保以太坊生态中,用户能在不依赖单一平台、不丧失最终控制权的前提下进行资产管理和链上交互。 Vitalik Buterin近期进一步将“CROPS”概念拓展至人工智能(AI)领域,提出“CROPS AI”的构想。随着AI Agent逐渐成为用户执行链上操作(如交易、资产整理)的入口,其中心化、黑箱化运行模式可能使用户的隐私、资产信息和操作意图面临风险。“CROPS AI”强调AI应具备抗审查、开放、保护隐私和安全的特点,提倡敏感操作尽可能在本地运行,减少对中心化云服务的依赖。 由此,以太坊的“CROPS Ethereum access layer”与“CROPS AI”产生了重要交集。两者共同关注的核心问题是:用户如何在调用远程服务(无论是链上RPC还是大语言模型)时,既能获得所需能力,又不泄露个人敏感信息。Vitalik提到的利用零知识证明实现付费远程LLM调用和私密Ethereum RPC读取,正是探索这一交集的具体方向。 “CROPS”原则并非抽象理念,它正具体化为对协议层、应用层(尤其是钱包)和用户体验层的设计要求。在未来,当AI成为数字世界的核心接口时,确保系统可理解、可验证、隐私且安全,将成为以太坊乃至整个Web3生态持续发展的关键价值主张和积极变量。

marsbit2小时前

从以太坊到 AI的「CROPS」:Vitalik 反复强调的这套「慢变量」,究竟是什么?

marsbit2小时前

交易

现货
合约
活动图片