La puce chinoise, le point d'intersection caché entre DeepSeek et Kimi

marsbitPublié le 2026-04-22Dernière mise à jour le 2026-04-22

Résumé

Kimi a lancé son modèle de code open source K2.6, présenté comme son plus performant à ce jour, avec des améliorations significatives en programmation et en capacités d’Agent. Ce modèle permet un codage ininterrompu sur 13 heures et gère jusqu’à 4 000 lignes de code. Il intègre également un système d’Agent cluster permettant une exécution parallèle de 300 sous-agents pour des tâches complexes. Parallèlement, Kimi propose une approche innovante avec son architecture Prefill-as-a-Service (PrfaaS), qui sépare préremplissage et décodage entre clusters hétérogènes, réduisant les coûts et améliorant l’efficacité. Cette avancée ouvre la voie à une intégration accrue des puces chinoises dans l’écosystème des grands modèles, une nécessité face aux restrictions d’accès aux GPU occidentaux. DeepSeek suivrait une voie similaire pour sa prochaine version V4.

« K2.6 est notre modèle de code le plus puissant à ce jour », écrit Kimi sur son compte officiel WeChat.

Le 20 avril dans la soirée, Kimi a officiellement lancé le modèle open source K2.6, aux performances renforcées en programmation et en capacités d'agent, environ un trimestre après la publication de la version précédente, K2.5.

Il y a aussi un petit aparté : la rumeur veut que DeepSeek V4 soit également publié cette semaine. Si tout se déroule comme prévu par les observateurs externes, ce sera la N-ième fois que Kimi et DeepSeek se retrouvent en concurrence directe. Mais à un niveau infrastructurel plus fondamental, une autre ligne sous-jacente existe : Kimi et DeepSeek, ces deux startups de grands modèles, finiront par entrer dans le même fleuve – avançant de concert avec les startups chinoises de puces.

Remontons le temps jusqu'en mars 2026, lorsque Yang Zhilin, sur la scène de conférence NVIDIA GTC, a parlé de la feuille de route technologique de Kimi. Il a déclaré : « De nombreuses normes technologiques couramment utilisées aujourd'hui sont, par essence, des produits d'il y a huit ou neuf ans, et deviennent progressivement un goulot d'étranglement pour le Scaling. »

Pour résoudre ce type de problèmes, Kimi a contribué à la communauté open source avec l'optimiseur de second ordre MuonClip, première application à grande échelle, l'architecture Kimi Linear qui rend le traitement des longs contextes par les grands modèles plus efficace, et les Attention Residuals qui optimisent la connexion des couches de réseaux neuronaux profonds.

Stratégie de Scaling de Kimi

Yang Zhilin estime que la logique d'évolution de Kimi peut se résumer à la fusion de l'efficacité des Tokens, du long contexte et des clusters d'agents. Le Kimi K2.6, récemment mis en ligne, peut être compris comme les nouveaux devoirs rendus par Yang Zhilin sur cette voie de Scaling.

Le site officiel de Kimi a intégré K2.6

Code, Agent, et quoi d'autre ?

En tant que l'une des capacités les plus facilement standardisables, le code est un champ de bataille incontournable pour les modèles de pointe.

De K2 à K2.5, puis à K2.6, Kimi maintient un rythme d'itération d'environ un trimestre en moyenne sur plusieurs modèles open source, mais comme il s'agit d'un petit numéro de version, cela suggère que Yang Zhilin pourrait avoir encore plus de cartes en main.

« Les capacités de codage à long terme de K2.6 sont considérablement améliorées ; lors des tests, il peut coder sans interruption pendant 13 heures, écrire ou modifier plus de 4000 lignes de code », écrit Kimi dans un document de communication. « Sur le benchmark interne strict de code de Kimi, le Kimi Code Bench, qui couvre diverses tâches complexes de bout en bout, les résultats de K2.6 sont environ 20 % meilleurs que ceux de K2.5. »

Il faut savoir que K2.5 était déjà un modèle très « combatif », ayant dominé le classement d'OpenRouter en février. Une personne proche de Kimi a partagé une capture d'écran du message que le cofondateur Zhang Yutao avait posté sur son moment WeChat à l'époque : « Il avait l'air très satisfait de cette version. »

Performances de K2.6 sur les tests de référence des agents généraux, de programmation et des agents visuels

Pour les frameworks d'agents comme OpenClaw et Hermes, les améliorations principales de K2.6 se concentrent sur la précision des appels d'API et la stabilité des exécutions de longue durée – l'une augmente le coût d'exécution des tâches, l'autre optimise l'efficacité de leur exécution.

Dans la version K2.5 lancée en janvier, Kimi a introduit le concept de « cluster d'agents », divisant une tâche en plusieurs sous-projets, les attribuant automatiquement à différents agents spécialisés pour un suivi et un traitement, réduisant ainsi le temps de traitement des tâches et évitant le risque d'effondrement de l'ensemble du projet dans un flux de tâches séquentielles.

Démonstration des capacités du cluster d'agents de Kimi K2.6

Dans la nouvelle version K2.6, cette capacité est encore amplifiée, intégrant et traitant en parallèle la recherche large et l'exploration en profondeur, l'analyse de documents à grande échelle et la réaction de longs textes, ainsi que la génération de contenu multi-format, prenant en charge jusqu'à 300 sous-agents exécutant parallèlement 4000 étapes de collaboration.

Pour résumer brièvement les points forts de Kimi K2.6, on peut citer : l'évolution des capacités de code et des tâches longues, l'évolution des capacités des clusters d'agents et l'optimisation de l'adaptation aux frameworks d'agents mainstream.

Si je devais choisir une préférence personnelle parmi ces caractéristiques fonctionnelles, je dirais que le cluster d'agents est la capacité la plus précieuse, car elle matérialise directement la capacité explosive du calcul parallèle – que ce soit le code ou la stabilité des tâches longues, ce sont des choses que le modèle doit faire de toute façon pour itérer. Plus important encore, sur la base de ces améliorations de capacités, il pousse l'innovation dans les modes de travail, l'efficacité et même les modes d'interaction des agents.

Après tout, en tant qu'utilisateur, ce que je veux, ce n'est pas qu'il me dise ce qu'il peut faire, mais qu'il pilote des agents pour résoudre mes problèmes concrets et crée une productivité effective.

Lors de la sortie de K2.5, un chercheur universitaire a commencé à utiliser ce modèle pour mener des projets de recherche. Son évaluation à l'époque était qu'il n'avait pas de point faible et pouvait servir d'assistant de recherche.

« Les multi-agents fournis officiellement sont vraiment efficaces, l'année dernière, beaucoup d'agents chinois n'étaient encore que des jouets. »

Si les évaluations internes et externes de Kimi K2.5 étaient déjà bonnes, à quel point K2.6, qui va encore plus loin, sera-t-il efficace ?

Classement intelligent Artifacial Analysis, Kimi K2.6 se classe juste après trois modèles privateurs et mène le classement des poids des modèles open source

La « nouvelle histoire » dans la feuille de route

Kimi surprend toujours l'industrie avec de nouvelles idées, y compris celles mentionnées dans la feuille de route évoquée par Yang Zhilin lors de sa conférence : MuonClip, Kimi Linear, Attention Residuals. Certaines de ces explorations ont même reçu des retours positifs de la part des leaders du secteur.

Mi-mars, Kimi a publié l'article de recherche sur les Attention Residuals, proposant d'utiliser le mécanisme d'attention pour remodeler les connexions résiduelles. Musk a directement tweeté en disant que c'était « une avancée impressionnante de Kimi ».

Le week-end dernier, Kimi a publié un nouvel article de recherche intitulé « Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter » (PrfaaS, Préremplissage en tant que Service), évoquant de nouvelles explorations architecturales de Kimi, discutant toujours au cœur de la séparation PD (Prefill et Decode).

La séparation PD n'est pas un nouveau sujet – la phase Prefill de l'inférence du modèle est une tâche intensive en calcul, tandis que la phase Decode dépend de la bande passante mémoire, la mémoire devant lire et écrire来回 le KV Cache – cette architecture vise à découpler les tâches intensives en calcul et les tâches intensives en bande passante, améliorant ainsi l'utilisation et le débit de calcul, et réduisant les coûts.

Bien que la séparation PD soit avantageuse, elle a aussi un point bloquant : elle doit reposer sur un réseau RDMA haute vitesse dans le même datacenter.

L'article PrfaaS de Kimi a pour point central : basé sur un modèle hybride (Kimi Linear) réduisant considérablement le volume du cache KV, puis découplant complètement le Prefill et le Decode vers différents clusters hétérogènes.

L'exemple expérimental mentionné dans l'article montre que le cluster dédié au préremplissage PrfaaS utilise 32 H200, spécialisés dans le calcul haute performance ; le cluster local de décodage PD utilise 64 GPU H20 interconnectés via un réseau interne RDMA ; les deux clusters sont connectés via une ligne dédiée VPC, la bande passante totale inter-clusters étant d'environ 100 Gbps. Le modèle testé est un modèle d'attention hybride Kimi Linear avec 1T de paramètres.

Les résultats des tests montrent que la solution PrfaaS‐PD inter-datacenters, comparée à une solution PD classique utilisant 96 cartes H20 dans le même cluster, améliore le débit de 54 %, réduit le P90 TTFT (le temps d'attente pour 90 % des utilisateurs, entre l'envoi de la requête et la réception du premier caractère) de 9,73 s à 3,51 s, soit une réduction de 64 %, et la bande passante de transmission du cache KV inter-datacenters n'utilise que 13 % de la bande passante totale de 100 Gbps.

Comparaison du débit KV entre les modèles à architecture hybride et les modèles denses à différentes longueurs de contexte

Pour prouver l'avantage de l'architecture de modèle hybride, l'article mentionne une série d'expériences : sur 8 cartes H200 et avec le framework d'inférence SGLang v0.5.9, des tests de référence ont été effectués sur plusieurs modèles mainstream. Pour une longueur de contexte de 32K, le débit KV du modèle MiMo‐V2‐Flash utilisant l'attention hybride n'était que de 4,66 Gbps, tandis que le modèle d'attention dense de même échelle MiniMax‐M2.5 atteignait 59,93 Gbps, prouvant directement que l'architecture d'attention hybride peut réduire les besoins de transmission du cache KV à une plage pouvant être supportée par Ethernet standard.

« Datacenters croisés + matériel hétérogène, déverrouillant le potentiel de réduction significative du coût par token. » a déclaré Kimi sur son compte officiel.

Concernant la réduction des coûts par Token, j'en ai parlé dans l'article « Le peuple pense à DeepSeek », il y a une marge d'optimisation au niveau du modèle et du matériel. Le professeur Hu Yanping de l'Université de Finance et d'Économie de Shanghai a spécialement posté un message sur son moment WeChat, soulignant que la réduction des coûts ne peut pas reposer uniquement sur un seul DeepSeek. « La solution du problème dépend de l'efficacité coût de l'offre de calcul, de l'amélioration intergénérationnelle de la qualité des modèles, de l'avancement continu des paradigmes d'intelligence, des effets d'amplification de la circulation des flux de travail et des scénarios, etc. »

Sous cet angle, Kimi raconte une nouvelle histoire de réduction des coûts par Token à l'industrie.

Les modèles chinois appellent les puces chinoises

Dans l'article sur le préremplissage en tant que service, la plupart des gens n'ont remarqué que le récit inter-datacenters, ignorant le point sur le matériel hétérogène.

Il est important de noter que les H200 et H20 sont toujours basés sur l'architecture Hopper. L'hétérogénéité mentionnée dans l'article fait référence à l'hétérogénéité en termes de bande passante et de puissance de calcul. Son enseignement est le suivant : nous pouvons utiliser une partie des cartes chinoises puissantes en calcul pour faire le Prefill, ou des cartes chinoises à forte bande passante pour faire le Decode, et bien sûr, les mélanger avec des cartes étrangères pour réaliser des économies et améliorer l'efficacité.

On peut dire que c'est une porte que Kimi ouvre à la puce chinoise pour l'inférence des grands modèles.

De l'avis d'un expert en calcul chinois, pour capter ce flux favorable apporté par ce type de solution de préremplissage en tant que service, il faut encore faire face à ce vieux problème qu'est l'écosystème.

Au cours des dernières années, les grands modèles chinois ont été bloqués hors du calcul national à cause des difficultés de l'écosystème, mais il y a un autre détail passé inaperçu : des produits comme le H20 sont coupés depuis un an. En d'autres termes, à court terme, il n'y a qu'une seule option pour les puces d'inférence : les puces nationales.

Avec l'explosion de la demande d'inférence, comparé au problème d'approvisionnement, le défi de l'écosystème deviendra secondaire – la dépendance des grands modèles chinois vis-à-vis du calcul national est passée de « utilisable ou non » à « indispensable ». C'est aussi pour cette raison que de nombreuses prédictions discutent de l'adaptation de DeepSeek V4 au calcul national.

Dans « La dernière lettre de rappel pour DeepSeek » que j'ai co-écrite avec le professeur Hu Yanping, nous disions que l'adaptation au calcul national est une voie très difficile pour les modèles chinois, mais qu'à long terme, elle doit être faite. Une chose qui doit être faite doit bien avoir un point de départ, et peut-être que DeepSeek V4 sera ce point de départ.

Maintenant, DeepSeek V4 n'est pas encore arrivé, et Kimi a déjà utilisé sa propre pratique pour explorer une voie viable pour l'union des modèles chinois et des puces chinoises.

Kimi, en tant que représentant des modèles, tend率先 la main en premier, le problème est maintenant confié aux startups de puces chinoises.

Vous souvenez-vous de la réaction de Huang Renxun dans le dernier podcast de « the Dwarkesh Podcast » lorsqu'on lui a demandé à propos de l'interdiction d'exporter des puces vers la Chine ? Il a dit que les puces ne sont pas de l'enrichissement d'uranium, que l'embargo ne peut pas arrêter les progrès des puces chinoises, et qu'ils peuvent toujours développer des modèles par empilement violent de puces nationales.

Pourquoi Huang Renxun dit-il cela ? La prochaine étape de DeepSeek et Kimi est la réponse standard.

Cet article provient du compte officiel WeChat « Tencent Technology », auteur : Su Yang, éditeur : Xu Qingyang

Questions liées

QQuelles sont les principales améliorations apportées par le modèle K2.6 de Kimi par rapport à la version précédente ?

AKimi K2.6 présente des améliorations significatives dans les capacités de codage, le traitement des tâches de longue durée et l'optimisation des clusters d'agents. Il permet un codage ininterrompu pendant 13 heures, une augmentation d'environ 20 % sur le benchmark interne Kimi Code Bench, et prend en charge jusqu'à 300 sous-agents travaillant en parallèle sur 4000 étapes de collaboration.

QComment Kimi aborde-t-il la réduction des coûts par token via son architecture innovante ?

AKimi propose une architecture PrfaaS (Prefill-as-a-Service) qui sépare Préremplissage et Décodage sur des clusters hétérogènes, utilisant des GPU à haute puissance de calcul (comme H200) pour le préremplissage et des GPU à bande passante élevée (comme H20) pour le décodage. Cela réduit la transmission du cache KV et améliore l'efficacité, permettant une baisse significative du coût par token.

QQuel est le rôle des puces chinoises dans le développement des modèles d'IA comme Kimi et DeepSeek ?

AFace aux restrictions d'approvisionnement en puces étrangères, les modèles chinois comme Kimi et DeepSeek doivent de plus en plus s'appuyer sur des puces domestiques. Kimi a montré que des architectures innovantes (comme PrfaaS) permettent une utilisation hétérogène de matériel, ouvrant la porte à l'intégration de puces chinoises pour le préremplissage ou le décodage, malgré les défis liés à l'écosystème.

QQu'est-ce que l'architecture Agent Cluster de Kimi et pourquoi est-elle importante ?

AL'Agent Cluster de Kimi permet de décomposer une tâche complexe en sous-tâches assignées à différents agents spécialisés travaillant en parallèle. Cette approche améliore l'efficacité, la stabilité et évite l'échec total du projet en cas de problème sur une tâche. K2.6 étend cette capacité à 300 sous-agents et 4000 étapes de collaboration, ce qui en fait un outil puissant pour la productivité.

QQuelle est la signification de la 'PD Separation' (séparation Préremplissage-Décodage) dans les modèles de Kimi ?

ALa PD Separation consiste à dissocier la phase de Préremplissage (calcul intensif) de la phase de Décodage (dépendante de la bande passante mémoire) dans l'inférence des modèles. Kimi pousse cette séparation plus loin avec PrfaaS, en utilisant des clusters différents et même des centres de données distincts pour chaque phase, optimisant ainsi l'utilisation du matériel et réduisant la latence.

Lectures associées

En Corée du Sud, les volumes d'échanges de 15 altcoins explosent !

Les principales plateformes d'échange de cryptomonnaies sud-coréennes, Upbit et Bithumb, rapportent une forte augmentation du volume des transactions pour plusieurs altcoins. Sur les dernières 24 heures, le volume total des altcoins les plus populaires a atteint environ 347,7 millions de dollars. MetaDAO (META) arrive en tête, avec un volume de 65,84 millions de dollars uniquement sur Upbit, représentant 12,39% du volume spot total de la bourse. Euler ($EUL) suit avec 47,65 millions de dollars, et le $XRP, toujours populaire auprès des investisseurs sud-coréens, a atteint 38,11 millions de dollars. La liste complète des 15 altcoins montre une activité intense, notamment pour ThunderCore (TT, 35,64M$), Babylon (BABY, 25,15M$) et Geodnet (GEOD, 20,28M$). Cet engouement marqué pour des actifs numériques au-delà du Bitcoin illustre la dynamique spéculative sur le marché sud-coréen. *Ceci n'est pas un conseil en investissement.

cryptonews.ruIl y a 1 h

En Corée du Sud, les volumes d'échanges de 15 altcoins explosent !

cryptonews.ruIl y a 1 h

Pourquoi le Bitcoin maintient 64 000 $ après la pause restrictive de la Fed

Le Bitcoin se stabilise autour de 64 000 $ après la décision de la Fed de maintenir ses taux d'intérêt dans la fourchette 3,50-3,75 %. Bien que perçu comme une pause, le vote a révélé des divisions internes, trois membres plaidant pour une hausse, signalant une attitude globalement restrictive. Cette position limite l'appétit pour les actifs risqués comme les cryptomonnaies. Le marché a réagi avec une volatilité modérée. Les FNB spot sur Bitcoin ont enregistré un afflux net de 32,1 millions de dollars, mettant fin à une série de sorties, tandis que les FNB Ethereum ont subi des sorties. Cela indique une rotation des capitaux vers l'actif principal. Les niveaux clés à surveiller pour le Bitcoin sont le support à 63 000-63 500 $ et la résistance autour de 66 000 $. Malgré la pression macroéconomique, le marché ne montre pas de signes de capitulation. Les fondamentaux du réseau Ethereum restent solides avec une file d'attente importante pour le staking. Le report du vote sur le CLARITY Act au Sénat américain a tempéré les attentes réglementaires immédiates. Pour la fin du mois, les données macro américaines (inflation, dépenses) guideront les senteurs. Le scénario de base prévoit une consolidation du Bitcoin entre 63 000 et 66 000 $. La résilience au-dessus de 63 000 $, le maintien de l'Ethereum au-dessus de 1 860 $ et la poursuite des entrées institutionnelles seront des facteurs déterminants pour une éventuelle reprise au second semestre.

cryptonews.ruIl y a 3 h

Pourquoi le Bitcoin maintient 64 000 $ après la pause restrictive de la Fed

cryptonews.ruIl y a 3 h

Parker Lewis explique pourquoi le bitcoin reste la meilleure monnaie

Parker Lewis, un analyste bitcoin renommé, a critiqué les stratégies marketing des entreprises qui se présentent comme des trésoreries crypto. Il estime que la vente d'actions privilégiées perpétuelles, présentées comme un "crédit numérique", déforme fondamentalement la nature du bitcoin. Il souligne que le bitcoin n'a pas de rendement fiduciaire intégré et que les promesses de dividendes reposent sur un modèle risqué nécessitant un afflux constant de nouveaux investisseurs. Lewis met en garde contre les risques de ces dérivés, notant que le marché des actions privilégiées perpétuelles (1 000 milliards de dollars) est minuscule comparé au marché du crédit mondial (300 000 milliards de dollars), car les institutions évitent ces risques qu'elles transfèrent aux particuliers. Il rejette également l'idée que la volatilité du bitcoin le rende impropre à la plupart des gens. Pour lui, cette volatilité est une conséquence naturelle de l'adoption massive d'un actif à offre fixe et inélastique. Il conseille d'acheter des bitcoins directement plutôt que des actions d'entreprises comme MicroStrategy. Détourner l'attention vers ces dérivés corporatifs fait oublier la vraie menace : la dépréciation rapide des monnaies fiduciaires. Lewis illustre cela avec son "indice du ribeye", montrant une inflation annuelle de 12 à 13% sur le prix d'un steak, bien supérieure aux chiffres officiels. La stratégie la plus sûre, selon lui, reste la possession directe de bitcoin et le contrôle de ses clés privées, pour se protéger des turbulences macroéconomiques, plutôt que de courir après des rendements corporatifs douteux qui amplifient les risques systémiques.

cryptonews.ruIl y a 3 h

Parker Lewis explique pourquoi le bitcoin reste la meilleure monnaie

cryptonews.ruIl y a 3 h

La société ARK Invest de Cathie Wood achète 109 129 actions de Circle pour 6,83 millions de dollars

ARK Invest, dirigée par Cathie Wood, a acheté environ 109 129 actions de Circle pour près de 6,83 millions de dollars via trois de ses fonds cotés (ETF). Cet achat intervient peu après que Circle, la société émettrice de l'USDC, a obtenu une licence de fiducie du Département des services financiers de l'État de New York pour son entité Circle New York Trust. Le PDG Jeremy Allaire a qualifié cette licence d'objectif à long terme. Cependant, malgré cette approbation réglementaire, le cours de l'action CRCL a chuté de 2,54% le 31 juillet. Parallèlement, ARK Invest a également effectué d'importants achats d'actions Tesla, SpaceX et Nvidia pour environ 40,2 millions de dollars lors d'une vente généralisée dans le secteur technologique, tout en réduisant ses positions dans des sociétés comme Shopify, Cloudflare et CrowdStrike.

cryptonews.ruIl y a 3 h

La société ARK Invest de Cathie Wood achète 109 129 actions de Circle pour 6,83 millions de dollars

cryptonews.ruIl y a 3 h

Des participants à un système frauduleux lié au XRP arrêtés pour avoir détourné 9 millions de dollars à 71 investisseurs

La police de Séoul a arrêté trois personnes accusées d'avoir géré une plateforme d'investissement frauduleuse liée au XRP, ayant dérobé environ 3,4 millions de XRP (équivalant à 9 millions de dollars) à 71 investisseurs entre le 16 et le 23 octobre. Les suspects promouvaient le site Fxrpntwork.com via des blogs, articles en ligne et vidéos YouTube, promettant la garantie du capital et un rendement mensuel de 1,5% à 1,8%. Les victimes étaient invitées à transférer leurs XRP via des plateformes étrangères vers des portefeuilles contrôlés par le groupe, qui a ensuite disparu après avoir fermé le site. Les escrocs ont copié les marques Flare Network et FXRP pour paraître légitimes. La police met en garde contre les informations non vérifiées sur YouTube et conseille de consulter des sources officielles avant d'investir. Un mandat d'arrêt international a été émis pour un quatrième suspect à l'étranger. Ce cas illustre un schéma frauduleux courant utilisant de fausses promesses de rendements garantis et l'usurpation d'identité de projets connus. Les enquêteurs sud-coréens ont gelé des actifs virtuels d'une valeur de 17,3 milliards de wons et poursuivent l'enquête sur d'éventuelles autres victimes et complices.

cryptonews.ruIl y a 3 h

Des participants à un système frauduleux lié au XRP arrêtés pour avoir détourné 9 millions de dollars à 71 investisseurs

cryptonews.ruIl y a 3 h

Trading

Spot

La puce chinoise, le point d'intersection caché entre DeepSeek et Kimi

Résumé

Code, Agent, et quoi d'autre ?

La « nouvelle histoire » dans la feuille de route

Les modèles chinois appellent les puces chinoises

Questions liées

Lectures associées

En Corée du Sud, les volumes d'échanges de 15 altcoins explosent !

Pourquoi le Bitcoin maintient 64 000 $ après la pause restrictive de la Fed

Parker Lewis explique pourquoi le bitcoin reste la meilleure monnaie

La société ARK Invest de Cathie Wood achète 109 129 actions de Circle pour 6,83 millions de dollars

Des participants à un système frauduleux lié au XRP arrêtés pour avoir détourné 9 millions de dollars à 71 investisseurs

Trading

Catégories populaires

Tags tendances