La vraie valeur de DeepSeek V4 ne réside pas dans ses paramètres

marsbitPublié le 2026-04-25Dernière mise à jour le 2026-04-25

Résumé

DeepSeek V4 représente une avancée majeure pour l’intelligence artificielle en Chine, non pas en raison de sa taille ou de ses performances brutes, mais grâce à son adaptation aux puces informatiques locales, réduisant la dépendance historique envers NVIDIA. Le modèle, avec son architecture MoE et son attention hybride (CSA + HCA), optimise l'utilisation de la mémoire et du calcul, permettant un contexte long (1M de tokens) à un coût très bas. Il a été spécialement adapté pour fonctionner efficacement sur des hardware comme le Huawei Ascend 950 et le Cambricon, marquant une étape clé vers l'autonomie stratégique. Son prix compétitif ouvre également la voie à une adoption massive dans des applications industrielles exigeantes, comme l'analyse financière ou le développement logiciel agentique.

Par | Usine des Modèles du Monde

DeepSeek V4 a une fois de plus secoué toute la Chine.

La taille des paramètres, la longueur du contexte, les scores de référence… Ces indicateurs techniques ont déjà été largement comparés dans divers rapports.

Mais si l’on s’arrête aux données superficielles, on passe à côté de l’essence stratégique de cette annonce.

Ces trois dernières années, les grands modèles chinois sont restés coincés dans une réalité embarrassante : l’entraînement dépend de Nvidia, l’inférence dépend de Nvidia, et les puces chinoises ne sont qu’une option de secours.

Si Nvidia coupe les approvisionnements, tout l’écosystème des modèles chinois sera en proie à l’anxiété.

Mais aujourd’hui, DeepSeek V4 prouve par ses performances :

Un grand modèle de pointe à billions de paramètres peut également fonctionner de manière stable et efficace sur une puissance de calcul nationale.

La signification de cela dépasse désormais les indicateurs techniques du modèle lui-même.

La percée de la localisation

Pour vraiment comprendre la difficulté de cette adaptation à la localisation, il faut d’abord comprendre l’empire des puces de Nvidia.

Nvidia ne possède pas seulement des puces, mais un écosystème complet et très fermé :

En matière de matériel, il y a la famille de puces GPU, ainsi que NVLink et NVSwitch pour réaliser un réseau haute vitesse d’interconnexion entre les puces ;

En matière de logiciel, CUDA est un système d’exploitation pour l’IA soigneusement construit par Nvidia depuis plus de dix ans.

Il ressemble à une usine hautement optimisée, des opérateurs de base (unités de calcul fondamentales du modèle) au calcul parallèle, en passant par la gestion de la mémoire et la communication distribuée, toute la chaîne est conçue sur mesure pour les GPU de Nvidia.

En d’autres termes, Nvidia ne vend pas seulement un moteur, il construit également la route, la station-service, l’atelier de réparation et le système de navigation.

Presque tous les grands modèles de pointe mondiaux se sont développés dans cet écosystème.

Passer à une puissance de calcul nationale, c’est faire face à une situation totalement différente.

L’architecture matérielle est différente, les méthodes d’interconnexion sont différentes, la maturité de la pile logicielle est différente, et l’écosystème d’outils est encore en train de rattraper son retard.

Pour DeepSeek, s’adapter aux puces nationales n’est pas simplement une question de changer de moteur, mais plutôt de faire passer une voiture de course qui roule à grande vitesse sur une autoroute à une route de montagne encore en construction.

La moindre erreur pourrait entraîner des secousses, une perte de vitesse, voire l’immobilisation totale du véhicule.

Cette fois, DeepSeek V4 n’a pas choisi de continuer à optimiser uniquement le chemin CUDA, mais a commencé à s’engager simultanément dans la chaîne d’adaptation de la pile logicielle de la puissance de calcul nationale.

D’après les informations publiques, V4 a réalisé une percée sur les puces d’inférence nationales, en s’adaptant profondément à la puce Huawei Ascend 950, et Cambricon pouvait également fonctionner stablement le jour de la publication du modèle, réalisant une véritable adaptation Day 0.

Cela signifie que les modèles de pointe commencent à avoir la possibilité de se déployer dans le système de puces nationales.

Comment DeepSeek V4 a-t-il réussi cela ?

La première étape a eu lieu au niveau de l’architecture du modèle.

V4 n’a pas choisi de faire supporter brutalement un contexte de 1M aux puces nationales, mais a d’abord rendu le modèle lui-même plus économe.

La conception la plus cruciale dans le rapport technique officiel est le mécanisme d’attention hybride CSA + HCA, ainsi que l’optimisation du contexte long avec la compression du KV Cache.

Pour faire simple, l’inférence traditionnelle en contexte long consiste à faire que le modèle, à chaque fois qu’il répond à une question, étale toute une bibliothèque pour la feuilleter, saturant rapidement la mémoire, la bande passante et la puissance de calcul.

L’approche de V4 est d’abord de réindexer, compresser et filtrer les documents de la bibliothèque, pour n’envoyer dans la chaîne de calcul que les informations les plus cruciales.

Ainsi, le contexte de 1M ne dépend plus entièrement de la force brute du matériel, mais réduit d’abord la facture de calcul et de mémoire via des algorithmes.

Ceci est très important pour les puces nationales.

Si le modèle dépendait toujours fortement de la bande passante mémoire et des bibliothèques CUDA matures, même si les puces nationales pouvaient fonctionner, il serait difficile de le faire à un coût abordable et de manière stable.

V4 réduit d’abord la charge d’inférence, soulageant essentiellement la puissance de calcul nationale.

La deuxième étape a lieu au niveau de l’architecture MoE et des paramètres d’activation.

Bien que V4-Pro ait un total de paramètres atteignant 1,6 billion, seulement environ 49 milliards de paramètres sont activés à chaque inférence ; V4-Flash a un total de 284 milliards de paramètres, avec environ 13 milliards activés à chaque fois.

Cela signifie qu’il ne mobilise pas tous ses paramètres pour chaque calcul, mais fonctionne comme une grande équipe d’experts, où seuls les experts concernés sont appelés sur le terrain lorsque une tâche arrive.

Pour les puces nationales, c’est tout aussi important.

Cela réduit la pression de calcul à supporter à chaque inférence et rend les scénarios de contexte long et d’Agent plus faciles à prendre en charge par les cartes d’inférence.

La troisième étape est l’adaptation au niveau des opérateurs et des noyaux (Kernel).

Le point fort de l’écosystème CUDA est qu’une grande partie du calcul de bas niveau a été affinée et mature par Nvidia, et de nombreux calculs haute performance peuvent être appelés directement.

La signification de V4 est qu’il extrait une partie des calculs critiques de la boîte noire de Nvidia pour en faire des chemins de calcul personnalisés plus transférables et adaptables.

Pour parler simplement, V4 démonte en quelque sorte les pièces les plus cruciales du moteur, permettant aux fabricants comme Huawei Ascend et Cambricon de les recalibrer selon la structure de leurs propres puces.

La quatrième étape concerne le cadre d’inférence et la couche service.

Si l’adaptation aux puces nationales se limite à "faire tourner une démo", son importance industrielle est limitée. Ce qui mérite vraiment attention, c’est sa capacité à intégrer un système de service appelable et facturable.

Selon des tests internes, sur Ascend 950PR, la vitesse d’inférence de V4 a considérablement augmenté par rapport aux versions antérieures, la consommation énergétique a également nettement baissé, et les performances par carte atteignent plus du double de celles du H20 spécial de Nvidia dans certains scénarios de faible précision.

DeepSeek officiel mentionne que actuellement, V4-Pro, limité par la puissance de calcul haut de gamme, a un débit de service restreint, et que le prix devrait baisser considérablement dans la seconde moitié de l’année avec la mise sur le marché en série des super-nœuds Ascend 950.

Cela indique qu’avec la production en série de matériel national comme Ascend, le débit et le rapport qualité-prix de V4 s’amélioreront encore à l’avenir.

Mais il est important de noter que V4 ne remplace pas complètement les GPU et CUDA de Nvidia. L’entraînement des modèles pourrait encore dépendre de Nvidia, mais l’inférence peut progressivement être localisée.

C’est en fait une voie commerciale très réaliste.

L’entraînement est un investissement ponctuel : on entraîne une fois, on ajuste une fois, on itère une fois. L’inférence est un coût continu : des appels d’utilisateurs quotidiens, par millions, voire milliards, chaque appel consommant de la puissance de calcul.

Le vrai poste de dépenses pour les entreprises de modèles, à long terme, penchera de plus en plus vers l’inférence. Celui qui pourra répondre aux besoins d’inférence de manière plus économique et stable obtiendra un avantage réel dans les applications industrielles.

DeepSeek V4 permet pour la première fois au déploiement de l’inférence des modèles de pointe chinois d’emprunter une voie qui ne prend pas CUDA de Nvidia comme prémisse par défaut.

Cette étape est déjà suffisamment significative.

L’impact de V4 sur les applications industrielles

Si l’adaptation aux puces nationales répond à la question de savoir si cela peut fonctionner, le prix répond à une question plus pragmatique :

Les entreprises peuvent-elles se le permettre ?

Par le passé, le point fort de DeepSeek était sa capacité à offrir des performances proches des modèles de pointe à un prix très bas.

C’était le cas à l’ère de V3, R1, et cela reste vrai avec V4.

La différence est que cette fois, il ne mène pas une guerre des prix dans une fenêtre de contexte ordinaire, mais continue de baisser les prix avec en prime un contexte de 1M et des capacités d’Agent.

Selon les prix officiels de DeepSeek :

Pour V4-Flash, entrée avec cache hit 0,2 yuan / million de tokens, entrée sans cache hit 1 yuan / million de tokens, sortie 2 yuan / million de tokens ;

Pour V4-Pro, entrée avec cache hit 1 yuan / million de tokens, entrée sans cache hit 12 yuan / million de tokens, sortie 24 yuan / million de tokens.

En le comparant aux modèles nationaux similaires :

Comparé à Ali Qwen3.6-Plus dans la tranche 256K-1M, le prix de sortie de V4-Pro est environ la moitié du sien, V4-Flash est encore moins cher.

Comparé à Xiaomi MiMo Pro Series dans la tranche 256K-1M, V4-Flash et V4-Pro sont nettement moins chers.

Le contexte de Kimi K2.6 est de 256K ; en comparaison, V4-Pro a un contexte plus long et un prix plus bas ; V4-Flash quant à lui abaisse directement le coût des appels fréquents à un autre niveau.

Ceci a une grande importance pour les applications entreprises.

Car un contexte de 1M signifie que le modèle peut lire en une fois un dépôt de code entier, un épais contrat, un prospectus de centaines de pages, des procès-verbaux de réunion de longue durée, ou l’état historique accumulé par un Agent exécutant une tâche continue.

Par le passé, de nombreuses applications entreprises bloquaient ici : la capacité du modèle était suffisante, mais le contexte ne l’était pas ; le contexte était suffisant, mais le prix trop élevé ; le prix était acceptable, mais la capacité du modèle n’était pas assez stable.

Par exemple, une entreprise développant un Agent de recherche d’investissement veut que le modèle lise simultanément le rapport annuel, la conférence téléphonique sur les résultats, les rapports sectoriels, les actualités des concurrents et les procès-verbaux internes.

Avec un contexte de seulement 128K ou 256K, le système doit constamment découper, rechercher, résumer, et l’information se perd dans de multiples compressions.

Un contexte de 1M permet au modèle de conserver plus de documents originaux, réduisant les omissions et les coupures.

Prenons un autre exemple avec un Agent de code.

Il ne s’agit pas d’écrire quelques lignes de code une fois, mais de lire le dépôt, comprendre les dépendances, modifier les fichiers, exécuter les tests, et corriger en fonction des erreurs. Ce processus consomme des tokens de manière répétée.

Si chaque étape est chère, l’Agent ne peut servir que de démonstration, mais si les tokens sont suffisamment bon marché, il peut alors entrer dans les véritables processus de développement.

C’est aussi la valeur industrielle de V4.

Il n’est peut-être pas le modèle le plus puissant, mais il pourrait devenir le modèle le plus fréquemment utilisé par les entreprises.

DeepSeek fait une fois de plus de l’IA, non plus un jouet exclusif de quelques grands acteurs, mais un outil de production que tous les secteurs peuvent déployer à grande échelle.

La vraie valeur de V4

Lorsqu’un contexte de 1M arrive sur le front de l’industrie à un prix très bas, la véritable importance de DeepSeek V4 apparaît.

Tout cela est construit sur une base de puissance de calcul nationale encore immature.

Face à l’écart systémique de l’écosystème des puces nationales, l’équipe DeepSeek n’a pas choisi d’attendre que l’écosystème mûrisse avant de se lancer.

Ils ont repoussé à plusieurs reprises la fenêtre de publication, investissant plusieurs mois dans un débogage conjoint approfondi avec des partenaires comme Huawei, une difficulté d’ingénierie bien au-delà de ce que l’on imagine.

C’est précisément pourquoi la capacité de V4 à offrir sur une puissance de calcul nationale des performances d’inférence et d’Agent proches des modèles propriétaires de pointe est si remarquable.

V4 prouve par lui-même que même face à un écart temporaire de l’écosystème matériel, les équipes chinoises peuvent, grâce à un investissement technique extrême et une innovation conjointe logicielle-matérielle, obtenir des performances compétitives.

Bien sûr, il reste des écarts avant une maturité complète.

La perfection de la chaîne d’outils de la plateforme Ascend, la stabilité des grappes à très grande échelle, et l’optimisation approfondie de davantage de scénarios verticaux nécessitent des efforts continus de toutes les parties de l’industrie.

Mais le succès de V4 a tracé une voie exemplaire pour les modèles suivants.

Il a injecté une dose de confiance dans l’autonomie de toute la chaîne d’approvisionnement en IA.

Dans le contexte actuel d’incertitudes externes, cette résilience capable de percer malgré les limitations mérite plus de respect que de simples indicateurs de paramètres.

"Ne pas être séduit par la louange, ne pas être intimidé par la calomnie, agir selon la voie, se rectifier avec droiture".

Ce texte officiel de DeepSeek en est la meilleure illustration.

Questions liées

QQuelle est la signification stratégique de DeepSeek V4 au-delà de ses paramètres techniques ?

ALa véritable valeur de DeepSeek V4 réside dans sa capacité à fonctionner de manière stable et efficace sur des puces informatiques nationales chinoises, réduisant ainsi la dépendance à l'écosystème de Nvidia et ouvrant la voie à une autonomie stratégique dans l'IA.

QComment DeepSeek V4 a-t-il optimisé son architecture pour s'adapter aux puces chinoises ?

ADeepSeek V4 a utilisé un mécanisme d'attention hybride CSA + HCA, une compression KV Cache pour réduire la charge de calcul, et une architecture MoE qui n'active qu'une partie des paramètres à la fois, facilitant ainsi l'adaptation aux puces nationales comme celles de Huawei et Cambricon.

QQuels sont les avantages de DeepSeek V4 en termes de coût pour les applications industrielles ?

ADeepSeek V4 propose des prix très compétitifs, notamment pour les entrées/sorties de tokens dans des contextes de 1M, rendant les applications d'entreprise comme les agents de recherche ou de code plus abordables et réalisables à grande échelle.

QQuels défis l'adaptation de DeepSeek V4 aux puces chinoises a-t-elle dû surmonter ?

AL'adaptation a nécessité une refonte des couches de calcul, une optimisation des opérateurs et noyaux, et une collaboration étroite avec des partenaires comme Huawei pour compenser l'immaturité relative des écosystèmes logiciels et matériels locaux par rapport à CUDA de Nvidia.

QQuel impact DeepSeek V4 pourrait-il avoir sur l'industrie de l'IA en Chine ?

ADeepSeek V4 démontre que les modèles d'IA de pointe peuvent être déployés sur des puces nationales, encourageant ainsi l'autonomie technologique, réduisant les coûts de推理 (inférence) et facilitant l'adoption de l'IA par diverses industries sans dépendre exclusivement des technologies étrangères.

Lectures associées

Juste après le GPU et la mémoire : le MLCC devient le prochain grand marché de mille milliards de dollars de la puissance de calcul IA

**Résumé en français :** Le MLCC (condensateur multicouche céramique), un minuscule composant auparavant standardisé et peu coûteux, est en passe de devenir une ressource stratégique cruciale dans l'ère de l'IA, suivant de près le GPU et la mémoire en termes de coût dans un serveur IA. Cette transformation est portée par une demande explosive et structurelle. **Demande :** La consommation électrique exponentielle des puces IA (comme les GPU NVIDIA) nécessite des dizaines, voire des centaines de milliers de MLCC par serveur pour stabiliser les courants de très forte intensité à basse tension, remplaçant d'autres composants. Les prévisions indiquent une croissance annuelle de 34% du marché des MLCC pour serveurs IA d'ici 2030. L'automobile électrique et autonome constitue un autre moteur majeur. **Offre :** La production, dominée par Murata, Samsung Electro-Mechanics et Taiyo Yuden, fait face à d'immenses barrières : technologies propriétaires (matériaux, machines), cycles de certification longs (12-18 mois), investissements lourds et lents (4-5 ans pour une nouvelle ligne), et pénurie de compétences. La croissance annuelle de capacité est limitée à environ 10%, créant un déficit structurel persistant avec la demande. **Conséquences :** Un cycle de pénurie et de hausses de prix importantes (jusqu'à 150% sur les modèles haut de gamme) est engagé, pouvant durer jusqu'en 2030. Les trois leaders, bénéficiant de barrières à l'entrée solides, sont les principaux bénéficiaires. Leur valorisation boursière, bien qu'élevée, reflète une anticipation de la forte croissance future de leurs bénéfices grâce à l'effet de levier opérationnel. **Risques :** Le scénario dépend du maintien des investissements en IA. Les valorisations élevées, une éventuelle expansion de la production chinoise (bien que sur le segment bas/moyen de gamme), la faiblesse de l'électronique grand public et les fluctuations des devises (Yen) constituent les principaux risques.

marsbitIl y a 20 mins

Juste après le GPU et la mémoire : le MLCC devient le prochain grand marché de mille milliards de dollars de la puissance de calcul IA

marsbitIl y a 20 mins

Le premier à amener un système d'exploitation alimenté par IA à 1,4 milliard de personnes est... WeChat ?

L'IA de WeChat se met enfin en mouvement. Le jour même du WWDC d'Apple, WeChat a publié un guide d'intégration pour les développeurs, permettant aux IA d'accéder et d'opérer des mini-programmes. Deux modes sont proposés : un mode automatique sans code et un mode de développement pour des compétences sur mesure. Cette annonce signifie que WeChat transforme son écosystème entier — millions de mini-programmes, WeChat Pay, notifications — en une couche d'exécution pour l'IA. L'architecture technique, similaire au standard MCP, montre que WeChat a capitalisé sur l'expérience pratique pour créer des règles robustes, comme la priorité donnée aux réponses d'API et le format "fait + action". Contrairement à Apple dont l'approche est limitée avec les apps tierces, WeChat bénéficie d'un "point de vue divin" grâce à sa plateforme centralisée : il peut analyser le code des mini-programmes pour les rendre automatiquement actionnables par l'IA, sans effort supplémentaire pour les développeurs. Avec 1,432 milliard d'utilisateurs mensuels et une couverture quasi-totale des services quotidiens, WeChat est en position unique pour devenir le système d'exploitation de l'IA pour des centaines de millions de personnes. L'utilisateur pourrait simplement demander "Réserve-moi un billet de train pour Shanghai" et l'IA décomposerait la tâche, utiliserait les mini-programmes adéquats et finaliserait le paiement via WeChat Pay, le tout de manière transparente. Le défi reste la confiance, surtout pour les transactions, mais WeChat a l'avantage décisif de ne pas avoir à construire son réseau de services à partir de zéro. Le véritable signe de maturité sera une exécution si fluide que l'utilisateur ne percevra même pas les mécanismes sous-jacents. WeChat est plus proche que quiconque de rendre cela réalité.

marsbitIl y a 1 h

Le premier à amener un système d'exploitation alimenté par IA à 1,4 milliard de personnes est... WeChat ?

marsbitIl y a 1 h

Pourquoi Apple, avec une capitalisation boursière de 4 000 milliards, ne parvient pas à créer un Siri intelligent ?

Lors de la WWDC 2026, Apple a enfin dévoilé son grand plan d'intelligence artificielle, Apple Intelligence, et une version entièrement repensée de Siri, désormais nommée Siri AI. Cette initiative, attendue depuis deux ans, vise à combler le retard pris face à des concurrents comme ChatGPT. Le nouveau Siri ambitionne de devenir un véritable assistant système, capable de comprendre le contexte de l'écran, d'interagir avec les données personnelles et d'exécuter des tâches en pilotant d'autres applications. La stratégie technique d'Apple repose sur une collaboration avec Google pour les modèles de base (Apple Foundation Models), combinant un traitement sur l'appareil pour la confidentialité et un traitement en cloud privé pour les requêtes complexes. Apple insiste sur le fait qu'il s'agit de ses propres modèles, bien qu'ils s'appuient sur la technologie Gemini. L'article retrace les difficultés historiques d'Apple en IA, attribuant les retards de Siri à une culture de gestion trop prudente sous Tim Cook, qui a priorisé la fiabilité et la rentabilité sur l'innovation risquée. Des projets comme la voiture autonome et les lunettes intelligentes ont également connu des difficultés. L'arrivée de ChatGPT a forcé Apple à réagir, entraînant des réorganisations d'équipe et une implication plus directe de Cook. Pour les analystes, l'enjeu principal pour Apple n'est pas de créer le modèle d'IA le plus puissant, mais de conserver le contrôle de l'« entrée » principale sur l'iPhone. L'objectif est d'empêcher les assistants tiers de devenir le point de contact par défaut des utilisateurs en capitalisant sur l'intégration profonde de Siri dans le système et l'accès aux données personnelles, le tout sous la bannière de la confidentialité. Le succès se mesurera à la capacité d'Apple à transformer cette technologie en une nouvelle vague de renouvellement des appareils ou en revenus de services.

marsbitIl y a 1 h

Pourquoi Apple, avec une capitalisation boursière de 4 000 milliards, ne parvient pas à créer un Siri intelligent ?

marsbitIl y a 1 h

Trading

Spot
Futures
活动图片