La vraie valeur de DeepSeek V4 ne réside pas dans ses paramètres

marsbitPublié le 2026-04-25Dernière mise à jour le 2026-04-25

Résumé

DeepSeek V4 représente une avancée majeure pour l’intelligence artificielle en Chine, non pas en raison de sa taille ou de ses performances brutes, mais grâce à son adaptation aux puces informatiques locales, réduisant la dépendance historique envers NVIDIA. Le modèle, avec son architecture MoE et son attention hybride (CSA + HCA), optimise l'utilisation de la mémoire et du calcul, permettant un contexte long (1M de tokens) à un coût très bas. Il a été spécialement adapté pour fonctionner efficacement sur des hardware comme le Huawei Ascend 950 et le Cambricon, marquant une étape clé vers l'autonomie stratégique. Son prix compétitif ouvre également la voie à une adoption massive dans des applications industrielles exigeantes, comme l'analyse financière ou le développement logiciel agentique.

Par | Usine des Modèles du Monde

DeepSeek V4 a une fois de plus secoué toute la Chine.

La taille des paramètres, la longueur du contexte, les scores de référence… Ces indicateurs techniques ont déjà été largement comparés dans divers rapports.

Mais si l’on s’arrête aux données superficielles, on passe à côté de l’essence stratégique de cette annonce.

Ces trois dernières années, les grands modèles chinois sont restés coincés dans une réalité embarrassante : l’entraînement dépend de Nvidia, l’inférence dépend de Nvidia, et les puces chinoises ne sont qu’une option de secours.

Si Nvidia coupe les approvisionnements, tout l’écosystème des modèles chinois sera en proie à l’anxiété.

Mais aujourd’hui, DeepSeek V4 prouve par ses performances :

Un grand modèle de pointe à billions de paramètres peut également fonctionner de manière stable et efficace sur une puissance de calcul nationale.

La signification de cela dépasse désormais les indicateurs techniques du modèle lui-même.

La percée de la localisation

Pour vraiment comprendre la difficulté de cette adaptation à la localisation, il faut d’abord comprendre l’empire des puces de Nvidia.

Nvidia ne possède pas seulement des puces, mais un écosystème complet et très fermé :

En matière de matériel, il y a la famille de puces GPU, ainsi que NVLink et NVSwitch pour réaliser un réseau haute vitesse d’interconnexion entre les puces ;

En matière de logiciel, CUDA est un système d’exploitation pour l’IA soigneusement construit par Nvidia depuis plus de dix ans.

Il ressemble à une usine hautement optimisée, des opérateurs de base (unités de calcul fondamentales du modèle) au calcul parallèle, en passant par la gestion de la mémoire et la communication distribuée, toute la chaîne est conçue sur mesure pour les GPU de Nvidia.

En d’autres termes, Nvidia ne vend pas seulement un moteur, il construit également la route, la station-service, l’atelier de réparation et le système de navigation.

Presque tous les grands modèles de pointe mondiaux se sont développés dans cet écosystème.

Passer à une puissance de calcul nationale, c’est faire face à une situation totalement différente.

L’architecture matérielle est différente, les méthodes d’interconnexion sont différentes, la maturité de la pile logicielle est différente, et l’écosystème d’outils est encore en train de rattraper son retard.

Pour DeepSeek, s’adapter aux puces nationales n’est pas simplement une question de changer de moteur, mais plutôt de faire passer une voiture de course qui roule à grande vitesse sur une autoroute à une route de montagne encore en construction.

La moindre erreur pourrait entraîner des secousses, une perte de vitesse, voire l’immobilisation totale du véhicule.

Cette fois, DeepSeek V4 n’a pas choisi de continuer à optimiser uniquement le chemin CUDA, mais a commencé à s’engager simultanément dans la chaîne d’adaptation de la pile logicielle de la puissance de calcul nationale.

D’après les informations publiques, V4 a réalisé une percée sur les puces d’inférence nationales, en s’adaptant profondément à la puce Huawei Ascend 950, et Cambricon pouvait également fonctionner stablement le jour de la publication du modèle, réalisant une véritable adaptation Day 0.

Cela signifie que les modèles de pointe commencent à avoir la possibilité de se déployer dans le système de puces nationales.

Comment DeepSeek V4 a-t-il réussi cela ?

La première étape a eu lieu au niveau de l’architecture du modèle.

V4 n’a pas choisi de faire supporter brutalement un contexte de 1M aux puces nationales, mais a d’abord rendu le modèle lui-même plus économe.

La conception la plus cruciale dans le rapport technique officiel est le mécanisme d’attention hybride CSA + HCA, ainsi que l’optimisation du contexte long avec la compression du KV Cache.

Pour faire simple, l’inférence traditionnelle en contexte long consiste à faire que le modèle, à chaque fois qu’il répond à une question, étale toute une bibliothèque pour la feuilleter, saturant rapidement la mémoire, la bande passante et la puissance de calcul.

L’approche de V4 est d’abord de réindexer, compresser et filtrer les documents de la bibliothèque, pour n’envoyer dans la chaîne de calcul que les informations les plus cruciales.

Ainsi, le contexte de 1M ne dépend plus entièrement de la force brute du matériel, mais réduit d’abord la facture de calcul et de mémoire via des algorithmes.

Ceci est très important pour les puces nationales.

Si le modèle dépendait toujours fortement de la bande passante mémoire et des bibliothèques CUDA matures, même si les puces nationales pouvaient fonctionner, il serait difficile de le faire à un coût abordable et de manière stable.

V4 réduit d’abord la charge d’inférence, soulageant essentiellement la puissance de calcul nationale.

La deuxième étape a lieu au niveau de l’architecture MoE et des paramètres d’activation.

Bien que V4-Pro ait un total de paramètres atteignant 1,6 billion, seulement environ 49 milliards de paramètres sont activés à chaque inférence ; V4-Flash a un total de 284 milliards de paramètres, avec environ 13 milliards activés à chaque fois.

Cela signifie qu’il ne mobilise pas tous ses paramètres pour chaque calcul, mais fonctionne comme une grande équipe d’experts, où seuls les experts concernés sont appelés sur le terrain lorsque une tâche arrive.

Pour les puces nationales, c’est tout aussi important.

Cela réduit la pression de calcul à supporter à chaque inférence et rend les scénarios de contexte long et d’Agent plus faciles à prendre en charge par les cartes d’inférence.

La troisième étape est l’adaptation au niveau des opérateurs et des noyaux (Kernel).

Le point fort de l’écosystème CUDA est qu’une grande partie du calcul de bas niveau a été affinée et mature par Nvidia, et de nombreux calculs haute performance peuvent être appelés directement.

La signification de V4 est qu’il extrait une partie des calculs critiques de la boîte noire de Nvidia pour en faire des chemins de calcul personnalisés plus transférables et adaptables.

Pour parler simplement, V4 démonte en quelque sorte les pièces les plus cruciales du moteur, permettant aux fabricants comme Huawei Ascend et Cambricon de les recalibrer selon la structure de leurs propres puces.

La quatrième étape concerne le cadre d’inférence et la couche service.

Si l’adaptation aux puces nationales se limite à "faire tourner une démo", son importance industrielle est limitée. Ce qui mérite vraiment attention, c’est sa capacité à intégrer un système de service appelable et facturable.

Selon des tests internes, sur Ascend 950PR, la vitesse d’inférence de V4 a considérablement augmenté par rapport aux versions antérieures, la consommation énergétique a également nettement baissé, et les performances par carte atteignent plus du double de celles du H20 spécial de Nvidia dans certains scénarios de faible précision.

DeepSeek officiel mentionne que actuellement, V4-Pro, limité par la puissance de calcul haut de gamme, a un débit de service restreint, et que le prix devrait baisser considérablement dans la seconde moitié de l’année avec la mise sur le marché en série des super-nœuds Ascend 950.

Cela indique qu’avec la production en série de matériel national comme Ascend, le débit et le rapport qualité-prix de V4 s’amélioreront encore à l’avenir.

Mais il est important de noter que V4 ne remplace pas complètement les GPU et CUDA de Nvidia. L’entraînement des modèles pourrait encore dépendre de Nvidia, mais l’inférence peut progressivement être localisée.

C’est en fait une voie commerciale très réaliste.

L’entraînement est un investissement ponctuel : on entraîne une fois, on ajuste une fois, on itère une fois. L’inférence est un coût continu : des appels d’utilisateurs quotidiens, par millions, voire milliards, chaque appel consommant de la puissance de calcul.

Le vrai poste de dépenses pour les entreprises de modèles, à long terme, penchera de plus en plus vers l’inférence. Celui qui pourra répondre aux besoins d’inférence de manière plus économique et stable obtiendra un avantage réel dans les applications industrielles.

DeepSeek V4 permet pour la première fois au déploiement de l’inférence des modèles de pointe chinois d’emprunter une voie qui ne prend pas CUDA de Nvidia comme prémisse par défaut.

Cette étape est déjà suffisamment significative.

L’impact de V4 sur les applications industrielles

Si l’adaptation aux puces nationales répond à la question de savoir si cela peut fonctionner, le prix répond à une question plus pragmatique :

Les entreprises peuvent-elles se le permettre ?

Par le passé, le point fort de DeepSeek était sa capacité à offrir des performances proches des modèles de pointe à un prix très bas.

C’était le cas à l’ère de V3, R1, et cela reste vrai avec V4.

La différence est que cette fois, il ne mène pas une guerre des prix dans une fenêtre de contexte ordinaire, mais continue de baisser les prix avec en prime un contexte de 1M et des capacités d’Agent.

Selon les prix officiels de DeepSeek :

Pour V4-Flash, entrée avec cache hit 0,2 yuan / million de tokens, entrée sans cache hit 1 yuan / million de tokens, sortie 2 yuan / million de tokens ;

Pour V4-Pro, entrée avec cache hit 1 yuan / million de tokens, entrée sans cache hit 12 yuan / million de tokens, sortie 24 yuan / million de tokens.

En le comparant aux modèles nationaux similaires :

Comparé à Ali Qwen3.6-Plus dans la tranche 256K-1M, le prix de sortie de V4-Pro est environ la moitié du sien, V4-Flash est encore moins cher.

Comparé à Xiaomi MiMo Pro Series dans la tranche 256K-1M, V4-Flash et V4-Pro sont nettement moins chers.

Le contexte de Kimi K2.6 est de 256K ; en comparaison, V4-Pro a un contexte plus long et un prix plus bas ; V4-Flash quant à lui abaisse directement le coût des appels fréquents à un autre niveau.

Ceci a une grande importance pour les applications entreprises.

Car un contexte de 1M signifie que le modèle peut lire en une fois un dépôt de code entier, un épais contrat, un prospectus de centaines de pages, des procès-verbaux de réunion de longue durée, ou l’état historique accumulé par un Agent exécutant une tâche continue.

Par le passé, de nombreuses applications entreprises bloquaient ici : la capacité du modèle était suffisante, mais le contexte ne l’était pas ; le contexte était suffisant, mais le prix trop élevé ; le prix était acceptable, mais la capacité du modèle n’était pas assez stable.

Par exemple, une entreprise développant un Agent de recherche d’investissement veut que le modèle lise simultanément le rapport annuel, la conférence téléphonique sur les résultats, les rapports sectoriels, les actualités des concurrents et les procès-verbaux internes.

Avec un contexte de seulement 128K ou 256K, le système doit constamment découper, rechercher, résumer, et l’information se perd dans de multiples compressions.

Un contexte de 1M permet au modèle de conserver plus de documents originaux, réduisant les omissions et les coupures.

Prenons un autre exemple avec un Agent de code.

Il ne s’agit pas d’écrire quelques lignes de code une fois, mais de lire le dépôt, comprendre les dépendances, modifier les fichiers, exécuter les tests, et corriger en fonction des erreurs. Ce processus consomme des tokens de manière répétée.

Si chaque étape est chère, l’Agent ne peut servir que de démonstration, mais si les tokens sont suffisamment bon marché, il peut alors entrer dans les véritables processus de développement.

C’est aussi la valeur industrielle de V4.

Il n’est peut-être pas le modèle le plus puissant, mais il pourrait devenir le modèle le plus fréquemment utilisé par les entreprises.

DeepSeek fait une fois de plus de l’IA, non plus un jouet exclusif de quelques grands acteurs, mais un outil de production que tous les secteurs peuvent déployer à grande échelle.

La vraie valeur de V4

Lorsqu’un contexte de 1M arrive sur le front de l’industrie à un prix très bas, la véritable importance de DeepSeek V4 apparaît.

Tout cela est construit sur une base de puissance de calcul nationale encore immature.

Face à l’écart systémique de l’écosystème des puces nationales, l’équipe DeepSeek n’a pas choisi d’attendre que l’écosystème mûrisse avant de se lancer.

Ils ont repoussé à plusieurs reprises la fenêtre de publication, investissant plusieurs mois dans un débogage conjoint approfondi avec des partenaires comme Huawei, une difficulté d’ingénierie bien au-delà de ce que l’on imagine.

C’est précisément pourquoi la capacité de V4 à offrir sur une puissance de calcul nationale des performances d’inférence et d’Agent proches des modèles propriétaires de pointe est si remarquable.

V4 prouve par lui-même que même face à un écart temporaire de l’écosystème matériel, les équipes chinoises peuvent, grâce à un investissement technique extrême et une innovation conjointe logicielle-matérielle, obtenir des performances compétitives.

Bien sûr, il reste des écarts avant une maturité complète.

La perfection de la chaîne d’outils de la plateforme Ascend, la stabilité des grappes à très grande échelle, et l’optimisation approfondie de davantage de scénarios verticaux nécessitent des efforts continus de toutes les parties de l’industrie.

Mais le succès de V4 a tracé une voie exemplaire pour les modèles suivants.

Il a injecté une dose de confiance dans l’autonomie de toute la chaîne d’approvisionnement en IA.

Dans le contexte actuel d’incertitudes externes, cette résilience capable de percer malgré les limitations mérite plus de respect que de simples indicateurs de paramètres.

"Ne pas être séduit par la louange, ne pas être intimidé par la calomnie, agir selon la voie, se rectifier avec droiture".

Ce texte officiel de DeepSeek en est la meilleure illustration.

Questions liées

QQuelle est la signification stratégique de DeepSeek V4 au-delà de ses paramètres techniques ?

ALa véritable valeur de DeepSeek V4 réside dans sa capacité à fonctionner de manière stable et efficace sur des puces informatiques nationales chinoises, réduisant ainsi la dépendance à l'écosystème de Nvidia et ouvrant la voie à une autonomie stratégique dans l'IA.

QComment DeepSeek V4 a-t-il optimisé son architecture pour s'adapter aux puces chinoises ?

ADeepSeek V4 a utilisé un mécanisme d'attention hybride CSA + HCA, une compression KV Cache pour réduire la charge de calcul, et une architecture MoE qui n'active qu'une partie des paramètres à la fois, facilitant ainsi l'adaptation aux puces nationales comme celles de Huawei et Cambricon.

QQuels sont les avantages de DeepSeek V4 en termes de coût pour les applications industrielles ?

ADeepSeek V4 propose des prix très compétitifs, notamment pour les entrées/sorties de tokens dans des contextes de 1M, rendant les applications d'entreprise comme les agents de recherche ou de code plus abordables et réalisables à grande échelle.

QQuels défis l'adaptation de DeepSeek V4 aux puces chinoises a-t-elle dû surmonter ?

AL'adaptation a nécessité une refonte des couches de calcul, une optimisation des opérateurs et noyaux, et une collaboration étroite avec des partenaires comme Huawei pour compenser l'immaturité relative des écosystèmes logiciels et matériels locaux par rapport à CUDA de Nvidia.

QQuel impact DeepSeek V4 pourrait-il avoir sur l'industrie de l'IA en Chine ?

ADeepSeek V4 démontre que les modèles d'IA de pointe peuvent être déployés sur des puces nationales, encourageant ainsi l'autonomie technologique, réduisant les coûts de推理 (inférence) et facilitant l'adoption de l'IA par diverses industries sans dépendre exclusivement des technologies étrangères.

Lectures associées

Trading

Spot
Futures
活动图片