Par Gao Heng (Expert membre du Comité spécialisé de la diffusion de la science-fiction et des industries futures de la Société chinoise des actualités scientifiques et technologiques)
Après la sortie de DeepSeek V4, ce qu'il faut regarder de plus près n'est pas les scores de performance, mais la petite ligne sous le tableau des prix.
Dans les explications sur la tarification de V4, DeepSeek mentionne que, limité par la puissance de calcul haut de gamme, le service Pro a actuellement un débit très limité, et que le prix de Pro devrait baisser considérablement dans la seconde moitié de l'année, après la mise sur le marché en série des super-nœuds Ascend 950.
Cette phrase est plus riche en informations que de nombreux paramètres techniques. Elle montre que le faible prix de DeepSeek n'est plus seulement le résultat de l'optimisation technique du modèle, mais commence à être lié au rythme de l'offre de puissance informatique nationale. Par le passé, lorsque les entreprises de modèles baissaient leurs prix, cela était généralement interprété comme une amélioration de l'efficacité des algorithmes, des subventions des fabricants ou une nouvelle guerre des prix. Mais cette fois, DeepSeek conditionne explicitement une future baisse de prix au déploiement à grande échelle des super-nœuds Ascend 950.
C'est aussi ce qui rend vraiment différente cette sortie de V4. En surface, il s'agit d'une mise à niveau de modèle classique : 1,6 billion de paramètres, un contexte de 100 000 tokens, des capacités renforcées en code et Agent, un prix d'API plus bas. Mais en regardant plus profondément, cela ressemble plus à Liang Wenfeng répondant simultanément à trois questions : DeepSeek peut-il continuer à rendre les modèles moins chers ; la puissance de calcul nationale peut-elle entrer dans le chemin critique des modèles de pointe ; une équipe qui a longtemps présenté un idéalisme technologique peut-elle résister aux pressions du financement, de la rétention du personnel et de la commercialisation.
Au cours de l'année écoulée, DeepSeek a changé la façon dont l'industrie chinoise des grands modèles fixe ses prix. Après les sorties de V3 et R1, les fabricants de modèles nationaux et étrangers ont été contraints de recalculer les prix des API, les coûts de formation et les voies de commercialisation. Avec V4, la question devient plus complexe. DeepSeek ne se contente pas de baisser encore les prix, mais conditionne la prochaine étape de la baisse au déploiement à grande échelle de la puissance de calcul nationale.De mon point de vue, cela signifie que la concurrence des grands modèles en Chine passe de « quel modèle est le plus performant » à une phase où « qui peut relier le modèle, les puces, les systèmes d'ingénierie et l'organisation commerciale en une boucle fermée ».
01 DeepSeek rend le contexte long abordable
Le 24 avril dans la matinée, DeepSeek a annoncé la mise en ligne officielle de la version préliminaire de la nouvelle série de modèles DeepSeek-V4, simultanément en open source.
Il ne s'agit pas d'un modèle unique, mais de deux versions lancées en même temps : DeepSeek-V4-Pro et DeepSeek-V4-Flash. Selon les informations divulguées par DeepSeek, V4-Pro a un total de 1,6 billion de paramètres, dont 49 milliards activés, et est positionné pour les tâches haute performance ; V4-Flash a un total de 284 milliards de paramètres, dont 13 milliards activés, et vise un faible coût et un haut débit. Les deux modèles adoptent l'architecture MoE, c'est-à-dire le « Mixture of Experts » (Mélange d'Experts).
Peng Deyu, commentateur renommé de l'industrie technologique, analyse pour moi : La logique du MoE n'est pas compliquée. Un grand modèle interne peut avoir de nombreux « experts », mais à chaque fois qu'il répond à une question, il n'a pas besoin que tous les experts travaillent simultanément, il n'en appelle qu'une partie la plus pertinente. Ainsi, on peut augmenter la capacité du modèle sans faire porter le fardeau informatique des paramètres complets à chaque appel. Pour l'utilisateur, cela se traduit par un modèle moins cher et plus rapide ; pour l'entreprise de modèles, l'essentiel est que le coût unitaire d'inférence soit réduit.
Un autre changement de V4 est de faire du contexte de 100 000 tokens un service standard officiel. Cette capacité peut sembler abstraite pour l'utilisateur ordinaire, mais dans un scénario d'utilisation, elle devient directe : l'utilisateur peut faire traiter en une fois par le modèle un livre entier, un dépôt de code important, un rapport annuel complet ou un ensemble de documents de projet complexes. Par le passé, ce type de traitement de texte long était généralement une capacité supplémentaire des modèles haut de gamme, coûteuse, lente à appeler et gourmande en mémoire.De mon point de vue, l'objectif de V4 n'est pas d'être le premier à atteindre le contexte d'un million de tokens, mais de tenter d'en faire une capacité de base à faible coût.
Li Rui, directeur exécutif de Qishijie Beijing Technology Co., Ltd., me dit : C'est aussi le changement le plus significatif de V4 cette fois. Le contexte d'un million de tokens n'est plus aujourd'hui une capacité exclusive, Gemini, Qwen et d'autres modèles l'ont également atteint. La question à laquelle DeepSeek doit répondre n'est pas « peut-on le faire », mais « une fois fait, le coût peut-il être supporté ». Si le contexte long reste cher, ce n'est qu'une fonctionnalité pour une minorité d'utilisateurs haut de gamme ; si le coût est réduit, il peut alors devenir une infrastructure quotidienne utilisable par les entreprises et les développeurs.
Un chercheur de l'industrie des grands modèles m'indique : Cela résout une contradiction de longue date dans l'industrie des grands modèles : plus le contexte est long, plus le coût est élevé. Les modèles traditionnels, pour comprendre un texte long, doivent calculer un grand nombre de relations entre les tokens, plus le texte est long, plus la charge de calcul et l'occupation de la mémoire tendent à augmenter. DeepSeek V4 n'affronte pas ce problème de front, mais utilise plutôt des mécanismes d'attention clairsemée et de compression pour d'abord compresser le texte long, puis en extraire les points clés. En d'autres termes, au lieu de faire relire sans cesse tout le contenu du début à la fin, il organise d'abord le contenu en une structure d'information plus condensée, puis raisonne autour des points clés.
Le prix poursuit la stratégie habituelle de DeepSeek. Selon la tarification API annoncée pour V4, la version Pro coûte 1 yuan / million de tokens en entrée (cache hit), et 24 yuan / million de tokens en sortie ; la version Flash coûte 0,2 yuan / million de tokens en entrée (cache hit), et 2 yuan / million de tokens en sortie.En comparant, actuellement, le prix d'entrée avec cache hit de GLM-5.1 de Zhipu est d'environ 1,3-2 yuan / million de tokens, celui de Kimi-K2.6 est d'environ 1,1 yuan / million de tokens. Autrement dit, le prix d'entrée de V4 reste bas parmi les modèles grand public chinois.
De mon point de vue, ce qui est vraiment notable cette fois, c'est que le faible prix et le contexte long sont associés. Le contexte d'un million de tokens n'est pas un paramètre isolé, il détermine si le modèle peut entrer dans des flux de travail plus lourds. Le code, la finance, le droit, la recherche scientifique, les bases de connaissances d'entreprise, ces scénarios nécessitent tous que le modèle lise de longs documents, traite des structures complexes et conserve le contexte.
Les changements de capacité de V4 tournent également autour de ces scénarios. Les informations d'évaluation divulguées par DeepSeek montrent que V4-Pro surpasse la majorité des modèles open source dans les évaluations publiques pour les tâches de mathématiques, STEM, code compétitif ; il entre dans le premier tier des modèles open source pour l'Agentic Coding (Codage Agent) et est utilisé en interne par DeepSeek comme outil de codage pour l'équipe d'ingénierie. Il a également été adapté pour des outils Agent grand public comme Claude Code, OpenClaw, CodeBuddy, optimisant les performances dans les scénarios de génération de code, de traitement de documents et d'appel d'outils.
Mais cela ne signifie pas que V4 ait déjà creusé un écart général. Wu Yuxing, expert en positionnement stratégique d'entreprise, m'analyse ainsi : La percée de performance de V4 est un peu moins importante que le choc apporté à l'époque par R1. Il reste dans le premier tier, mais il y a encore un écart avec les modèles fermés les plus avancés pour certaines tâches Agent complexes et la connaissance mondiale la plus étendue.
L'intérêt de V4 n'est pas « l'écrasement total », mais de fournir des capacités de contexte long et de tâches de production suffisamment fortes à un prix bas. C'est la première signification de DeepSeek V4 : il continue d'abaisser le seuil d'utilisation des modèles haute performance. Mais plus important encore, DeepSeek commence à expliquer sur quoi peut encore reposer ce faible prix, et la réponse pointe vers la puissance de calcul nationale.
02 La prochaine étape de l'abordabilité pointe vers la puissance de calcul nationale
Le point le plus crucial de V4 ne se trouve pas dans le tableau des paramètres, mais dans cette phrase concernant l'Ascend 950.
DeepSeek mentionne explicitement dans les explications de tarification que, limité par la puissance de calcul haut de gamme, le service Pro a actuellement un débit très limité, et que le prix de Pro devrait baisser considérablement dans la seconde moitié de l'année, après la mise sur le marché en série des super-nœuds Ascend 950. Qu'une entreprise de modèles lie directement une future baisse de prix au calendrier de mise sur le marché d'un certain type de cluster de calcul, c'est assez rare dans l'industrie. Cela montre que le prix des modèles commence à être déterminé par la structure de la puissance de calcul.
Par le passé, le faible coût de DeepSeek était davantage perçu comme une victoire de l'architecture du modèle et de l'efficacité technique. V2 utilisait le MoE pour réduire l'échelle des paramètres activés ; R1 utilisait une voie d'entraînement et d'inférence plus efficace pour secouer la dépendance de l'industrie à l'empilement de puissance de calcul ; quant à V3, il a démoli la logique de tarification traditionnelle des grands modèles généraux avec un contrôle des coûts et une optimisation technique poussés à l'extrême. Après V3 et R1, les grands modèles chinois ont été contraints d'entrer dans une nouvelle réévaluation des prix. Mais la particularité de V4 est que DeepSeek commence à conditionner l'étape suivante de la baisse des prix au déploiement à grande échelle de la puissance de calcul nationale.
Selon le rapport technique de DeepSeek, V4 a réalisé un parallélisme d'experts à grain fin (EP) au niveau du système sous-jacent. En termes simples, il s'agit d'optimiser la façon dont le modèle est planifié sur les puces, en faisant se chevaucher le calcul et la communication comme une ligne de production, réduisant ainsi le temps d'attente des puces. Une même batch de puces, si elle peut traiter plus de requêtes, verra naturellement son coût unitaire d'inférence baisser.
Le rapport technique mentionne que ce schéma EP a déjà été validé sur deux systèmes : les GPU NVIDIA et les NPU Huawei Ascend. Pour les tâches d'inférence génériques, il permet une accélération de 1,5-1,73 fois, et pour les scénarios sensibles à la latence (comme la déduction RL et les services d'agents à haute vitesse), elle peut atteindre 1,96 fois. Huawei Ascend a également annoncé après la sortie de V4 que la série de produits super-nœuds prend en charge la série de modèles DeepSeek V4. On comprend que l'Ascend 950, grâce à la fusion des kernels et à la technologie de parallélisme multi-flux, réduit les calculs Attention et les frais d'accès à la mémoire, améliorant considérablement les performances d'inférence, et combine divers algorithmes de quantification pour réaliser un déploiement d'inférence du modèle DeepSeek V4 à haut débit et faible latence.
Peng Deyu me dit : La signification de ces informations ne se limite pas à « une inférence plus rapide ». Cela signifie que l'optimisation technique de DeepSeek commence à avoir une capacité multiplateforme. Par le passé, la plupart des entreprises de grands modèles développaient autour de l'écosystème CUDA de NVIDIA. CUDA n'est pas seulement un outil de programmation, il ressemble plus à un système d'exploitation sous-jacent de l'ère de l'IA. Une grande quantité de développeurs, de bibliothèques d'opérateurs, de frameworks et de code de modèles dans le monde sont construits autour de CUDA. Une fois sorti de cet écosystème, beaucoup de code bas niveau doit être réécrit, avec des coûts techniques et de test très élevés. C'est la vraie barrière protectrice de NVIDIA.
Ce que fait DeepSeek maintenant, ce n'est pas de renverser immédiatement CUDA, mais d'essayer de se laisser une deuxième voie. D'après une synthèse des informations des médias, DeepSeek utilise des méthodes comme TileLang, Tile Kernels, etc., pour abstraire une partie de la logique des opérateurs bas niveau du chemin unique CUDA, exprimer la logique de calcul dans un langage plus générique, puis laisser le compilateur générer le code bas niveau adapté à différents matériels. Ainsi, les développeurs n'ont pas besoin de réécrire complètement un code pour chaque GPU ou NPU, mais peuvent d'abord écrire la logique générique, puis optimiser pour le matériel spécifique.
Ceci est important pour les puces nationales. Les puces IA nationales étaient confrontées dans le passé non seulement à un problème de puissance de calcul sur le papier, mais aussi à des problèmes d'écosystème logiciel et d'utilisation effective. La possibilité de bien utiliser une puce dépend de multiples maillons : le modèle, les opérateurs, le compilateur, la communication, la gestion de la mémoire, etc. Si DeepSeek peut faire fonctionner un modèle de pointe sur Huawei Ascend et en réduire le coût d'inférence, cela apporte non seulement un cas d'adaptation pour un modèle, mais aussi une validation technique de la synergie logiciel-matériel.
Mais DeepSeek ne s'est pas immédiatement débarrassé de NVIDIA, à court terme, CUDA reste le chemin le plus mature et le plus stable. Le signal envoyé par V4 est que la puissance de calcul nationale commence à entrer dans la structure de coût clé de DeepSeek, et influence dans une certaine mesure la future tarification. Elle n'a pas encore renversé CUDA, mais elle rend CUDA moins irremplaçable.
C'est exactement ce qui inquiète Jensen Huang. Le fondateur de NVIDIA, Jensen Huang, a récemment déclaré lors d'un entretien avec Dwarkesh Patel que si DeepSeek sortait d'abord sur la plateforme Huawei, ce serait catastrophique pour les États-Unis. Li Rui souligne que ce jugement n'est pas dû au fait que DeepSeek a dépassé qui que ce soit sur un score particulier, mais parce qu'une fois que des modèles open source de premier plan peuvent fonctionner de manière stable en dehors de l'écosystème NVIDIA, les développeurs pourraient commencer à changer leurs habitudes. Si le modèle est suffisamment bon, le prix suffisamment bas, la chaîne d'outils mature, la migration ne devient plus seulement un choix politique ou d'approvisionnement, mais un choix commercial.
Ainsi, la deuxième signification de V4 est que la logique de faible prix de DeepSeek passe d'une logique « pilotée par l'optimisation du modèle » à une logique pilotée par « l'optimisation du modèle + le système de puissance de calcul ». Par le passé, le prix des grands modèles était principalement déterminé par l'efficacité des algorithmes, le coût de formation et les subventions des fabricants ; maintenant, le prix commence à être lié à l'offre de puces, au déploiement des super-nœuds, à l'efficacité de la synergie logiciel-matériel. Pour DeepSeek, c'est une voie vers des coûts encore plus bas ; pour NVIDIA, c'est une fissure temporairement petite, mais qui doit être surveillée de près.
Seulement, la synergie logiciel-matériel n'est pas une affaire à faible intensité capitalistique. Plus le modèle s'intègre profondément dans les puces et l'infrastructure, plus DeepSeek doit supporter de coûts, de pressions organisationnelles et de pression de commercialisation.
03 DeepSeek commence à devenir lourd
C'est aussi pourquoi, autour de la sortie de V4, les informations selon lesquelles Liang Wenfeng commence à chercher des financements externes semblent tout aussi importantes.
Selon un reportage de Sina Technology, récemment, DeepSeek a également fait état de plans pour lever 50 milliards de yuans. Une source proche de DeepSeek a révélé que la valorisation pré-money de DeepSeek était de 300 milliards de yuans, soit environ 44 milliards de dollars, et que Tencent Holdings et Alibaba Group étaient actuellement en pourparlers pour investir dans DeepSeek. Cependant, pour les questions liées au financement, DeepSeek n'a pas encore répondu directement aux demandes des médias.
La valorisation spécifique n'est pas le plus important. L'essentiel est que DeepSeek commence à ouvrir une fenêtre de financement externe. Cela signifie que la concurrence à laquelle il fait face n'est plus seulement la capacité du modèle, mais s'étend aux investissements en puissance de calcul, à la stabilité des talents, à la motivation des employés et à la capacité de commercialisation.
Ce qui importe n'est pas que le montant de l'investissement soit un chiffre suffisamment important. Sur le marché du financement de l'IA d'aujourd'hui, il n'est pas exagéré. Ce qui importe, c'est que la personne qui ouvre la porte au financement est Liang Wenfeng. DeepSeek était auparavant perçu comme une entreprise rare d'idéalisme technique, soutenue par幻方量化 (H Quant), ne se pressant pas pour prendre des capitaux externes, ni pour raconter des histoires commerciales. Maintenant, il commence à chercher des financements externes, ce qui indique que la forme de la concurrence après V4 est devenue plus lourde et qu'il y a aussi de la pression : l'infrastructure de puissance de calcul, la motivation des talents et la concrétisation commerciale nécessitent toutes des arrangements capitalistiques plus stables qu'auparavant.
La première pression vient de la puissance de calcul. Plus V4 s'enfonce dans la puissance de calcul nationale, plus il a besoin d'investissements infrastructurels. Les paramètres des modèles passent du niveau des centaines de milliards à celui des billions, les coûts d'entraînement et d'inférence augmentent. S'il faut en plus faire plus d'adaptation, de réglage et de déploiement autour de l'écosystème Ascend, DeepSeek ne peut plus être juste une entreprise de modèles à faible intensité capitalistique. Actuellement, DeepSeek recrute déjà des ingénieurs de maintenance de centre de données à Ulanqab, en Mongolie intérieure, c'est la première fois qu'il recrute du personnel directement responsable de l'exploitation de l'infrastructure de calcul, ce qui est également perçu à l'extérieur comme un signal de son mouvement vers une infrastructure de puissance de calcul plus lourde.
La deuxième pression vient des talents. Les reportages de plusieurs médias montrent que actuellement, 5 experts techniques clés confirmés comme ayant quitté DeepSeek sont partis vers des entreprises comme ByteDance, Tencent, Xiaomi, Yuanrong Qihang, etc., touchant les domaines des modèles de base, de l'apprentissage par renforcement pour l'inférence, du multimodal et de l'OCR. Parmi eux, Guo Daya (auteur principal de DeepSeek R1) aurait rejoint l'équipe Seed de ByteDance ; Wang Bingxuan (auteur principal de DeepSeek LLM) a rejoint Hunyuan de Tencent ; Ruan Chong (ayant profondément participé au développement des modèles multimodaux DeepSeek-VL, VL2, Janus系列) a rejoint Yuanrong Qihang ; Luo Fuli (l'un des principaux développeurs de DeepSeek-V2, et contributeur clé de la technologie MLA) a rejoint Xiaomi ; Wei Haoran (auteur principal de la série DeepSeek OCR) n'a pas encore divulgué sa destination.
Pour une entreprise de moins de 200 personnes, ce type de flux n'est pas un simple changement de personnel. Les médias rapportent que l'équipe centrale de R&D de DeepSeek compte environ 100 personnes, ne recrute presque pas en externe, s'appuyant principalement sur des diplômés et des stagiaires. Dans une telle équipe, le départ d'un chercheur clé peut affecter non pas un poste, mais la continuité d'une ligne technique.
Cela ne signifie pas que l'organisation de DeepSeek est mauvaise. Au contraire, l'impression de long terme de l'extérieur sur DeepSeek est justement qu'elle a un mode d'organisation difficile à reproduire pour les grandes entreprises : pas de pointage, pas de KPI, les chercheurs peuvent former librement des équipes ou travailler seuls sur de nouvelles idées. Ce mode d'organisation convient aux percées techniques précoces, et explique pourquoi DeepSeek a pu continuellement faire des innovations techniques contre-intuitives ces dernières années. Mais lorsque l'industrie entre dans une phase plus lourde, la question change. Les talents de premier plan ne regardent pas seulement la liberté de travail, mais aussi la direction technique, les investissements en ressources et les scénarios de mise en œuvre. Les grandes entreprises peuvent offrir simultanément de l'argent, de la puissance de calcul, des scénarios produits et des équipes plus grandes.
La troisième pression vient de la commercialisation. Avant la sortie de V4, l'application DeepSeek App a été remaniée le 8 avril, mettant en ligne le « Mode Expert » prenant en charge le raisonnement complexe et le « Mode Rapide » pour les tâches simples. Avec la sortie de V4, l'extérieur a appris que le Mode Expert correspondait au V4-Pro à 1,6 billion de paramètres, et le Mode Rapide au V4-Flash à 284 milliards de paramètres. Ce changement montre que DeepSeek ne se contente plus de mettre le modèle à disposition des développeurs, mais commence à affiner une stratification des produits orientée utilisateur.
Peng Deyu souligne que cela crée une tension naturelle avec la voie open source. L'open source peut rapidement établir une notoriété technique et permettre aux développeurs et partenaires de l'écosystème de réutiliser plus rapidement la voie de DeepSeek. Mais l'open source signifie généralement des marges bénéficiaires plus faibles, une sensibilité aux coûts plus élevée. Des entreprises fermées comme OpenAI, Anthropic peuvent établir une boucle commerciale plus directe via des abonnements, des API, des services aux entreprises ; Google, Amazon, Microsoft peuvent absorber le coût des modèles dans leur écosystème et leur cloud computing. DeepSeek n'a pas ces couches tampons commerciales toutes faites. S'il veut continuer à坚持 (insister sur)低价格 (le faible prix), l'open source et la R&D de modèles de pointe, il doit trouver de nouveaux soutiens en termes de fonds, de puissance de calcul et de commercialisation.
Li Rui déclare que c'est pourquoi la sortie de V4 et le financement ne sont pas deux choses indépendantes. V4 est la copie que Liang Wenfeng remet au marché, prouvant que DeepSeek peut encore produire des modèles puissants à bas prix, et pousser la puissance de calcul nationale sur le chemin critique. Le financement est la copie qu'il remet à l'équipe, laissant une marge de manœuvre pour les investissements en puissance de calcul, les stock-options des employés, la stabilité des talents et l'exploration commerciale.
Wu Yuxing ajoute : Il y a aussi un paradoxe plus réaliste ici. Le financement peut résoudre la valorisation des actions, peut soulager la pression sur la puissance de calcul, et peut donner à l'entreprise plus de poids dans la guerre des talents. Mais le financement ne résout pas tous les problèmes. Ce que DeepSeek avait de plus rare par le passé n'était pas l'argent, mais cette qualité organisationnelle prête à parier à long terme sur les technologies sous-jacentes, à contourner les sentiers battus pour faire des innovations techniques. Une fois que le capital, la commercialisation et la guerre des talents des grandes entreprises entrent simultanément en jeu, ce que DeepSeek doit préserver n'est pas seulement l'avance du modèle, mais aussi sa propre voie technique et culture organisationnelle d'origine.
De mon point de vue, c'est aussi le problème profond que V4 expose vraiment. Il prouve que les grands modèles chinois ont déjà la capacité d'avancer simultanément d'un pas dans la capacité des modèles, le prix de l'inférence et l'adaptation de la puissance de calcul nationale ; mais il prouve aussi que la concurrence des grands modèles n'est plus une compétition où quelques génies écrivent de meilleurs algorithmes. La phase suivante se joue sur l'infrastructure de puissance de calcul, les systèmes d'ingénierie, la transformation produit, la capacité de financement et la densité des talents.
Liang Wenfeng a cette fois misé sur la puissance de calcul nationale. V4 maintient DeepSeek au centre de l'industrie, et permet à l'extérieur de voir que l'écosystème CUDA n'est pas complètement inébranlable. Mais les questions les plus difficiles commencent juste : alors que les modèles deviennent de plus en plus lourds, les talents de plus en plus chers, la commercialisation de plus en plus pressante, DeepSeek peut-il, après être devenu une entreprise d'infrastructure IA plus lourde, conserver cette capacité passée à changer les règles.





