Le 24 avril 2026, la version préliminaire de DeepSeek V4 est officiellement lancée.
Ce grand modèle national, avec sa version Pro de 1,6 billion de paramètres et sa version Flash de 284 milliards de paramètres, a mis en avant son principal argument de vente : un contexte d'un million de tokens, devenu gratuit pour tous les services officiels. Presque au même moment, de l'autre côté de l'océan, OpenAI a dévoilé GPT-5.5, plus puissant en calcul, plus riche en fonctionnalités d'agent, mais aussi beaucoup plus cher.
« Un contexte d'un million de tokens » signifie, en langage simple, que l'IA n'est plus un « poisson rouge » capable de ne se souvenir que de vos dernières phrases, mais devient un « super cerveau » capable d'avaler d'un coup trois volumes de « Le Problème à trois corps », de comprendre un film de deux heures en une seconde, et de corriger vos fautes de frappe au passage.
Un exemple concret : vous pouvez jeter tous les contrats, e-mails et rapports financiers de votre entreprise des trois dernières années à V4, et lui demander de retrouver la clause de défaut cachée dans l'annexe de la page 47. Autrefois, cela nécessitait une équipe d'avocats ; aujourd'hui, c'est gratuit.
GPT-5.5 a tarifé ce super cerveau : 5 dollars par million de tokens en entrée et 30 dollars en sortie pour la version standard ; la version GPT-5.5 Pro, destinée aux tâches avancées, atteint le prix exorbitant de 30 dollars par million de tokens en entrée et 180 dollars en sortie.
Mais selon la tarification officielle de DeepSeek, V4-Flash coûte seulement 0,2 yuan RMB par million de tokens en entrée (avec cache) et 2 yuans en sortie ; même V4-Pro, comparable aux meilleurs modèles privés, coûte 1 yuan en entrée (avec cache), 12 yuans sans cache, et seulement 24 yuans en sortie.
On pense souvent que la concurrence sino-américaine en IA est une course aux capacités des modèles, mais en réalité, elle est déjà devenue une divergence de modèles économiques.
OpenAI, autrefois le jeune héros criant «造福全人类» (bénéficier à l'humanité), vend maintenant des appartements de luxe chers ; tandis que DeepSeek, avec une puissance de calcul presque gratuite, transforme l'IA en eau, électricité et gaz.
Alors qu'OpenAI devient un entrepreneur avisé, pourquoi DeepSeek s'efforce-t-il de rendre l'IA de pointe aussi gratuite que l'eau du robinet ? Quels courants sous-jacents se cachent derrière ce transfert de pouvoir tarifaire ?
Le vent froid de Ulanqab
La bataille décisive des grands modèles se joue dans les salles de serveurs à -20°C en Mongolie-Intérieure.
Peu avant le lancement de V4, une offre d'emploi surprenante est apparue chez DeepSeek : responsable senior de livraison de centre de données et ingénieur senior des opérations, avec un salaire mensuel allant jusqu'à 30 000 yuans, 14 mois de salaire, basé à Ulanqab, Mongolie-Intérieure.
C'était une entreprise qui se vantait d'être « légère, pure, ne faisant que de l'algorithme ». Ces deux dernières années, leur fierté était de « faire beaucoup avec peu », ayant développé DeepSeek-R1, qui a fait chuter le secteur de l'IA à Wall Street, avec un coût d'entraînement de moins de 6 millions de dollars.
Mais les énormes besoins en calcul de V4, ajoutés au resserrement du blocus américain sur la puissance de calcul, ont brisé cette idylle d'actifs légers.
En 2025, le ministère du Commerce américain a encore resserré les contrôles à l'exportation des puces IA vers la Chine. Les NVIDIA H100 et H800 sont déjà coupés, et même la version dégradée H20 a été ajoutée à la liste de contrôle. Cela signifie que l'expansion future de la puissance de calcul de DeepSeek doit se tourner entièrement vers l'écosystème Huawei Ascend. Dans les notes de version de V4, il est clairement indiqué que le nouveau modèle bénéficie du « soutien de Huawei Ascend », et il est révélé qu'après la mise sur le marché massive des super-nœuds Ascend 950 au second semestre, le prix de la version Pro baissera considérablement.
Ce virage ne se fait pas en modifiant quelques lignes de code d'adaptation ; il nécessite de reconstruire from scratch une infrastructure complète de calcul nationale au niveau physique.
L'échelle de V4 (données d'entraînement atteignant 33 billions de tokens), ajoutée aux énormes besoins de calcul du contexte d'un million de tokens, signifie que vous avez besoin de milliers de puces Ascend, de salles serveurs pour les accueillir, de réseaux électriques pour les alimenter, et d'équipes opérationnelles pour maintenir ces machines en fonctionnement par -20°C.
Liang Wenfeng a transposé sa méthodologie du monde des bits au monde atomique. La puissance de calcul finit par prendre racine dans le béton armé et les lignes électriques.
D'un côté, l'élite de l'IA en chemise à carreaux codant dans la Silicon Valley en buvant du café artisanal ; de l'autre, le personnel opérationnel en manteau militaire gardant les salles serveurs au fond des prairies de Mongolie-Intérieure. Cette différence constitue la base de la résistance de l'IA chinoise au blocus de la puissance de calcul. Le vent froid de Ulanqab est devenu le plus fort atout physique de l'IA chinoise.
La transformation d'une entreprise purement algorithmique en un joueur à « actifs lourds » construisant ses propres salles serveurs signifie que DeepSeek a dit adieu à l'ère de la guérilla « petit effort, grand miracle » et a officiellement enfilé l'armure de l'infanterie lourde. Le coût de cette transformation est énorme : construire des salles serveurs, acheter des puces, tirer des câbles réseau, chaque point est un gouffre sans fond. Plus important encore, ce modèle d'actifs lourds signifie que les coûts opérationnels augmentent exponentiellement, tandis que les revenus commerciaux de DeepSeek restent extrêmement limités. Cette stratégie tarifaire consiste essentiellement à échanger des pertes contre un écosystème, et la gratuité contre un pouvoir sur l'infrastructure.
Un dur à cuire qui a refusé tous les géants et subventionné l'IA avec son propre argent via le trading quantitatif, combien de temps peut-il tenir face à ce gouffre sans fond ?
Le compromis de 20 milliards de dollars
En avril, des rumeurs ont circulé selon lesquelles DeepSeek lançait sa première levée de fonds externe, avec une valorisation cible de 300 milliards de yuans (environ 44 milliards de dollars), planifiant une augmentation de capital de 50 milliards, dont 30 milliards levés à l'extérieur. Des rumeurs faisaient état d'une concurrence entre Tencent et Alibaba pour entrer au capital.
Beaucoup ont pensé que c'était à cause du coût de construction des salles serveurs. Mais en réalité, la motivation principale de DeepSeek pour lever des fonds, outre l'achat de cartes graphiques, est que « l'idéal technique pur » est impuissant face à la machine à broyer les talents des géants.
Pendant la phase cruciale du développement de V4, les grands groupes nationaux ont lancé une chasse aux talents ciblée et frénétique chez DeepSeek. De la seconde moitié de 2025 à aujourd'hui, au moins 5 membres clés de la R&D de DeepSeek ont confirmé leur départ. Wang Bingxuan, auteur principal de la première génération de modèles, est parti chez Tencent ; Luo Fuli, contributeur clé de V3, a été recruté par Lei Jun avec un salaire annuel de dix millions chez Xiaomi ; et Guo Daya, auteur principal de R1, a rejoint l'équipe Seed de ByteDance.
C'est le fonctionnement le plus赤裸裸 (cru) de l'économie de marché : lorsque vos concurrents ont des munitions illimitées et que vous insistez pour fonctionner avec des fonds propres, le marché des talents est votre point faible. Vous pouvez demander aux génies de réduire leur salaire et de faire des heures supplémentaires pour idéal de changer le monde, mais quand les grands groupes posent sur la table un chèque avec des millions en cash et des stock-options, en promettant des ressources de calcul illimitées, le pouvoir de fixation des prix de l'idéalisme ne vous appartient plus.
Le dilemme de Liang Wenfeng est en fait celui de chaque entrepreneur essayant de créer une « slow company » en Chine. Dans un marché où les grands groupes peuvent acheter n'importe qui avec de l'argent, la voie du « pas de levée de fonds, pas de commercialisation, seulement de la technique » est un luxe. Son prix est que vous devez accepter que votre équipe puisse être évacuée par l'argent de l'adversaire à tout moment.
Cette levée de fonds à 300 milliards de valorisation n'est pas un compromis de Liang Wenfeng envers le capital, mais une guerre de rachat qu'il lance aux grands groupes pour préserver l'équipe de développement de V4. Il doit s'asseoir à la table du capital, utiliser le même argent comptant, pour donner aux personnes restantes une raison suffisante de rester.
L'entrée possible de Tencent et Alibaba signifie que DeepSeek n'est plus cet idéaliste technique pur et solitaire. Il devient une entreprise avec des actionnaires externes et des pressions commerciales. Le coût de cette transformation est que cette « liberté de recherche sans pression externe » dont Liang Wenfeng était si fier sera inévitablement diluée.
Mais il n'avait pas le choix.
Lorsque l'idéalisme est forcé de revêtir une armure de capital, d'où vient la confiance pour faire fonctionner cette machine géante, pour faire vrombir jour et nuit les salles serveurs de Ulanqab ?
Un autre sorte de « faire beaucoup avec peu »
La réponse n'est pas dans l'algorithme, mais dans le réseau électrique.
L'anxiété principale de la Silicon Valley n'est pas le manque de puces, mais le manque d'électricité. Musk construit frénétiquement un super centre de données à Memphis, Tennessee ; OpenAI discute même d'investir dans des centrales nucléaires ; Microsoft annonce redémarrer la centrale nucléaire de Three Mile Island en Pennsylvanie pour alimenter ses centres de données IA. La fin de la puissance de calcul est l'électricité, une réalité physique extrêmement froide.
Aux États-Unis, la consommation électrique d'un grand centre de données IA équivaut à la consommation quotidienne d'une ville moyenne. Et le réseau électrique américain, un réseau vétuste construit dans les années 50, se développe lentement, est fragmenté régionalement, et ne suit pas du tout le rythme de l'expansion de la puissance de calcul à l'ère de l'IA.
Ce qui soutient la poursuite de l'IA chinoise, ce ne sont pas seulement les génies algorithmiques aux salaires annuels de dix millions, mais aussi les lignes de transmission à ultra-haute tension silencieuses.
Le centre de données de Ulanqab a pu surgir de terre grâce à l'abondance d'électricité verte en Mongolie-Intérieure et à la capacité de dispatch du réseau électrique chinois, numéro un mondial. Les données publiques montrent que la capacité installée d'électricité verte à Ulanqab atteint 19,402 MW, représentant environ 65,9 %, l'électricité verte locale étant environ 50 % moins chère que dans les régions de l'Est. Ajoutez à cela une température annuelle moyenne de seulement 4,3°C, une période de refroidissement naturel proche de 10 mois, permettant d'économiser 20 % à 30 % d'énergie sur les équipements.
Lorsque DeepSeek V4 fonctionne, ce qui lui transfuse vraiment le sang, c'est l'infrastructure électrique chinoise, massive et extrêmement bon marché. C'est une autre dimension du « faire beaucoup avec peu ».
Il y a ici un parallèle historique extrêmement intéressant et cruel. En 1986, les États-Unis ont mis à genoux l'industrie semi-conductrice japonaise avec l'« Accord semi-conducteur États-Unis-Japon », forçant le Japon à ouvrir son marché et à accepter un contrôle des prix. La part de marché mondiale des semi-conducteurs japonais est passée de 40 % en 1986 à 15 % en 2011. Le Japon a mis trente ans à s'en remettre.
Aujourd'hui, les États-Unis tentent de verrouiller l'IA chinoise avec la même logique : bloquer les puces, restreindre la puissance de calcul, couper la chaîne d'approvisionnement technologique. Mais la contre-attaque de la Chine est complètement différente de celle du Japon. L'échec du Japon à l'époque tenait à sa forte dépendance envers les licences technologiques et l'accès au marché américains ; une fois coupé, il a perdu sa capacité de survie indépendante. La contre-attaque de l'IA chinoise, elle, commence par la reconstruction de l'infrastructure physique la plus basique : fabriquer ses propres puces, construire ses propres salles serveurs, tirer ses propres réseaux électriques, ouvrir ses modèles.
C'est une voie extrêmement lourde, extrêmement coûteuse, mais aussi extrêmement difficile à « étrangler ». Tandis que la Silicon Valley construisait une tour de Babel华丽 (somptueuse) dans les nuages, la Chine creusait des tranchées dans la boue.
Si la bataille de la puissance de calcul dans le cloud est une guerre d'usure d'actifs lourds extrêmement acharnée, outre la construction de salles serveurs à Ulanqab et le tirage de lignes électriques, existe-t-il une autre voie pour échapper à l'hégémonie du cloud ?
Échapper au cloud
Alors que les géants de la Silicon Valley construisent des centres de données de plus en plus grands, planifiant même des clusters de calcul de centaines de milliards de dollars comme OpenAI, la ligne de contre-attaque chinoise s'est discrètement déplacée sous terre.
L'arme ultime contre le blocus américain de la puissance de calcul n'est pas de fabriquer une puce plus forte que le H100, mais de mettre le grand modèle dans le téléphone de chacun.
Puisque nous ne pouvons pas rivaliser avec la puissance de feu lourde dans les salles serveurs cloud, ramenons le champ de bataille sur 1,4 milliard de smartphones et appareils edge. C'est une tactique typique de guérilla, et une extrêmement difficile à bloquer : vous pouvez interdire l'exportation de GPU haut de gamme, mais vous ne pouvez pas confisquer le téléphone dans la poche de chaque Chinois.
En 2026, avec l'anxiété sur la puissance de calcul déclenchée par DeepSeek, les fabricants de téléphones chinois Xiaomi, OPPO, vivo ont commencé un transfert frénétique « vers le terminal ». Ils ne se contentent plus de faire du téléphone un simple écran appelant des API cloud, mais grâce à une distillation et compression de modèles极致 (extrême), ils ont enfoncé de force une version réduite du super cerveau dans des téléphones nationaux de quelques milliers de yuans.
Le cœur de cette approche technologique est la « distillation ». En simple, utiliser un super grand modèle (le professeur) pour entraîner un petit modèle (l'étudiant), permettant au petit modèle d'apprendre la « façon de penser » du professeur, et non de mémoriser bêtement toutes ses « connaissances ». Après une distillation et quantification压缩 (compression)极致, un grand modèle qui nécessitait des centaines de GPU pour fonctionner est compressé à seulement 1,2 Go à 2,5 Go, fonctionnant fluidement sur une puce de téléphone.
Des applications IA mobiles comme MNN Chat permettent déjà aux utilisateurs d'exécuter localement sur leur téléphone un modèle distillé de DeepSeek R1. La signification de cette IA de terminal est que vous n'avez pas besoin d'être constamment connecté en 5G, de payer 100 dollars d'abonnement mensuel aux géants de la Silicon Valley. Le grand modèle est dans votre poche, fonctionne hors ligne, ne coûte pas un centime en calcul cloud.
Puisque je ne peux pas me permettre de construire une super chaudière pour le chauffage central, je donne un petit poêle à chaque foyer.
Bien sûr, l'IA de terminal n'est pas parfaite. Limitée par la puissance de calcul et la mémoire des puces de téléphone, la capacité maximale des modèles de terminal est bien inférieure à celle des super grands modèles cloud. Elle peut vous aider à écrire un e-mail, traduire un texte, résumer un article, mais si vous voulez qu'elle dérive un théorème mathématique complexe ou analyse un contrat juridique de centaines de pages, elle sera encore insuffisante.
Mais c'est déjà suffisant. Car pour la grande majorité des gens ordinaires, l'IA dont ils ont besoin n'a jamais été ce super cerveau capable de dériver des théorèmes mathématiques, mais un « assistant personnel » qui les aide à gérer les corvées quotidiennes.
Lorsque les grands modèles deviennent extrêmement bon marché, voire peuvent tenir dans une poche, comment vont-ils changer les coins oubliés par la Silicon Valley ?
L'égalité numérique du Sud global
Si vous êtes assis dans un bureau avec vue panoramique à Manhattan, vous penserez probablement que l'augmentation de GPT-5.5 à 100 dollars en vaut la peine, car il peut vous aider à rédiger un rapport financier de fusion-acquisition parfait en une seconde.
Mais si vous vous tenez dans un champ de maïs en Ouganda, face à des cultures jaunies par des anomalies climatiques, personne ne peut se permettre un abonnement de 100 dollars, car le revenu mensuel moyen en Ouganda est inférieur à 150 dollars.
Les géants de la Silicon Valley discutent de comment dominer le monde avec l'IA, tandis que les agriculteurs ougandais et les étudiants pauvres d'Asie du Sud-Est, grâce à l'open source de DeepSeek, entrent pour la première fois dans l'ère numérique.
GPT-5.5 sert ceux qui peuvent payer, et son corpus est presque entièrement en anglais. Si vous posez une question en swahili ou en javanais, non seulement il répondra de manière hésitante, mais les tokens consommés seront plusieurs fois ceux de l'anglais. Les géants de la Silicon Valley, à cause du « faible retour sur investissement commercial », ont abandonné activement ces marchés marginaux.
Et les modèles open source chinois sont devenus l'infrastructure numérique du Sud global.
En Ouganda, l'organisation non gouvernementale locale Sunbird AI, utilisant le système Sunflower basé sur le modèle open source chinois Qwen fine-tuné, a étendu le nombre de langues locales supportées de 6 à 31. Ce système est maintenant déployé dans le système de vulgarisation agricole du gouvernement ougandais, envoyant des conseils de plantation en swahili.
En Malaisie, une entreprise technologique a fine-tuné un modèle IA conforme à la charia à partir d'une base open source, supportant non seulement le malais et l'indonésien, mais garantissant également que le contenu de sortie respecte les normes religieuses et culturelles du marché musulman. Du système d'identité numérique indonésien aux questions-réponses médicales en swahili au Kenya, la technologie chinoise s'infiltre dans l'infrastructure sociale sous-jacente de ces pays.
OpenRouter, la plus grande plateforme d'agrégation d'API de modèles IA au monde, a publié des données début 2026 montrant que la consommation de tokens des modèles IA chinois sur sa plateforme a dépassé pour la première fois celle des concurrents américains. Sur une semaine statistique, les 10 modèles les plus populaires au monde ont consommé 8,7 billions de tokens, les modèles chinois représentant environ 61 %.
L'open source a brisé le monopole américain sur le discours de l'IA, permettant aux pays en développement aux ressources limitées de franchir le fossé numérique. Ce n'est pas une grande narration de rivalité sino-américaine, c'est la véritable « campagne encerclant les villes » de l'ère de l'IA.
La stratégie open source de l'IA chinoise devient objectivement une exportation de « soft power » extrêmement efficace. Alors que les géants de la Silicon Valley construisent des murs élevés dans le cloud, essayant de devenir les nouveaux propriétaires numériques, ceux qui ne peuvent pas payer le loyer, les « réfugiés technologiques », ont enfin trouvé leur propre étincelle dans la boue de l'open source et du terminal.
L'eau du robinet
La technologie ne devrait jamais être un produit de luxe高高在上 (haut perché).
La Silicon Valley a construit de très beaux appartements, avec un contrôle d'accès strict, réservés aux VIP. Mais nous avons construit un pipeline d'eau potable通向千家万户 (menant à des millions de foyers).
Le point de départ de ce pipeline est dans les salles serveurs à -20°C de Mongolie-Intérieure, dans le vrombissement des lignes de transmission à ultra-haute tension, dans la guerre de valorisation à 300 milliards. Chaque segment est lourd, cher, plein de contraintes et de compromis. Liang Wenfeng voulait faire une entreprise purement technique, mais la réalité l'a obligé à construire des salles serveurs, à lever des fonds, à se battre avec les grands groupes pour les talents. Il n'avait pas le choix, car il a choisi une voie plus difficile : ne pas faire de l'IA un produit de luxe, mais en faire l'eau du robinet.
Et le point d'arrivée de ce pipeline est dans un téléphone national de quelques milliers de yuans, entre les doigts rugueux des agriculteurs ougandais, dans la vie de chaque普通 (ordinaire) aspirant à franchir le fossé numérique.
Aussi hautes que soient construites les murailles de la puissance de calcul, elles ne peuvent arrêter l'eau du robinet qui coule vers le bas.











