Fin 2025, le rapport annuel d'utilisation publié par OpenRouter, la plus grande plateforme d'agrégation de modèles d'IA au monde, a révélé que 47 % de ses utilisateurs provenaient des États-Unis, tandis que les développeurs chinois en représentaient 6 %. De plus, l'anglais constituait 83 % du contenu appelé sur la plateforme, contre moins de 5 % pour le chinois.
Mais au cours de la semaine se terminant le 3 avril 2026, six des dix modèles les plus appelés sur la plateforme étaient d'origine chinoise. Classés par volume d'appel du plus élevé au plus bas, il s'agissait de : Xiaomi MiMo-V2-Pro, Step星辰 Step 3.5 Flash, MiniMax M2.7, DeepSeek V3.2, Zhipu GLM 5 Turbo et MiniMax M2.5. Parmi eux, Xiaomi MiMo-V2-Pro s'est classé premier sur l'ensemble de la plateforme avec 4,82 billions de tokens.
En fait, depuis la semaine du 9 au 15 février 2026, où le volume d'appels des modèles chinois a dépassé pour la première fois celui des États-Unis, la suprématie des modèles chinois s'est maintenue pendant près de deux mois.
La plateforme OpenRouter regroupe plus de 400 modèles d'IA, couvrant plus de 60 fournisseurs, et ses données de volume d'appels sont considérées comme l'une des fenêtres d'observation des préférences de choix de modèles des développeurs mondiaux. Les développeurs peuvent basculer à tout moment entre différents modèles en utilisant la même clé API (une clé utilisée pour authentifier l'identité et appeler les services).
Chris Clark, cofondateur et COO d'OpenRouter, a déclaré publiquement en février 2026 que les modèles open source chinois représentaient une proportion "disproportionnellement élevée" dans les flux de travail des agents (intelligents) exécutés par les entreprises américaines. Parallèlement, les discussions au sein de la communauté des développeurs sur la répartition des tâches entre modèles et l'optimisation des coûts se sont multipliées.
Certains comparent ce phénomène à l'industrie manufacturière chinoise d'il y a 30 ans : à l'époque, la Chine s'était introduite dans la chaîne d'approvisionnement mondiale de l'électronique grâce à son avantage en termes de coûts, donnant naissance à des entreprises de sous-traitance comme Foxconn et Luxshare Precision ; aujourd'hui, les grands modèles chinois s'introduisent également dans le maillon d'exécution de la chaîne d'approvisionnement mondiale de l'IA grâce à leur avantage prix. D'autres considèrent les grands modèles chinois comme le "Foxconn de l'ère de l'IA".
Quel rôle jouent les grands modèles chinois dans la chaîne d'approvisionnement de l'IA ? Quelle est la véritable valeur de ce rôle ?
Avantage prix
Une analyse par le journal Economic Observer des tarifs officiels des API des principaux fabricants, valables jusqu'à fin mars 2026, révèle un écart de prix considérable entre les principaux grands modèles chinois et américains.
Prenons l'exemple du prix d'entrée. Parmi les modèles chinois, DeepSeek V3.2 coûte 0,28 dollar par million de tokens, MiniMax M2.5 coûte 0,3 dollar, et MoonDarkness Kimi K2.5 coûte 0,42 dollar. Parmi les modèles américains, Anthropic Claude Opus 4.6 coûte 5 dollars, OpenAI GPT-5.4 coûte 2,50 dollars. Le prix d'entrée des modèles américains principaux est environ 10 à 20 fois supérieur à celui des modèles chinois principaux.
L'écart de prix de sortie est encore plus marqué. Côté chinois, DeepSeek V3.2 coûte 0,42 dollar par million de tokens, MiniMax M2.5 coûte 1,1 dollar, MoonDarkness Kimi K2.5 coûte 2,2 dollars. Côté américain, OpenAI GPT-5.4 coûte 15 dollars, Claude Opus 4.6 coûte 25 dollars. L'écart de prix de sortie entre les principaux modèles chinois et américains est d'environ 7 à 60 fois.
Cet écart de prix existait déjà auparavant, mais n'avait pas provoqué de migration massive d'utilisateurs pour une raison simple : la principale utilisation de l'IA pour la plupart des gens était le chat, où la consommation de tokens est faible, rendant l'impact de la différence de prix négligeable.
Mais début 2026, l'apparition d'une "langouste" a tout changé. L'outil open source OpenClaw (surnommé "Langouste" par la communauté des développeurs) est devenu viral vers février 2026, grimpant rapidement à la première place du classement des applications OpenRouter, consommant plus de 600 milliards de tokens en une seule semaine. "Langouste" est une application d'agent intelligent, différente du mode de conversation traditionnel de questions-réponses. Elle permet à l'IA d'exécuter de manière autonome sur l'ordinateur des tâches telles que la programmation, les tests, la gestion de fichiers, etc., sans intervention manuelle étape par étape.
Dans ce mode de travail, la consommation de tokens n'est pas du tout du même ordre de grandeur que dans un scénario de chat.
Par exemple, une tâche de programmation peut nécessiter des dizaines de cycles "écrire du code - exécuter - erreur - modifier - réexécuter", chaque cycle étant un appel de modèle complet. Pour que l'agent se souvienne des opérations précédentes, chaque appel nécessite également de convoquer l'historique de la conversation.
Des développeurs ont indiqué sur les plateformes sociales qu'un contexte de session OpenClaw actif peut facilement atteindre plus de 230 000 tokens. Si l'API Claude est utilisée tout au long du processus, le coût mensuel pourrait se situer entre 800 et 1500 dollars. D'autres utilisateurs ont rapporté qu'une tâche automatisée mal configurée avait brûlé 200 dollars en une seule journée.
Les applications d'agents comme OpenClaw ont fait grimper la consommation globale de tokens sur la plateforme. Par exemple, lors de la semaine du 3 au 9 mars 2025, le volume d'appels hebdomadaire total des dix premiers modèles d'OpenRouter était de 1,24 billion de tokens. À la semaine du 16 au 22 février 2026, le volume d'appels hebdomadaire des dix premiers modèles seulement dépassait 8,7 billions de tokens, soit une augmentation de près de 7 fois. La part des tâches de programmation dans la consommation de tokens de la plateforme est également passée de 11 % début 2025 à plus de 50 % fin 2025.
Lorsque la consommation de tokens par tâche passe de quelques milliers à plusieurs centaines de milliers, l'écart de prix entre les modèles chinois et américains se transforme d'un coût négligeable en une différence significative de plusieurs centaines voire milliers de dollars par mois.
Vers le 19 février 2026, la société américaine de grands modèles Anthropic a mis à jour ses conditions de service, interdisant aux utilisateurs de connecter leurs identifiants d'abonnement Claude à des outils tiers comme OpenClaw, exigeant un paiement à l'usage via l'API. Google a ensuite imposé des restrictions similaires. Pour les applications d'agents qui doivent appeler fréquemment l'API quotidiennement, le facteur prix dans le choix du modèle est devenu incontournable, poussant les développeurs sur la piste du paiement à l'usage.
Dans le scénario central de programmation pour les agents, les capacités des modèles chinois et américains sont déjà assez proches.
SWE-Bench Verified est une évaluation publique des capacités de programmation maintenue par une équipe de recherche de l'Université de Princeton. La méthode consiste à demander à des modèles d'IA de corriger de vrais problèmes de code sur GitHub (la plus grande plateforme mondiale d'hébergement de code open source). Selon les données du classement public de cette évaluation, le modèle chinois MiniMax M2.5, publié le 13 février 2026, a obtenu 80,2 %, tandis que le modèle américain Claude Opus 4.6, publié le 5 février, a obtenu 80,8 %, soit un écart de seulement 0,6 point de pourcentage.
Face à des capacités similaires mais des prix très différents, le choix des développeurs s'est rapidement reflété dans les données.
Lors de la semaine du 9 au 15 février 2026, le volume d'appels de tokens des modèles chinois a atteint 4,12 billions, dépassant pour la première fois celui des modèles américains (2,94 billions). La semaine suivante, le volume d'appels des modèles chinois est monté à 5,16 billions, soit une croissance de 127 % en trois semaines. Dans le même temps, le volume d'appels des modèles américains est tombé à 2,7 billions.
Pourquoi les grands modèles chinois peuvent-ils être si moins chers que les modèles américains ?
Pan Helin, membre du Comité des experts en économie des communications de l'information du Ministère de l'Industrie et des Technologies de l'Information, a déclaré à Economic Observer que les raisons principales étaient les suivantes : premièrement, l'infrastructure de calcul chinoise est vaste, avec un taux de réutilisation élevé, ce qui permet des tarifs plus bas ; deuxièmement, les clusters de calcul en Chine contiennent une grande quantité de capacités de calcul auto-construites, dont le coût d'acquisition est inférieur à celui de l'étranger.
De plus, l'approche technologique influence également les coûts. Des personnes informées ont indiqué au journaliste que les principaux modèles chinois actuels adoptent généralement l'architecture MoE, également appelée "modèle de mélange d'experts". En termes simples, bien qu'un modèle MoE ait un nombre total de paramètres très important, seule une petite partie de ces paramètres est activée à chaque exécution pour traiter une tâche, et non la totalité, ce qui réduit considérablement la quantité de calcul requise pour chaque inférence.
Chemins différents
Martin Casado, associé du fonds de capital-risque de la Silicon Valley a16z, a déclaré fin 2025 qu'environ 80 % des startups d'IA utilisant une stack technologique open source utilisaient des modèles chinois. Il a ensuite précisé sur une plateforme sociale que cela ne signifiait pas que 80 % des startups américaines d'IA utilisaient des modèles chinois, mais que parmi celles ayant choisi la voie de l'open source (représentant environ 20 % à 30 % de l'ensemble des startups américaines d'IA), environ 80 % utilisaient des modèles chinois.
Le journaliste a noté que plusieurs outils open source aidant les développeurs à optimiser les coûts entre différents modèles sont apparus sur GitHub. Leur approche consiste souvent à classer les tâches par niveau de difficulté, en confiant les tâches simples à des modèles chinois gratuits ou peu coûteux, et en réservant l'appel aux modèles américains coûteux pour les tâches complexes.
L'un de ces projets, nommé ClawRouter, fournit dans sa documentation des données comparatives montrant qu'avec cette approche de combinaison, le coût moyen est passé d'environ 25 dollars par million de tokens à environ 2 dollars. ClaudeCode, un produit d'Anthropic, utilise également une conception stratifiée similaire dans sa documentation officielle, utilisant par défaut le modèle le moins cher pour les tâches quotidiennes.
La condition préalable à la viabilité de ce modèle est que les modèles chinois soient suffisamment performants pour les tâches d'exécution. En programmation, les données de SWE-Bench mentionnées précédemment l'ont déjà démontré. Mais au-delà de la programmation, quel est l'écart global de capacités entre les grands modèles chinois et américains ?
LMSYS Chatbot Arena est actuellement l'une des plateformes d'évaluation de modèles d'IA les plus reconnues au monde. Sa méthode consiste à demander à de vrais utilisateurs de tester simultanément deux modèles sans en connaître les noms, puis de voter pour le meilleur, équivalant à un test à l'aveugle entre IA.
Dans son classement général arrêté au 25 mars 2026, les cinq premiers étaient tous des modèles de sociétés américaines. Le modèle chinois le mieux classé, DeepSeek V3.2 Speciale, se situait à la sixième place. Dans la catégorie Hard Prompts (requêtes difficiles, spécialement conçues pour tester la capacité des modèles à traiter le raisonnement complexe et les tâches logiques en plusieurs étapes), l'écart entre les modèles chinois et américains est encore plus marqué, le premier étant principalement constitué de modèles américains.
Des capacités de programmation proches, un raisonnement complexe encore en retard, telle est la manifestation actuelle des capacités différenciées entre les grands modèles chinois et américains, et c'est la base sur laquelle repose la pratique du "appel stratifié".
Cependant, contrairement aux fabricants sous-traitants enfermés dans de faibles marges bénéficiaires il y a 30 ans, les fabricants de grands modèles chinois ne font pas que baisser les prix.
En fait, à partir de 2024, l'industrie chinoise des grands modèles a connu une guerre des prix : en mai 2024, le modèle de grand langage Doubao de ByteDance (Volcengine) a déclenché une "guerre des prix" avec un tarif de 0,0008 yuan / 1000 tokens, suivi par Alibaba Cloud et Baidu Intelligent Cloud. Au cours de l'année suivante, l'industrie a connu une baisse des prix des tokens de plus de 90 %, la marge bénéficiaire de la puissance de calcul d'inférence de certains fabricants étant même temporairement négative.
La stratégie des fabricants à l'époque était d'accepter des pertes pour gagner en scale et d'habituer les utilisateurs à appeler les modèles. Cependant, après la viralité d'OpenClaw en février 2026, la croissance de la consommation de tokens a dépassé les prévisions, et l'offre de puissance de calcul est devenue tendue.
Zhipu a été le premier à réagir. Le 12 février 2026, lors de la publication du nouveau modèle GLM-5, il a augmenté le tarif de son API, puis a de nouveau augmenté ses prix le 16 mars lors de la publication de GLM-5-Turbo, avec une hausse cumulative de 83 % en deux rounds.
Zhang Peng, PDG de Zhipu, a déclaré lors de la conférence sur les résultats annuels 2025 que les prix des appels API avaient augmenté de 83 % au premier trimestre 2026, tandis que le volume d'appels avait augmenté de 400 %. Selon le rapport annuel, le revenu annuel 2025 de Zhipu s'élevait à 724,3 millions de yuans, soit une augmentation de 132 % en glissement annuel, et le revenu annuel récurrent de la plateforme MaaS (Modèle en tant que Service) était d'environ 1,7 milliard de yuans, soit une multiplication par 60 en 12 mois.
Zhipu n'est pas le seul à avoir choisi d'augmenter ses prix. Le 13 mars 2026, Tencent Cloud a ajusté les tarifs de sa série de grands modèles Hunyuan, certains modèles augmentant de plus de 460 %. Le 18 mars, Alibaba Cloud et Baidu Intelligent Cloud ont publié le même jour des annonces d'ajustement de prix, avec des hausses comprises entre 5 % et 34 % pour les produits liés à la puissance de calcul IA, les nouveaux prix entrant en vigueur le 18 avril.
Li Bin, vice-président senior de Sugon, a déclaré dans une interview avec Economic Observer que les indicateurs d'évaluation des systèmes de calcul étaient en train de changer : autrefois, la norme pour mesurer un système était sa puissance de calcul, maintenant c'est sa capacité à produire des tokens de manière économique.
Le passage de baisses de prix collectives à des hausses de prix collectives n'a pris que moins de deux ans.
En mars 2026, Liu Liehong, directeur de l'Administration nationale des données, a annoncé lors du Forum sur le développement de la Chine un chiffre : le volume d'appels quotidien de tokens en Chine avait dépassé les 140 billions, soit une multiplication par plus de 1000 en deux ans.
Lors de la conférence GTC du même mois, Jensen Huang, fondateur de NVIDIA, a déclaré que le token serait la matière première la plus importante du monde numérique futur.
De l'avis de Pan Helin, la compétitivité des grands modèles chinois est forte, non pas en rattrapage, mais en leadership, notamment côté application de l'IA. Mais il a également souligné que la Chine avait encore des progrès à faire en matière d'innovation originale, les architectures centrales du système actuel d'IA, des réseaux de neurones artificiels au mécanisme d'attention, ayant toutes été proposées en premier à l'étranger, puis itérées et suivies en Chine. La prochaine étape pour les grands modèles chinois consiste à continuer à déployer des efforts côté application tout en menant des innovations originales dans les algorithmes de base.
L'industrie de la sous-traitance en électronique grand public d'il y a 30 ans avait une caractéristique : la marge bénéficiaire de l'assemblage était fermement maintenue basse par les fabricants de marques en amont, et de nombreux sous-traitants leaders n'ont toujours pas dépassé une marge brute de 10 % aujourd'hui. L'avantage coût a apporté des commandes, mais n'a pas apporté le pouvoir de fixation des prix.
Actuellement, la situation des grands modèles chinois semble présenter quelques similitudes avec l'industrie de la sous-traitance en électronique grand public de l'époque, mais semble aussi assez différente en termes de pouvoir de fixation des prix. Par exemple, après une hausse de prix de 83 % de Zhipu, le volume d'appels a augmenté de 400 %. Alibaba Cloud, Baidu Intelligent Cloud et Tencent Cloud ont collectivement augmenté les prix de la puissance de calcul IA et des services de modèles en mars 2026, mais la demande ne s'est pas contractée et le volume d'appels a continué de croître.
Dans l'évaluation de programmation SWE-Bench, l'écart entre les principaux modèles chinois et américains s'est réduit à moins de 1 point de pourcentage. L'écart en matière de raisonnement complexe persiste, mais il se réduit également rapidement.
Cette fois, le chemin de développement des fabricants de grands modèles chinois semble être différent.
Cet article provient du compte WeChat officiel "Economic Observer", auteur : Zheng Chenye







