Le 1er juin, lors du salon Computex de Taipei, NVIDIA a annoncé lors de la conférence GTC Taipei 2026 le processeur Vera CPU et la nouvelle plateforme de supercalcul IA Vera Rubin, dont les premiers clients incluent OpenAI et Anthropic.
Il s'agit de la première gamme de produits CPU indépendante lancée par NVIDIA, dont la croissance au cours des 20 dernières années s'est presque entièrement construite sur les GPU. Jensen Huang, PDG de NVIDIA, a déclaré lors de la présentation qu'à l'ère des agents IA, le CPU était devenu un goulot d'étranglement clé pour les performances des centres de données, et qu'il ne fallait pas laisser le CPU ralentir la production de tokens dans les "usines d'IA".
En mai dernier, Lisa Su, PDG d'AMD, avait annoncé lors d'une conférence téléphonique sur les résultats financiers que la prévision de la taille du marché des CPU pour serveurs serait doublée, passant de 60 milliards de dollars à plus de 120 milliards de dollars, correspondant à une croissance annuelle composée (CAGR) passant de 18 % à 35 % pour la période 2025-2030.
Selon les statistiques de l'IDC, la taille mondiale du marché des serveurs a atteint 444,1 milliards de dollars en 2025, soit une croissance de 80,4 %. Les serveurs IA ont contribué à la majeure partie de cette augmentation. UBS a prédit dans un récent rapport sur le secteur des semi-conducteurs que le marché potentiel des CPU pour serveurs passerait d'environ 30 milliards de dollars en 2025 à environ 170 milliards de dollars d'ici 2030, soit une multiplication par près de 5 en 5 ans.
Les données de l'agence d'études de marché Mercury Research montrent qu'au premier trimestre 2026, la part de revenus d'AMD sur le marché des CPU pour serveurs a atteint 46,2 %, contre 53,8 % pour Intel. Cependant, la part de volume d'AMD n'était que de 33,2 %, Intel conservant 66,8 %. En d'autres termes, AMD génère des revenus plus élevés avec moins de puces, la capacité de valorisation des produits à nombre élevé de cœurs s'étant manifestée de manière concentrée au cours de ce trimestre.
Lin Meibing, analyste en chef chez Chips & ICTIME, a déclaré au Economic Observer que le CPU était la variable la plus inattendue dans le cycle actuel de l'IA. Alors que l'IA passe du dialogue aux agents, la demande en CPU pour l'inférence dépasse désormais celle pour l'entraînement.
Le GPU "attend" le CPU
Intel et le Georgia Institute of Technology ont publié conjointement en novembre 2025 un article intitulé « A CPU-Centric Perspective on Agentic AI ». Dans cet article, l'équipe de recherche a testé en conditions réelles cinq types de charges de travail typiques d'agents. Les résultats montrent que le temps de traitement des outils côté CPU représente entre 43,8 % et 90,6 % de la latence totale.
Un analyste de société de courtage qui suit depuis longtemps le secteur des semi-conducteurs a déclaré que pendant la phase d'entraînement des grands modèles, la part de charge de travail du CPU n'était que d'environ 10 à 30 %, pouvant atteindre près de 40 % pour certaines charges, la grande majorité des calculs étant supportée par le GPU. En effet, le processus de calcul de l'entraînement des grands modèles d'IA est hautement structuré, avec des milliards de paramètres effectuant des multiplications matricielles répétées sur des données massives. L'architecture parallèle du GPU est conçue pour ce type de tâches, le CPU s'occupant du chargement des données, de l'ordonnancement des communications et de la copie des résultats, sans impliquer les calculs matriciels centraux.
Mais lors de la phase d'inférence, cette proportion s'inverse. La part de charge de travail du CPU s'élève à plus de 70 %, et sera encore plus élevée dans les scénarios d'agents. Car les tâches d'agents nécessitent un raisonnement en plusieurs étapes, l'appel d'outils externes, l'exécution de code, la lecture/écriture de bases de données, la recherche sur le Web, puis l'orchestration des résultats intermédiaires pour produire la sortie finale.
Les assistants de programmation, les outils d'analyse de données et les agents de recherche automatisés en font partie, et représentent actuellement les scénarios de croissance la plus rapide pour les applications des grands modèles. La caractéristique commune de ces travaux est qu'ils sont intensifs en flux de contrôle, complexes en termes de branchements, et fréquents en entrées/sorties. Face à ces tâches séquentielles et fragmentées, l'utilisation du GPU diminue significativement.
Plusieurs professionnels du secteur ont déclaré que dans les tâches d'agents, l'utilisation globale du GPU est généralement inférieure à 50 %, bien en deçà des 70 % à 85 % des services d'inférence traditionnels. La consommation de tokens pour le déploiement d'IA en mode agent est généralement de 20 à 30 fois supérieure à celle d'un dialogue ordinaire, car une seule interaction utilisateur implique souvent des dizaines d'appels d'outils et des raisonnements intermédiaires.
Selon les prévisions de l'IDC, le nombre annuel de tâches exécutées par les agents dans le monde passera d'environ 44 milliards en 2025 à plus de 400 billions d'ici 2030.
La direction d'Intel a déclaré lors de la conférence téléphonique sur les résultats du premier trimestre 2026 qu'à l'ère des agents IA, le nombre de cœurs de CPU requis par gigawatt de puissance pourrait passer d'environ 30 millions actuellement à 120 millions. L'agence d'études de marché Gartner prédit également que d'ici 2027, 40 % des projets d'agents seront réduits ou annulés en raison de dépassements de coûts d'infrastructure, dont une part importante proviendra des frais continus générés côté CPU pour les appels d'outils et la gestion du contexte.
Les agents génèrent de grandes quantités de données intermédiaires lors du traitement de dialogues longs et de tâches complexes. Les systèmes d'IA doivent se souvenir de tout le contenu précédent des conversations et des résultats des appels d'outils pendant le processus d'inférence, ce que l'on appelle en termes du métier le "KV Cache" (cache clé-valeur). Il gonfle continuellement avec le nombre de tours de dialogue, mais la capacité de stockage intégrée du GPU est très limitée. Le NVIDIA H100 n'a que 80 Go, et le prochain B200 n'aura que 192 Go. Les données intermédiaires générées par une tâche d'agent complexe peuvent facilement dépasser cette limite.
Actuellement, la méthode couramment adoptée dans l'industrie consiste à transférer ces données intermédiaires du GPU vers le CPU. Le CPU peut être connecté à de la mémoire DDR5 externe, avec une capacité par puce allant jusqu'à plusieurs téraoctets, soit un à deux ordres de grandeur de plus que le stockage du GPU.
L'alliance industrielle CXL, composée de fabricants de puces tels qu'Intel, AMD et ARM, a publié en novembre 2025 le protocole CXL 4.0 (Compute Express Link, une norme ouverte pour l'interconnexion haute vitesse entre puces), permettant à plusieurs CPU de partager un même pool de mémoire de grande capacité, réduisant ainsi les surcoûts de transfert de données entre puces.
Ainsi, le CPU n'est plus seulement responsable de l'ordonnancement des tâches, mais aussi du stockage des données et de la gestion de la mémoire pendant le processus d'inférence IA.
Par ailleurs, le CPU lui-même a connu des mises à niveau technologiques intensives ces dernières années. Le nombre de cœurs des CPU pour serveurs est passé de 28 cœurs en 2017 à 288 cœurs (Intel Clearwater Forest) et 256 cœurs (AMD Venise) en 2026, soit une multiplication de la densité par près de 10.
Intel a introduit en 2023 le jeu d'instructions AMX (Advanced Matrix Extensions), donnant pour la première fois au CPU des unités de calcul matriciel dédiées. Selon les données de test d'Intel, dans les scénarios d'inférence d'apprentissage profond, les processeurs Xeon de 4ème génération équipés d'AMX offrent des performances IA jusqu'à près de 10 fois supérieures à la génération précédente. Le sous-système mémoire est également passé de DDR4 à DDR5, doublant à la fois la bande passante et la capacité par plateforme.
Les améliorations du nombre de cœurs et du jeu d'instructions correspondent également à une évolution du ratio CPU/GPU. Patrick Gelsinger, PDG d'Intel, a déclaré lors de la conférence téléphonique sur les résultats du premier trimestre 2026 que dans les scénarios d'entraînement, il y avait généralement 7 à 8 GPU pour 1 CPU, ce ratio convergeant vers 3 à 4 GPU pour 1 CPU dans les scénarios d'inférence, et pouvant potentiellement atteindre 1:1 dans les scénarios d'agents.
David Zinsner, directeur financier d'Intel, a ajouté lors de la même conférence téléphonique que le ratio CPU/GPU global de l'industrie était passé de 1:8 par le passé à environ 1:4.
Une forte hausse des prix, une première depuis plus de dix ans
Ce changement de ratio s'est déjà répercuté sur les prix des produits.
Jia Bin, responsable commercial d'un distributeur de CPU à Shenzhen, a indiqué à notre journaliste qu'à partir de février 2026, Intel et AMD ont progressivement augmenté les prix de toute leur gamme de CPU pour serveurs, avec des hausses globales comprises entre 10 % et 15 %. Les primes sur certains CPU haut de gamme pour serveurs IA sur le marché spot sont encore plus élevées, et une nouvelle série de hausses de prix pourrait intervenir au second semestre.
Jia Bin a déclaré qu'au cours des dix dernières années, les CPU pour serveurs suivaient généralement la règle du "plus de performance sans augmentation de prix", les performances s'améliorant avec les procédés de fabrication, mais le prix unitaire restant stable. L'ampleur de la hausse cette année est rare dans le secteur. Le taux d'utilisation des capacités des principales lignes de production d'Intel est passé de moins de 80 % auparavant à 100 %, plusieurs modèles étant en rupture de stock, avec des délais de livraison de 3 à 4 mois.
AMD fait également face à des tensions sur les capacités. Jia Bin a déclaré que 2026 était la première année depuis son entrée dans le secteur où il voyait les capacités de production de CPU pour serveurs d'Intel et d'AMD presque entièrement réservées. "Auparavant, l'approvisionnement en CPU était toujours suffisant, cette année c'est l'inverse."
Jia Bin a également noté que la demande des clients en CPU lors de l'achat de serveurs IA se divisait désormais en deux catégories. La première concerne les CPU déployés à l'intérieur des baies pour les calculs avec les GPU, recherchant un nombre de cœurs extrême (plus de 128 cœurs), avec un prix moyen supérieur à 4000 dollars, alors que le prix moyen des CPU traditionnels pour serveurs n'est que d'un peu plus de 2000 dollars. La seconde concerne les CPU déployés indépendamment à l'extérieur des baies, utilisés pour l'exécution des outils des agents, l'exécution en sandbox et l'orchestration des tâches. Ils n'ont pas besoin de performances extrêmes, environ 64 cœurs suffisent, mais leur quantité doit être beaucoup plus importante.
Jia Bin a expliqué qu'idéalement, chaque tâche d'agent occupe un CPU de manière exclusive. Un déploiement indépendant est plus efficace qu'une partition par virtualisation. Le prix moyen des CPU externes aux baies est d'environ 3000 dollars. "Plus le nombre de cœurs est élevé, plus la hausse du prix unitaire est importante, ce n'est pas proportionnel. Donc, l'approche courante des clients actuellement est d'utiliser des produits de milieu de gamme en volume à l'extérieur des baies, et des produits phares à l'intérieur des baies pour garantir les performances."
Bank of America Securities a publié le 11 juin un rapport sur le secteur des semi-conducteurs intitulé "Rise of the Agents", dans lequel il a relevé ses prévisions pour la taille totale du marché potentiel (TAM) des CPU pour serveurs à plus de 170 milliards de dollars d'ici 2030. Pour la première fois, il a divisé ce marché en trois parties : environ 30 milliards de dollars pour les CPU de cloud computing traditionnel, environ 70 milliards de dollars pour les CPU des nœuds principaux des clusters IA, et environ 70 milliards de dollars pour les CPU des nœuds indépendants dédiés aux agents IA. Cette troisième partie, dont la taille était proche de zéro en 2025, est un tout nouveau marché qui n'a commencé à émerger qu'en 2026.
Morgan Stanley a également prédit dans un rapport du 4 juin que l'IA agentique générerait une demande supplémentaire de 32,5 à 60 milliards de dollars pour le marché des CPU pour serveurs d'ici 2030. Zhongtai Securities a qualifié 2026 d'"année charnière où les CPU bénéficient de l'expansion de l'IA" dans un rapport approfondi sur les CPU publié le 7 juin.
Le rapport de Bank of America Securities cité précédemment présente également une comparaison historique des volumes de livraison : en 2022, les volumes de CPU IA équivalaient à 19 % des volumes d'accélérateurs IA (GPU, etc.). Ce ratio est passé à 51 % en 2025 et devrait atteindre 127 % d'ici 2030. Selon cette prévision, le nombre de CPU dans les serveurs IA dépassera celui des GPU dans les 5 ans.
Nouvelle demande pour les CPU nationaux
Les informations divulguées par NVIDIA lors du salon Computex de Taipei indiquent que son nouveau Vera CPU est basé sur l'architecture ARM (un jeu d'instructions de CPU réputé pour sa faible consommation et son efficacité énergétique, l'une des deux architectures dominantes avec le x86), avec un déploiement possible de 256 puces par baie, utilisant un refroidissement liquide.
Dans les scénarios de sandbox pour agents, les performances de Vera sont 1,8 fois supérieures à celles des processeurs x86. Dans le nouveau supercalculateur Vera Rubin de NVIDIA (la prochaine plateforme de centre de données IA de NVIDIA), un POD (unité de calcul complète minimale composée de plusieurs baies) de 40 baies contient 1152 GPU Rubin et jusqu'à 1088 CPU Vera, soit un ratio proche de 1:1.
NVIDIA a également mentionné que le CPU Grace, lancé précédemment, avait cumulé près de 2,5 millions d'unités expédiées, et que les revenus liés aux CPU pourraient approcher 20 milliards de dollars en 2026.
Jia Bin estime que le périmètre statistique de ces 20 milliards de dollars est assez large, couvrant les revenus attribués aux CPU sous diverses formes de produits, et n'est pas entièrement comparable aux revenus traditionnels de la vente de puces CPU séparées. Mais même en tenant compte des différences de périmètre, ce volume est déjà considérable pour une entreprise qui n'avait pas encore d'activité CPU indépendante en 2024.
Lin Meibing estime que le signal envoyé par NVIDIA en fabriquant des CPU est plus important que le produit lui-même. Auparavant, les serveurs IA étaient centrés sur le GPU, le CPU n'était qu'un accessoire. Lorsque le plus grand fabricant de GPU au monde se met à fabriquer des CPU et réserve ses premiers clients à OpenAI et Anthropic, la position du CPU sur le marché a radicalement changé par rapport à il y a deux ans.
Selon les résultats du premier trimestre 2026 d'AMD, les revenus de son activité centre de données ont atteint 5,775 milliards de dollars, dépassant pour la première fois les 5,1 milliards de dollars d'Intel sur la même période. De plus, Lisa Su a fixé un objectif quinquennal lors de la conférence téléphonique sur les résultats : atteindre un chiffre d'affaires annuel de 100 milliards de dollars pour le centre de données.
Patrick Gelsinger, PDG d'Intel, a également déclaré à plusieurs reprises en public qu'il avait une confiance ferme dans le rôle central du CPU à l'ère de l'IA.
Cela représente également une opportunité pour les entreprises de la chaîne d'approvisionnement chinoise en CPU. Jia Bin a indiqué que les principaux fournisseurs de cloud chinois intensifiaient cette année leurs achats de CPU pour serveurs, d'une part pour accompagner les nouveaux centres de données IA avec les achats de GPU, et d'autre part parce que le ratio CPU/GPU est passé de 1:8 par le passé à 1:4 voire plus, nécessitant plus du double de CPU pour un même centre de données par rapport à l'année dernière.
En effet, en Chine, une chaîne d'approvisionnement relativement complète s'est formée autour des CPU pour serveurs.
Hygon Information (688041.SH) est l'un des plus grands fournisseurs de CPU pour serveurs en architecture x86 en Chine. Selon les rapports financiers, le chiffre d'affaires d'Hygon pour 2025 était de 14,377 milliards de yuans, en hausse de 56,92 % ; au premier trimestre 2026, il était de 4,034 milliards de yuans, avec une accélération de la croissance à 68,06 %.
Selon des informations publiques, Huawei Kunpung suit la voie de l'autonomie complète sur l'architecture ARM. Les Kunpeng 920/950 sont étroitement intégrés aux puces IA Ascend, servant principalement l'écosystème propre de Huawei et le marché de l'informatique de confiance.
En ce qui concerne les puces d'accompagnement, Montage Technology (688008.SH) est spécialisé dans les puces d'interface mémoire (qui servent d'intermédiaire de signal entre le CPU du serveur et les barrettes de mémoire). Selon des informations publiques, ses puces d'interface mémoire ont occupé la première place mondiale en 2024 avec une part de marché de 36,8 %. Une autre ligne de produits, les puces PCIe Retimer (utilisées pour l'amplification et la correction du signal dans les transmissions de données à haute vitesse), a atteint une part de marché mondiale de 10,9 % en 2024, se classant deuxième.
Dans le segment de l'assemblage et des tests, selon des informations publiques, Tongfu Microelectronics (002156.SZ) est l'un des partenaires d'assemblage et de test les plus importants d'AMD dans le monde.
Li Bin a indiqué à notre journaliste que l'écosystème logiciel des puces nationales approchait d'un point critique. Il a donné un exemple : le jour de la sortie de DeepSeek V4, plusieurs fabricants de puces nationaux ont réalisé l'adaptation le même jour, alors que le cycle d'adaptation pour DeepSeek R1 nécessitait 1 à 2 mois auparavant. L'accélération significative de la vitesse d'adaptation montre que la chaîne d'outils logiciels et la couche des pilotes des puces nationales mûrissent rapidement, ce qui est bénéfique pour l'ensemble de la chaîne d'approvisionnement nationale en CPU et accélérateurs.
De l'avis de Lin Meibing, la logique de bénéfice pour les CPU nationaux se divise en deux couches : l'une est la croissance sectorielle tirée par l'augmentation de la demande mondiale en CPU pour serveurs, l'autre est la substitution par des produits nationaux, pilotée par les politiques d'informatique de confiance (信创).
Selon les exigences d'un document pertinent publié par la Commission de Supervision et d'Administration des Actifs de l'État (SASAC) en 2022, les entreprises d'État centrales et locales doivent achever la modernisation de leurs systèmes d'information avec des produits nationaux d'ici fin 2027. Notre journaliste a également appris au cours des entretiens que le taux de nationalisation des CPU haut de gamme pour serveurs en Chine restait actuellement relativement faible, avec un espace de substitution important. Avec moins de deux ans avant l'échéance politique, la fenêtre de livraison des CPU pour l'informatique de confiance se réduit, ce qui constitue un test concentré de la maturité des produits et de la capacité d'expédition des fabricants de CPU nationaux comme Hygon et Loongson Technology (688047.SH).
Lin Meibing estime que le cycle actuel de hausse des prix des CPU est différent du passé, l'augmentation provenant de la nouvelle demande des agents IA pour les CPU, et non d'une demande de renouvellement entraînée par l'amélioration des procédés de fabrication.
Le jugement de Ying Zhiwei est similaire. Il a déclaré que l'attention du marché au cours des dernières années s'était presque entièrement concentrée sur le GPU, mais lorsque les applications d'IA entreront réellement dans une phase de déploiement à grande échelle, les fonctions d'ordonnancement et de gestion assumées par le CPU ne feront que s'alourdir. À ses yeux, il ne s'agit pas de remplacer le GPU par le CPU. Le GPU reste important, mais ce qui fera vraiment la différence à l'avenir sera la capacité de collaboration entre le CPU et le GPU, et non les paramètres de performance d'une puce individuelle.
Cet article provient du compte WeChat : Economic Observer, auteur : Zheng Chenye







