Auteur : Frank Fu, IOSG
Le trou identifié par David Cahn en 2023 n'a jamais été comblé du côté de l'entraînement. Il l'a été du côté de l'inférence, et le marché ne commence à l'intégrer dans sa valorisation que depuis quelques semaines. Lorsque Nvidia réorganise ses rapports financiers autour des « jetons de service », que l'introduction en bourse de Cerebras affiche 20 fois plus de demandes que d'offres, le débat sur le goulot d'étranglement est clos. La vraie question devient : lorsque l'inférence devient une ressource rare, dans quelle couche de la pile de calcul la valeur va-t-elle se déposer.
I. Suivre le GPU : du problème à 2000 milliards de dollars au problème à 6000 milliards de dollars
En 2023, David Cahn de Sequoia a soulevé la question qui plane sur toute la construction de l'IA : le « problème des 2000 milliards de dollars ». Pour chaque dollar dépensé en GPU, il faut environ un autre dollar pour l'alimenter dans un centre de données. Ainsi, chaque année d'investissement en capital (CapEx) pour les GPU signifie que ces puces devront finalement générer environ 2000 milliards de dollars de revenus pour être amorties. Même avec des hypothèses très généreuses sur les revenus de l'IA, il a constaté un écart de plus de 1250 milliards de dollars entre les « investissements » et « ce que les clients finaux paient réellement ». L'inquiétude était claire : les GPU sont surconstruits, devançant la demande réelle.
Un an plus tard, l'écart ne s'est pas résorbé ; il s'est agrandi. Dans sa suite en 2024, Cahn, avec l'explosion du CapEx des hyperscalers, l'a redéfini comme le « problème des 6000 milliards de dollars ». La logique baissière converge vers une forme familière : la surconstruction conduit à un surplus d'offre, et ce surplus brûlera du capital.
Les deux articles posent la même question : qui va combler ce trou ? La réponse n'est jamais apparue dans les comptes du côté « entraînement ». Elle apparaît du côté de l'inférence (inference), et le marché ne commence à l'intégrer dans sa valorisation que depuis ces dernières semaines.
II. L'IPO de Cerebras et la pression sur l'inférence
Cerebras est entré en bourse jeudi. Cette IPO a été sursouscrite 20 fois, avec un prix fixé près du double de la dernière augmentation de mercredi. La demande ne vient pas d'un pari sur le « prochain tueur de Nvidia », mais de quelque chose de plus simple : le marché commence à réaliser que le vrai goulot d'étranglement dans l'IA est l'inférence, pas l'entraînement.
Le point fort de Cerebras est une architecture de puce qui rend l'inférence extrêmement rapide. Pas l'entraînement, l'inférence. C'est ce qui excite Wall Street. Le marché de l'inférence est récurrent, il se développe avec l'utilisation. Chaque fois que Claude répond à une question, chaque fois qu'un agent exécute une tâche, cela consomme de la puissance de calcul. L'entraînement n'a lieu qu'une fois, l'inférence ne s'arrête jamais.
J.P. Morgan estime la taille du marché de l'inférence à 10 ou 50 fois celle de l'entraînement. Lorsque les machines commencent à exécuter des tâches assignées par d'autres machines, c'est-à-dire une expansion de type agentic (agence), la demande d'inférence ne croît plus avec le nombre d'utilisateurs, mais avec la puissance de calcul elle-même.
III. Nvidia redessine la carte : l'inférence passe en première ligne
Si Cerebras est la prise de conscience du marché, le dernier rapport financier de Nvidia en est la confirmation venue du sommet de la chaîne. Lors de la dernière conférence téléphonique sur les résultats, Jensen Huang a exprimé clairement ce qui était sous-entendu : la demande d'IA croît de manière parabolique. La raison est simple : l'IA agentic est là. L'IA grand public est passée de l'inférence unique, au raisonnement logique, puis à la phase d'agents qui appellent eux-mêmes des outils et orchestrent des tâches. Huang dit : « Les tokens sont maintenant rentables. » À l'ère de l'IA, la puissance de calcul est un revenu et un profit.
Cela redéfinit toute l'industrie. L'entraînement est un coût ponctuel pour construire un modèle, l'inférence est un coût récurrent pour l'exécuter, et aujourd'hui le goulot d'étranglement est dans l'inférence, pas dans l'entraînement.
Nvidia a intégré ce jugement dans sa présentation financière. Elle publie désormais deux plateformes, et non une : Data Center (centre de données) et Edge Computing (informatique de périphérie). Le Data Center (environ 75 milliards de dollars ce trimestre, +92 % en glissement annuel) se décompose en Hyperscale (environ 38 milliards de dollars, +12 % en glissement trimestriel) et ACIE, c'est-à-dire AI Cloud, Industrie et Entreprise (environ 37 milliards de dollars, +31 % en glissement trimestriel). Une toute nouvelle ligne est Edge Computing : 6,4 milliards de dollars, +29 % en glissement annuel, couvrant les terminaux où l'IA agentic et l'IA physique fonctionnent réellement, comme les PC, les postes de travail, les stations de base AI-RAN, les robots et les voitures.
La périphérie représente encore moins de 8 % du chiffre d'affaires total, mais Nvidia l'a élevée au rang de « deuxième plateforme » aux côtés du Data Center. Le signal est clair : l'inférence se scinde en deux fronts, le cloud inference (inférence cloud) dans les centres de données, et l'endpoint inference (inférence en périphérie) sur le terrain, où l'IA doit voir, se déplacer et agir dans le monde physique. La feuille de route suit la même logique : la Vera Rubin, dont les expéditions commencent au troisième trimestre, peut offrir un débit d'inférence jusqu'à 35 fois supérieur à celui de Blackwell ; Huang a également donné un tout nouveau TAM de 2000 milliards de dollars pour le Vera CPU conçu pour les charges agentic. Toutes les entreprises de modèles de pointe devraient basculer intégralement dessus dès le premier jour.
Lorsque l'entreprise la plus valorisée au monde réorganise ses informations financières autour des « jetons de service », le débat sur le goulot d'étranglement est clos. Le reste de cet article discute de qui capte la valeur lorsque l'inférence (et non l'entraînement) devient une ressource rare.
Commençons par une clarification de portée. Sur ces deux fronts, cet article discute du cloud inference, c'est-à-dire des GPU de centres de données loués, fournissant des services d'API de tokens. L'endpoint inference s'exécute sur les puces locales au sein des appareils eux-mêmes (Jetson, RTX, Drive, AI-RAN de Nvidia), sans passer du tout par la pile de location et d'agrégation de GPU sous-jacente. Considérez cela comme un vent favorable qui amplifie toute l'économie de l'inférence et valide l'argument du goulot d'étranglement, et non comme le marché où se situent Hyperbolic et Venice, ces deux-là étant entièrement sur la ligne du cloud.
IV. La compression est déjà là
Anthropic est le canari dans la mine de charbon. L'utilisation dépasse de loin la capacité configurée à l'avance, les plaintes concernant Claude « lobotomisé » inondent le web, avec des réponses limitées, une inférence ralentie, des fenêtres de contexte compressées. La solution est purement une question de puissance de calcul : en mai 2026, Anthropic a repris à SpaceX l'intégralité du centre de données Colossus 1, avec plus de 220 000 GPU Nvidia, plus de 300 mégawatts, et l'a dédié à l'inférence, et non à l'entraînement.
Cette capacité a débloqué une série de modifications des limites, chacune étant un signal. Le 6 mai, Anthropic a doublé la limite de cinq heures de Claude Code, supprimé la limitation de débit aux heures de pointe et augmenté considérablement les limites de taux d'API d'Opus. Le 13 mai, il a encore augmenté la limite hebdomadaire de Claude Code de 50 % (jusqu'au 13 juillet). Puis, à partir du 15 juin, il a fait le contraire de la « générosité » : il a sorti l'utilisation agentic et programmatique (Agent SDK, mode sans tête claude -p, pipelines CI) de l'abonnement forfaitaire pour les placer dans un pool de crédits indépendant et mesuré (20 à 200 dollars par mois, facturés au prix de l'API). Cette dernière étape résume tout l'argument en un seul geste : les agents consomment de l'inférence à une vitesse que l'abonnement forfaitaire n'a pas été conçu pour supporter, donc ils doivent être tarifés selon leur véritable « coût récurrent ».
L'entraînement est une dépense en capital ponctuelle. L'inférence est un coût opérationnel récurrent, qui s'accumule avec intérêts composés à chaque nouvel utilisateur, à chaque nouvel agent.
V. Cette pile : six couches, un goulot d'étranglement
Chaque application d'IA repose sur une chaîne d'approvisionnement qui commence à la fonderie TSMC et se termine au point de terminaison de l'API :
La plupart des entreprises n'en possèdent qu'une seule couche. Nvidia possède le silicium, CoreWeave possède le bare metal, Together AI possède l'optimisation d'inférence, OpenRouter possède le routage d'API de modèle.
Toutes sauf une.
VI. Hyperbolic : la seule entreprise qui s'étend sur trois couches
Hyperbolic a lancé son marché de GPU à la demande en juin 2025. En quelques mois, son nombre de développeurs a dépassé les 200 000+, et ses utilisateurs couvrent des laboratoires d'IA de pointe, la recherche et de grandes plateformes grand public.
Ce qui est intéressant, c'est son architecture.
Hyperbolic ne possède elle-même aucun GPU. Chaque carte provient de neoclouds et de centres de données, notamment CoreWeave, Lambda Labs, Nebius, et des petits opérateurs avec de la capacité inutilisée. Cela semble être une faiblesse, mais c'est en fait un fossé défensif.
En se plaçant entre l'offre et la demande de GPU, Hyperbolic voit des données en temps réel que les autres ne voient pas. Elle sait qui achète quel GPU, à quel prix, et à quel moment. Elle voit la surproduction avant qu'elle ne soit publique, et elle voit la demande s'envoler avant qu'elle n'impacte le marché.
Aujourd'hui, le fossé défensif est précisément cette agrégation multi-cloud. Hyperbolic coud la capacité fragmentée provenant de dizaines de clouds et de centres de données indépendants en un pool unifié et standardisé, permettant aux développeurs de louer le GPU disponible le moins cher, n'importe où, sans avoir à négocier avec chaque opérateur ni à gérer un tas de comptes. Plus elle intègre de clouds, plus la liquidité est profonde, plus les données de prix sont riches. Plus loin, l'équipe explore comment utiliser ces données pour modéliser les courbes de prix des GPU, et finalement engager son propre capital pour lisser l'offre et la demande, jouant le rôle de teneur de marché pour la puissance de calcul physique ; mais cet objectif en est encore à ses débuts, ce qui bénéficie réellement d'effets de réseau aujourd'hui, c'est la couche d'agrégation.
Voici la boucle de rétroaction positive :
-
Intégrer plus de clouds → Plus d'offre agrégée
-
Plus d'offre → Un marché plus profond et des données de prix en temps réel
-
De meilleures données → Un routage plus intelligent à court terme, des modèles de tarification à long terme
-
Une meilleure liquidité et des prix → Plus de développeurs → Plus de clouds veulent s'intégrer
Aucune autre entreprise ne tente cela. Hyperbolic est la seule entreprise qui s'étend simultanément sur la couche de location de GPU, la couche de déploiement et la couche d'API de modèle.
VII. Le miroir de Venice
Venice est la manifestation la plus claire de l'économie de l'inférence au niveau applicatif, et un utile contraste avec la position d'Hyperbolic. C'est une application d'inférence axée sur la confidentialité : une API compatible OpenAI, plus des abonnements grand public (Free / Pro / Pro+ / Max), qui achemine les requêtes vers environ 75 modèles, dont environ les deux tiers sont open source ou auto-hébergés (Llama, Mistral, Qwen, DeepSeek), le reste étant une transmission anonyme vers des modèles de pointe propriétaires. Le point clé est que Venice elle-même ne possède pas de capacité de calcul significative. Elle loue à des partenaires GPU non divulgués et à des fournisseurs de calcul confidentiel (NEAR AI Cloud, Phala), et paie les laboratoires de pointe pour la transmission, donc son véritable coût des revenus est la puissance d'inférence, et non l'hébergement SaaS.
Ce que Venice vend vraiment, c'est la confidentialité. Ici, « confidentialisation » ne signifie pas transformer la puissance de calcul publique en propriété privée, mais envelopper une inférence marchandisée dans une garantie : aucune conservation des données, pas d'utilisation pour l'entraînement, anonymisation des requêtes, certaines charges s'exécutant même dans des TEE, de sorte que l'opérateur lui-même ne peut pas voir le texte en clair. La puissance de calcul sous-jacente est une commodité, la marge supplémentaire vient de cet emballage de confidentialité. Et cette garantie est stratifiée, pas uniforme : pour les modèles open source fonctionnant sur des GPU sous son contrôle ou dans des TEE, on peut atteindre un calcul confidentiel quasi bout en bout ; mais pour la transmission anonyme vers des modèles propriétaires comme Claude ou GPT, la confidentialité se limite à la suppression de l'identité, le laboratoire de pointe traite toujours votre prompt original. La confidentialité la plus forte ne couvre donc que la partie open source, la partie des modèles de pointe est « anonyme » et non « vraiment confidentielle ». La marge brute de Venice = Prix de l'abonnement − Coût de l'inférence payé en aval, et la partie qu'elle peut facturer en plus par rapport au prix nu de l'API repose presque entièrement sur cette prime de confidentialité, ce qui explique également sa faible marge et sa dépendance aux tarifs de transmission des laboratoires de pointe.
Le design du token conditionne cette demande d'inférence. Venice fonctionne sur deux jetons : VVV (staking et accès à la plateforme) et DIEM, ce dernier étant un crédit d'inférence, chaque DIEM valant environ 1 dollar de puissance de calcul par jour. Les abonnements payants déclenchent un rachat et une destruction programmés de VVV (Pro / Pro+ / Max environ 2 / 5 / 10 dollars respectivement), tandis que l'émission suit un calendrier fixe décroissant : 6M → 5M → 4M VVV par mois, passant à 3M le 1er juillet. Les rachats sont réels, mais discrétionnaires et encore modestes : environ 103 000 dollars détruits en avril et mai chacun, juin atteignant lentement environ 110 000 dollars, bien en deçà de la barre des 200 000 dollars par mois.
Les fondamentaux sont plus sains que les gros titres. Le chiffre largement répandu de « 70 millions de dollars de chiffre d'affaires récurrent annualisé (ARR) » est presque certainement le résultat d'une confusion entre renouvellements d'abonnement et acquisitions nettes de nouveaux clients ; un intervalle défendable et observable se rapproche davantage de 6 à 15 millions de dollars d'ARR. En dessous, la traction est réelle : environ 136 000 adresses détentrices de jetons, environ 9,9 millions de visites mensuelles sur le site web (environ 330 000 par jour), les nouveaux abonnements Pro tournant autour de 1400 par jour. C'est une vraie entreprise, mais une entreprise à faible marge, dont l'économie est contrainte par la puissance de calcul qu'elle achète.
C'est précisément pourquoi Hyperbolic se situe au-dessus. Si Venice est la station-service, Hyperbolic est la raffinerie. Venice achète de la puissance de calcul dans la même offre limitée dont tout le monde dépend ; Hyperbolic agrège et normalise cette offre fragmentée, puis la vend à Venice et à tous les acteurs similaires. À mesure que la demande d'inférence croît, la valeur s'accumule non seulement vers les applications qui consomment la puissance de calcul, mais encore plus vers la couche qui agrège et achemine cette puissance de calcul, et capture le coût des revenus que ces applications paient.
VIII. Pourquoi c'est important maintenant
Nvidia a réorganisé ses finances autour des « jetons de service ». L'IPO de Cerebras prouve que le marché a compris que l'inférence est le goulot d'étranglement. Anthropic court après la capacité, prouvant que c'est un vrai problème. L'IA agentic et l'IA physique vont amplifier la demande de plusieurs ordres de grandeur, sur les deux fronts du cloud et de la périphérie.
Et cela referme aussi la boucle du « problème des 6000 milliards de dollars » de l'autre côté. La logique baissière de Cahn, à savoir la surconstruction, puis la surproduction, sera finalement probablement validée. Mais la surproduction est précisément le scénario optimal pour l'agrégateur sans actifs : lorsque les prix des GPU baissent, que l'offre fragmentée se disperse sur des dizaines de clouds, le joueur qui ne possède aucun matériel et achemine chaque charge de travail vers la carte disponible la moins chère gagne l'écart de prix, tandis que les opérateurs qui détiennent des GPU en perpétuelle dépréciation subissent les pertes. Hyperbolic parie sur la surproduction, pas contre elle.
L'entreprise qui finira par l'emporter ne sera pas celle qui possède le plus de GPU, mais celle qui peut vous dire quels GPU sont disponibles où et à quel prix, et acheminer chaque charge de travail là où elle peut fonctionner au plus bas coût.
Hyperbolic est en train de construire une telle entreprise. Ne possédant pas de GPU elle-même, purement logicielle, s'étendant sur trois couches, mais construisant la couche d'agrégation ultime de la puissance de calcul d'inférence.







