Note de la rédaction : Dans le contexte de la montée en puissance continue des récits d'investissement et industriels sur l'IA, la question de « l'existence d'une bulle » est devenue un problème central de discussion répétée sur le marché. D'une part, les récits de risque extrême ne cessent de renforcer les inquiétudes concernant une perte de contrôle de la technologie ; d'autre part, la rapide expansion des dépenses en capital et des niveaux de valorisation laisse également persister la « théorie de la bulle ». Sous cette divergence, les jugements du marché présentent une incertitude marquée.
L'auteur de cet article, Ben Thompson, est le fondateur de la plateforme d'analyse technologique Stratechery, qui suit depuis longtemps l'évolution de la structure industrielle et des modèles commerciaux de la tech. À l'occasion de la tenue du GTC 2026 de Nvidia, il a révisé son jugement précédent sur « si l'IA est dans une bulle » : il ne considère plus la situation actuelle comme une bulle, mais plutôt comme une croissance structurelle pilotée par des changements de paradigme technologique.
Ce jugement est basé sur l'observation de trois transitions clés des LLM. Depuis que ChatGPT a montré pour la première fois les capacités des grands modèles de langage au marché en 2022, les LLM sont passés d'« utilisables mais pas fiables », à « dotés de capacités de raisonnement », puis à « capables d'exécuter des tâches de manière autonome ». Surtout fin 2025, avec les sorties d'Anthropic Opus 4.5 et d'OpenAI GPT-5.2-Codex, les charges de travail agentiques ont commencé à passer du concept à la réalité.
La clé n'est pas dans le modèle lui-même, mais dans l'apparition du « harnais d'agent ». L'agent découple l'utilisateur du modèle, est responsable de l'ordonnancement du modèle, de l'appel des outils et de la vérification des résultats, faisant passer l'IA d'un outil nécessitant une intervention humaine continue à un système d'exécution auquel on peut confier des tâches. Ce changement améliore non seulement la fiabilité, mais élargit également les frontières d'application de l'IA.
Sur la base de ce changement de paradigme, l'auteur souligne en outre que l'expansion de la demande d'IA ne dépend plus de l'échelle des utilisateurs, mais davantage de la capacité d'ordonnancement par utilisateur ; dans le même temps, les charges de travail agentiques présentent des caractéristiques de « winner-takes-all » (le gagnant remporte tout), qui continueront à stimuler la demande de puissance de calcul haute performance et apporteront des opportunités structurelles aux fabricants de puces et aux fournisseurs de services cloud.
Dans ce cadre, les dépenses en capital massives actuelles ne sont plus seulement des paris spéculatifs sur l'avenir, mais sont plus susceptibles d'être une réponse anticipée à une demande réelle. Alors que l'IA passe d'« outil d'assistance » à « infrastructure d'exécution », son impact économique ne fait peut-être que commencer à se manifester.
Voici le texte original :
Par le passé, je penchais plutôt pour la seconde option, et même pensais que, à certaines étapes, une bulle n'était pas nécessairement une mauvaise chose.
Mais maintenant, en me tenant en mars 2026, à l'ouverture du GTC de Nvidia, mon jugement a changé : ce n'est pas nécessairement une bulle. (Et, ironiquement, ce jugement lui-même pourrait précisément être le signal de la bulle.)
Les trois transitions de paradigme des LLM
Ces dernières semaines, en discutant des résultats financiers de Nvidia et d'Oracle, j'ai mentionné à plusieurs reprises que les LLM ont connu trois transitions clés.
Première phase : ChatGPT
Le premier point d'inflexion fut la sortie de ChatGPT en novembre 2022, ce qui n'a presque pas besoin d'être détaillé. Bien que les grands modèles de langage basés sur Transformer existent depuis 2017, avec des capacités en amélioration continue, ils ont longtemps été sous-estimés. Même en octobre 2022, lors d'un entretien pour Stratechery, je pensais que cette technologie, bien qu'impressionnante, manquait de potentiel de production et de démarrage.
Mais quelques semaines plus tard, tout a basculé. ChatGPT a fait prendre conscience au monde, pour la première fois, des capacités des LLM.
Cependant, les premières versions ont également laissé deux impressions profondes, particulièrement évoquées par les « bullistes » :
Premièrement, le modèle se trompait souvent, inventant même des réponses de manière « hallucinatoire » quand il ne connaissait pas la réponse. Cela le rendait plus like un « outil de démonstration », impressionnant mais pas fiable.
Deuxièmement, même ainsi, il restait très utile, mais à condition de savoir comment l'utiliser, et de devoir constamment vérifier la sortie et corriger les erreurs.
Deuxième phase : o1
Le deuxième point d'inflexion fut la sortie du modèle o1 par OpenAI en septembre 2024. À l'époque, les LLM avaient déjà considérablement progressé grâce à des modèles de base plus puissants et des techniques de post-formation, avec des sorties plus précises et moins d'hallucinations.
Mais la percée clé d'o1 était : il « réfléchissait » d'abord, puis répondait.
Les LLM traditionnels sont dépendants du chemin : une fois qu'ils se trompent dans le processus de raisonnement, ils continuent sur la mauvaise voie. C'est une faiblesse fondamentale des modèles « auto-régressifs ». Les modèles de raisonnement, eux, évaluent eux-mêmes la réponse : ils génèrent d'abord une réponse, puis jugent si elle est correcte, essayant si nécessaire d'autres chemins.
Cela signifie que le modèle commence à gérer activement les erreurs, réduisant la charge d'intervention de l'utilisateur. Les résultats étaient également très significatifs. Si la percée de ChatGPT était de « rendre les LLM utilisables », alors la percée d'o1 était de « rendre les LLM fiables ».
Troisième phase : Agent (Opus 4.5 / Codex)
Fin 2025, la troisième transition est apparue.
En novembre 2025, Anthropic a publié Opus 4.5, initialement accueilli avec peu d'enthousiasme. Mais en décembre, Claude Code, équipé de ce modèle, a soudainement démontré des capacités sans précédent ; presque simultanément, OpenAI a publié GPT-5.2-Codex, montrant un niveau similaire.
Les gens parlaient d'« Agent » depuis longtemps, mais à ce moment-là, ils ont enfin commencé à réellement accomplir des tâches, même complexes nécessitant plusieurs heures, et à les accomplir correctement.
La clé n'est pas dans le modèle lui-même, mais dans la couche de contrôle (harness), c'est-à-dire la couche logicielle qui planifie le modèle, appelle les outils et exécute les flux. En d'autres termes, l'utilisateur n'opère plus directement le modèle, mais donne un objectif, et l'Agent planifie le modèle, appelle les outils, exécute le flux et vérifie les résultats.
Prenons la programmation comme exemple :
· Première phase : le modèle génère du code
· Deuxième phase : le modèle raisonne pendant le processus de génération
· Troisième phase : l'Agent génère du code → exécute des tests → exécute automatiquement les tests → recommence en cas d'erreur, sans que l'utilisateur ait besoin d'intervenir continuellement.
Cela signifie que les défauts centraux de l'ère ChatGPT sont en train d'être résolus systématiquement : taux de réussite plus élevé, capacités de raisonnement plus fortes, mécanismes de validation automatique.
La seule question restante est : que faut-il en faire exactement ?
La raison pour laquelle j'insiste tant sur ces trois points d'inflexion est d'expliquer pourquoi toute l'industrie manque gravement de puissance de calcul, et pourquoi les dépenses en capital à très grande échelle sont raisonnables.
Les trois paradigmes ont des besoins en puissance de calcul complètement différents :
· Première phase : la formation consomme de la puissance de calcul, mais le coût de l'inférence est faible
· Deuxième phase : le coût de l'inférence explose (plus de tokens + fréquence d'utilisation plus élevée)
· Troisième phase (Agent) : appels multiples au modèle d'inférence, l'Agent lui-même consomme aussi de la puissance de calcul (voire penche vers le CPU), la fréquence d'utilisation explose encore plus
Mais le plus important est le troisième point : le changement structurel de la demande est gravement sous-estimé.
Actuellement, les personnes utilisant des chatbots sont beaucoup plus nombreuses que celles utilisant des Agents, et beaucoup de gens n'utilisent en fait pas pleinement l'IA. La raison en est que l'utilisation de l'IA nécessite une « proactivité ». Les LLM sont des outils, ils n'ont pas d'objectif, pas de volonté, ils ne peuvent être appelés que de manière proactive.
Mais l'Agent change cela, il réduit l'exigence de proactivité humaine. À l'avenir, une personne pourra diriger plusieurs Agents simultanément.
Cela signifie que même si seule une minorité de personnes possède la « proactivité », cela suffira à entraîner une énorme demande de puissance de calcul et une production économique.
L'IA a toujours besoin « d'être pilotée par l'homme », mais n'a plus besoin « de beaucoup de monde ».
La volonté de payer pour l'IA côté consommateur est limitée, cela devient de plus en plus clair. Ceux qui sont vraiment prêts à payer pour la productivité, ce sont les entreprises.
Ce qui excite le plus les entreprises, ce n'est pas seulement que l'IA améliore l'efficacité, mais que l'IA puisse remplacer la main-d'œuvre, et être plus efficace.
La réalité actuelle est que, dans les grandes entreprises, ce sont souvent une minorité de personnes qui font vraiment avancer l'activité ; mais l'organisation est vaste, entraînant des coûts de coordination importants. Le rôle de l'Agent est d'amplifier l'influence des « personnes qui créent de la valeur », tout en réduisant les frictions organisationnelles.
Le résultat est « moins de personnes → plus de production → des coûts plus bas ». C'est aussi pourquoi les futures réductions d'effectifs ne seront probablement pas seulement des « ajustements cycliques », mais des changements structurels.
Les entreprises repenseront, non seulement si elles « ont trop embauché pendant la période COVID », mais aussi si, à l'ère de l'IA, elles ont vraiment besoin d'autant de monde.
Pourquoi ce n'est pas une bulle ?
Sous cet angle, la logique du « ce n'est pas une bulle » devient assez claire :
1. Les défauts centraux des LLM sont en train d'être résolus en continu par la puissance de calcul et l'architecture
2. Le seuil du nombre de personnes nécessaires pour stimuler la demande est en train de baisser
3. Les bénéfices apportés par l'Agent ne sont pas seulement une réduction des coûts, mais aussi une augmentation des revenus
Par conséquent, il n'est pas difficile de comprendre pourquoi tous les fournisseurs de cloud disent que la puissance de calcul est insuffisante pour répondre à la demande, et continuent d'augmenter considérablement leurs dépenses en capital.
L'Agent et la restructuration de la chaîne de valeur
Une autre question clé est : si les modèles finissent par être commoditisés, OpenAI et Anthropic pourront-ils encore gagner de l'argent ?
L'opinion traditionnelle dit que non, mais l'Agent change cela. La clé est que la vraie valeur n'est pas dans le modèle lui-même, mais dans l'intégration « modèle + système de contrôle ».
Les profits ont tendance à affluer vers la « couche d'intégration », et non vers les modules remplaçables. Tout comme Apple, son matériel n'est pas commoditisé parce qu'il est profondément intégré au logiciel. De même, l'Agent nécessite une synergie profonde entre le modèle et le harnais, ce qui fait d'OpenAI et d'Anthropic des intégrateurs clés dans la chaîne de valeur, et non un maillon remplaçable.
Le changement de Microsoft est un signal : il mettait initialement l'accent sur la « remplaçabilité des modèles », mais après avoir lancé de véritables produits Agent, il a dû abandonner cela.
Cela signifie que les modèles ne seront pas nécessairement totalement commoditisés, car l'Agent nécessite des capacités intégrées.
Le paradoxe final
Je dois revenir au paradoxe du début.
J'ai toujours pensé que tant que les gens s'inquiètent encore d'une bulle, ce n'en est pas encore une ; la vraie bulle, c'est quand personne ne la remet en question.
Et maintenant, ma conclusion est : ce n'est pas une bulle.
Mais si « le fait que je dise que ce n'est pas une bulle » prouve lui-même que c'en est une, alors qu'il en soit ainsi.






