Rédigé par : Bruce
Récemment, tout le monde dans le monde technologique et de l'investissement a les yeux rivés sur la même chose : comment les applications d'IA sont en train de « tuer » les SaaS traditionnels. Depuis que @AnthropicAI a montré comment Claude Cowork pouvait facilement vous aider à écrire des e-mails, créer des présentations PowerPoint et analyser des tableaux Excel, une panique autour de la « mort du logiciel » s'est répandue. C'est effectivement effrayant, mais si vous ne regardez que cela, vous passez peut-être à côté du vrai séisme.
C'est comme si nous regardions tous un combat aérien de drones dans le ciel, sans remarquer que la plaque continentale sous nos pieds est en train de bouger silencieusement. La vraie tempête se cache sous la surface, dans un coin que la plupart des gens ne voient pas : les fondations de la puissance de calcul qui soutiennent tout le monde de l'IA sont en train de vivre une « révolution silencieuse ».
Et cette révolution pourrait mettre fin à la grande fête organisée par le vendeur de pelles de l'IA : Nvidia @nvidia, bien plus tôt que tout le monde ne l'imagine.
Deux voies révolutionnaires en train de converger
Cette révolution n'est pas un événement isolé, mais la convergence de deux trajectoires technologiques apparemment indépendantes. Elles ressemblent à deux armées en tenaille, formant une offensive en pince contre l'hégémonie des GPU de Nvidia.
La première voie est la révolution de l'amaigrissement des algorithmes.
Vous êtes-vous déjà demandé si un super-cerveau avait besoin de mobiliser toutes ses cellules pour réfléchir à un problème ? Clairement non. DeepSeek a compris cela et a développé l'architecture MoE (Mixture of Experts).
Imaginez une entreprise avec des centaines d'experts dans différents domaines. Mais pour résoudre un problème lors d'une réunion, vous n'avez besoin de convoquer que les deux ou trois personnes les plus pertinentes, et non pas tout le monde pour un brainstorming. C'est là que réside l'intelligence du MoE : il permet à un modèle massif de n'activer qu'une petite partie des « experts » à chaque calcul, économisant ainsi énormément de puissance de calcul.
Le résultat ? Le modèle DeepSeek-V2, qui a nominalement 236 milliards d'« experts » (paramètres), mais n'en active que 21 milliards à chaque fois qu'il travaille, soit moins de 9 % du total. Et ses performances sont comparables à celles du GPT-4, qui nécessite une puissance de calcul à 100 %. Qu'est-ce que cela signifie ? La capacité de l'IA et sa consommation de puissance de calcul sont découplées !
Autrefois, nous supposions tous que plus l'IA était puissante, plus elle consommait de cartes. Maintenant, DeepSeek nous montre qu'avec un algorithme intelligent, on peut obtenir le même résultat pour un dixième du coût. Cela remet directement en question le caractère indispensable des GPU de Nvidia.
La deuxième voie est la révolution du « changement de voie » matériel.
L'IA fonctionne en deux phases : l'entraînement et l'inférence. L'entraînement, c'est comme aller à l'école, il faut lire des milliers de livres ; à ce stade, les GPU, ces cartes de calcul parallèle à la « force brute », sont effectivement utiles. Mais l'inférence, c'est comme notre utilisation quotidienne de l'IA, où la rapidité de réponse est primordiale.
Les GPU ont un défaut intrinsèque lors de l'inférence : leur mémoire (HBM) est externe, ce qui entraîne des délais dans l'aller-retour des données. C'est comme un cuisinier dont les ingrédients sont dans un réfrigérateur dans la pièce d'à côté ; à chaque fois qu'il cuisine, il doit courir les chercher, et même rapide, ce n'est pas optimal. Des entreprises comme Cerebras et Groq ont pris un chemin différent, concevant des puces dédiées à l'inférence, en soudant la mémoire (SRAM) directement sur la puce, mettant les « ingrédients » à portée de main pour un accès « sans latence ».
Le marché a déjà voté avec son argent. OpenAI, tout en se plaignant des performances d'inférence des GPU de Nvidia, s'est tourné vers Cerebras et a signé un énorme contrat de 100 milliards de dollars pour louer spécifiquement leurs services d'inférence. Nvidia lui-même a paniqué et a dépensé 20 milliards de dollars pour acquérir Groq, juste pour ne pas prendre de retard sur cette nouvelle piste.
Quand les deux voies convergent : l'avalanche des coûts
Maintenant, mettons ces deux éléments ensemble : un modèle DeepSeek « amaigri » algorithmiquement, fonctionnant sur une puce Cerebras « sans latence ».
Que se passe-t-il ?
Une avalanche de coûts.
D'abord, le modèle amaigri est petit et peut tenir entièrement dans la mémoire intégrée de la puce. Ensuite, sans le goulot d'étranglement de la mémoire externe, la vitesse de réaction de l'IA sera incroyablement rapide. Le résultat final : le coût de l'entraînement chute de 90 % grâce à l'architecture MoE, et le coût de l'inférence chute d'un ordre de grandeur supplémentaire grâce au matériel dédié et au calcul parcimonieux. Au total, le coût de possession et d'exploitation d'une IA de classe mondiale pourrait n'être que de 10 à 15 % de celui d'une solution GPU traditionnelle.
Ce n'est pas une amélioration, c'est un changement de paradigme.
Le trône de Nvidia se fait subtiliser son tapis
Maintenant, vous devriez comprendre pourquoi cela est plus fatal que la « panique Cowork ».
La valorisation de plusieurs billions de dollars de Nvidia aujourd'hui est basée sur une histoire simple : l'IA est l'avenir, et l'avenir de l'IA dépend de mes GPU. Mais maintenant, les fondations de cette histoire sont ébranlées.
Sur le marché de l'entraînement, même si Nvidia conserve son monopole, si les clients peuvent travailler avec un dixième des cartes, la taille globale de ce marché pourrait considérablement diminuer.
Sur le marché de l'inférence, ce gâteau dix fois plus gros, Nvidia n'a non seulement pas d'avantage absolu, mais il fait aussi face à l'encerclement de diverses entités comme Google, Cerebras, etc. Même son plus grand client, OpenAI, fait défection.
Lorsque Wall Street réalisera que les « pelles » de Nvidia ne sont plus le seul, ni même le meilleur choix, que se passera-t-il avec la valorisation basée sur l'attente d'un « monopole permanent » ? Je pense que tout le monde le sait très bien.
Ainsi, le plus grand cygne noir des six prochains mois ne sera peut-être pas quelle application d'IA en a vaincu une autre, mais une nouvelle technique apparemment anodine : par exemple, un nouvel article sur l'efficacité de l'algorithme MoE, ou un rapport montrant une forte augmentation des parts de marché des puces d'inférence dédiées, annonçant silencieusement l'entrée dans une nouvelle phase de la guerre de la puissance de calcul.
Lorsque les pelles du « vendeur de pelles » ne sont plus le seul choix, son âge d'or touche probablement à sa fin.