OpenAI se lance enfin dans les puces.
En voyant cette nouvelle, la première réaction de beaucoup est : Nvidia est dans l'embarras.
Mais ce que je vois, c'est exactement l'inverse.
La signification la plus importante de la première puce, Jalapeño, n'est pas de s'en prendre directement à Nvidia.
C'est la première fois qu'OpenAI reconnaît publiquement qu'il n'est pas satisfait d'être simplement une entreprise de modèles.
Il veut contrôler l'ensemble du processus de production de l'intelligence.
Du modèle, à la puce. Du centre de données, à l'énergie. De l'entraînement, à l'inférence. De la production de Token, à la vente de Token.
Jalapeño est en surface une puce, mais en réalité, il ressemble plus à une feuille de route.
OpenAI a enfin mis ses ambitions sur la table.
I. L'écart des modèles se réduit, l'écart de calcul s'élargit
Depuis l'explosion des grands modèles, presque toute l'attention de l'industrie de l'IA s'est portée sur les modèles.
L'arrivée de GPT-4 a secoué l'industrie une fois, puis Claude a rattrapé son retard, Gemini l'a rattrapé, DeepSeek a proposé un meilleur rapport qualité-prix, Meta a promu l'open source. À chaque sortie, tout le monde regarde le même ensemble de choses : paramètres, classements, capacités en code, capacités mathématiques, contexte long, multimodalité.
Le modèle est bien sûr important. Mais un changement est apparu : la fenêtre de leadership des modèles se raccourcit. Aujourd'hui, un modèle vient à peine de sortir, et quelques mois plus tard, la communauté open source, les concurrents, les fournisseurs de cloud le rattrapent. Un écart de capacités existe toujours, mais il devient de plus en plus difficile de constituer à lui seul une barrière à long terme.
Ce qui crée vraiment l'écart commence à descendre vers des couches plus profondes. L'approvisionnement en puissance de calcul, le coût de l'inférence, le débit du système, la capacité réseau, la construction de centres de données, l'accès à l'énergie. C'est moins spectaculaire qu'une sortie de modèle et ne fera pas immédiatement le buzz. Mais ils déterminent si une entreprise d'IA peut tenir sur la durée.
Jensen Huang a récemment dit ceci : le système Nvidia n'est peut-être pas le moins cher à l'achat, mais il peut générer le Token au coût le plus bas, le plus haut débit de Token, et finalement générer les revenus les plus élevés.
La déclaration de Jensen est très directe. L'industrie se plaint depuis toujours que Nvidia est cher. Jensen Huang ne se justifie pas sur le prix d'achat, mais place le problème sur une autre dimension : ne regardez pas combien vous dépensez pour acheter les machines, regardez le coût de production de chaque Token.
C'est le nouveau livre de comptes de l'ère de l'IA. Les serveurs et les GPU ne sont pas l'unité finale, le Token l'est.
OpenAI se trouve justement au centre de ce problème.
ChatGPT traite des quantités massives de requêtes chaque jour, Codex consomme encore plus d'étapes d'inférence, et à l'avenir, il y aura les Agents, la génération vidéo, les robots, les chaînes de raisonnement longues. Plus le modèle est utile, plus la consommation de Token est grande. Plus le produit est réussi, plus la facture d'inférence est lourde.
L'endroit cruel est ici : plus OpenAI a d'utilisateurs, plus Nvidia gagne d'argent. Plus le produit d'OpenAI est puissant, plus la taxe de calcul sous-jacente est lourde.
Si chaque Token doit passer par une plateforme matérielle externe qui prélève une taxe, OpenAI aura du mal à posséder un avantage compétitif complet. Il peut avoir le modèle le plus fort, le super portail d'entrée, l'écosystème de développeurs. Mais le coût de production le plus fondamental reste toujours entre les mains d'autrui.
C'est l'essence de Jalapeño. OpenAI commence à construire sa propre usine de Tokens.
II. GPT commence à concevoir GPT
Le détail le plus sous-estimé de la puce Jalapeño est son cycle de fabrication de neuf mois.
Les projets d'ASIC haute performance traditionnels ont généralement un cycle de 18 à 36 mois. Les processus avancés sont encore plus problématiques : architecture, vérification, implémentation physique, packaging, pile logicielle, débogage. Si un problème survient à n'importe quelle étape, le coût augmente rapidement. OpenAI et Broadcom ont réduit le cycle à neuf mois.
Cela ne doit pas être compris comme une soudaine simplification de l'industrie des semi-conducteurs. OpenAI n'a pas fait apparaître une chaîne d'approvisionnement en semi-conducteurs de nulle part. Broadcom a une expérience approfondie dans les puces sur mesure et l'infrastructure réseau, Celestica s'occupe des cartes, des baies et de l'ingénierie système.
La véritable contribution d'OpenAI est quelque chose de plus rare : il sait comment les futurs modèles vont fonctionner.
De nombreuses sociétés de semi-conducteurs fabriquent des accélérateurs d'IA. La difficulté est de deviner la charge de travail. La structure des modèles va changer, la manière de raisonner va changer, les modes de service vont changer. Une fois la puce fabriquée, le monde physique n'offre pas la même facilité de retour en arrière que le monde logiciel.
OpenAI n'a pas besoin de deviner complètement. En exécutant ChatGPT, Codex et l'API quotidiennement, il sait quels noyaux sont les plus utilisés, quels transferts de mémoire sont les plus gaspilleurs, quels goulots d'étranglement réseau affectent le plus l'efficacité du cluster, quels délais nuisent directement à l'expérience produit. Il sait aussi comment les futurs produits de type Agent vont consommer les ressources d'inférence.
Cette expérience n'était auparavant qu'une connaissance d'ingénierie en arrière-plan. Maintenant, elle est écrite dans l'architecture de la puce.
Dans le communiqué de presse officiel d'OpenAI, une phrase est cruciale : OpenAI a utilisé ses propres modèles pour accélérer une partie du processus de conception et d'optimisation. Il est également dit que les modèles fournis aux utilisateurs aident également à améliorer l'infrastructure qui exécutera les futurs modèles.
GPT commence à participer à la conception de la machine de la prochaine génération de GPT.
Au cours des dernières décennies, la chaîne des puces était la suivante : concevoir d'abord la puce, la puce exécute le logiciel, le logiciel exécute l'IA. Maintenant, la chaîne commence à revenir en arrière : l'IA aide l'humain à concevoir la puce, la puce exécute la prochaine génération d'IA.
Une fois cette boucle fermée établie, neuf mois ne sont peut-être qu'un début. À l'avenir, cela pourrait être six mois, trois mois, voire des itérations encore plus rapprochées.
L'industrie des semi-conducteurs avait son propre rythme, l'industrie des modèles avait son propre rythme. Le premier est lent, le second rapide. Jalapeño rapproche ces deux rythmes.
Si cette étape est franchie, la roue d'inertie d'OpenAI deviendra effrayante. De meilleurs modèles aident à concevoir de meilleures puces, de meilleures puces réduisent le coût d'exécution de la prochaine génération de modèles, des coûts plus bas soutiennent davantage d'utilisateurs et de produits, plus d'utilisateurs et de produits génèrent plus de données de charge de travail réelles, ces données définissent à leur tour la prochaine génération de puces.
C'est le véritable cycle qu'OpenAI veut.
III. Réduire la taxe d'inférence, contrôler les flux de trésorerie
Jalapeño n'est pas une puce d'entraînement, elle est destinée à l'inférence des grands modèles de langage. Ce point est crucial.
L'entraînement, c'est comme construire un porte-avions. Un investissement unique est énorme, nécessite une capacité de généralisation extrêmement forte, doit s'adapter constamment à de nouveaux modèles, architectures et expériences. Le marché de l'entraînement dépend encore fortement de Nvidia, pas seulement des GPU, mais de l'ensemble de la plateforme : CUDA, réseau, système, bibliothèques logicielles, écosystème de développeurs.
L'inférence ressemble plus à une flotte de taxis. Elle tourne tous les jours, toutes les heures, toutes les minutes. Chaque fois qu'un utilisateur pose une question, que l'API répond, qu'un Agent progresse d'un pas, une inférence se produit. Elle se soucie davantage de la faible latence, du faible coût, du haut débit, du haut taux d'utilisation.
L'entraînement brûle de grosses sommes d'argent ponctuelles, l'inférence brûle les flux de trésorerie quotidiens.
C'est aussi le problème le plus épineux pour les entreprises d'IA arrivées au stade de la commercialisation. L'entraînement de GPT coûte cher une fois, mais l'inférence se produit tous les jours. L'ère des Agents va continuer à amplifier ce problème, une seule tâche peut contenir des dizaines, voire des centaines d'appels au modèle. Le contexte long, le raisonnement en chaîne, la génération multimodale, l'exécution de code continuent de pousser à la hausse la consommation de Token.
Jalapeño vise précisément cette taxe d'inférence. Il ressemble plus au TPU propre d'OpenAI. Google, Amazon, Meta, Microsoft ont tous suivi des voies similaires. Dès que la charge de travail est suffisamment importante, les ASIC développés en interne prennent un sens économique en termes de rapport qualité-prix.
OpenAI a maintenant ces conditions. Il a des requêtes réelles, une feuille de route produit, une équipe de modèles, des partenaires industriels comme Broadcom, et une énorme pression sur les coûts.
Jalapeño n'a pas besoin d'être vendu à l'extérieur pour prouver sa valeur. S'il permet à ChatGPT de répondre moins cher, à Codex de fonctionner plus vite, à l'API d'avoir une marge bénéficiaire plus élevée, alors il a un sens.
OpenAI mentionne également que Jalapeño réduira le transfert de données, équilibrera les ressources de calcul, de mémoire et de réseau, rapprochant ainsi le taux d'utilisation réel du pic théorique. La puissance de calcul est chère souvent parce qu'elle n'est pas pleinement utilisée : le GPU attend le réseau, les transferts de mémoire ralentissent le calcul, une mauvaise planification crée du temps mort, tous ces gaspillages finissent par se transformer en factures d'électricité et dépenses en capital.
Le prix d'achat n'est que la première couche, l'efficacité du système est le compte final.
IV. OpenAI ressemble de plus en plus à Apple
Beaucoup interpréteront Jalapeño comme un défi d'OpenAI envers Nvidia, mais je pense qu'OpenAI ne veut pas devenir le prochain Nvidia, il s'inspire plutôt d'Apple.
La force d'Apple n'a jamais résidé dans un point unique. L'iPhone est fort, iOS est fort, les puces de la série A et M sont fortes, l'App Store est fort. Mais l'endroit où Apple est vraiment difficile à battre, c'est que toutes ces choses sont placées dans la même boucle fermée.
La puce est optimisée pour le système, le système est optimisé pour les applications, l'expérience des applications définit à son tour la prochaine génération de puces. Cette boucle fermée permet à Apple de créer, sous les mêmes contraintes de batterie, de volume et de dissipation thermique, une expérience difficile à reproduire par d'autres.
OpenAI est en train de construire quelque chose de similaire. Le modèle est le noyau d'intelligence, ChatGPT est le super portail d'entrée, Codex est l'outil de développement, l'API est la couche de distribution de l'écosystème, Jalapeño est la puce développée en interne, le centre de données est l'usine d'IA.
Le PDG d'OpenAI, Altman, a beaucoup parlé ces deux dernières années de puces, d'énergie, de fusion nucléaire, de centres de données. Maintenant, on peut voir qu'il ne poursuit peut-être pas simplement des concepts, il ne planifie plus OpenAI comme une startup d'IA.
Si Nvidia vend des pelles, alors OpenAI veut posséder la mine.
Nvidia veut être le fournisseur d'équipements d'usine pour toutes les entreprises d'IA, vendre des GPU, des réseaux, des systèmes, un écosystème logiciel, des solutions d'usines d'IA. Le client idéal est chaque entreprise qui a besoin de produire des Tokens.
OpenAI veut se construire sa propre usine, ne vend pas les équipements, mais l'intelligence finalement générée.
À court terme, OpenAI ne peut pas se passer de Nvidia. L'entraînement et le calcul général ont toujours besoin de la plateforme GPU, et Jalapeño ne pourra pas couvrir rapidement toutes les charges de travail. Il entrera probablement d'abord dans les scénarios d'inférence les plus certains, les plus importants en taille et offrant le plus grand bénéfice d'optimisation pour OpenAI.
À long terme, une fissure est apparue. Lorsque les entreprises de modèles commencent à avoir leur propre feuille de route pour les puces, les clients de Nvidia ne sont plus seulement des clients. Ils deviennent également un autre type de joueur dans l'infrastructure d'IA.
Paroles hors de la page
Au cours des vingt dernières années, l'actif le plus important d'Internet était le trafic. Celui qui contrôlait les utilisateurs contrôlait la valeur.
Aujourd'hui, une nouvelle règle émerge dans l'ère de l'IA.
Les modèles ressemblent de plus en plus au trafic, et le calcul ressemble de plus en plus à la terre.
Les modèles vont itérer, les produits vont changer, les classements vont être constamment rafraîchis. Mais ces usines de production d'intelligence, les puces, le réseau, les centres de données, l'énergie, vont se concentrer de plus en plus entre les mains de quelques acteurs.
Le fait que GPT commence à concevoir GPT semble n'être qu'une fabrication de puce.
Mais ce qu'il annonce vraiment, c'est :
OpenAI n'est plus satisfait d'être l'entreprise la plus intelligente, il veut devenir l'entreprise qui contrôle la production d'intelligence.
Cet article provient du compte public WeChat :Hors de la page, Auteur : Huahua
Cet article provient du compte public WeChat :Hors de la page, Auteur : Huahua, Image du titre : générée par IA






