Auteur : Wang Jianshuo
Le 6 mars 2023, peu après la sortie de ChatGPT et avant la publication de GPT-4, Sarah et moi avons mené un entretien sur ChatGPT — le troisième épisode de la série « Langage clair » de Traders' Talk (le podcast « Langage clair sur ChatGPT » est publié, bonne écoute).
À cette époque, ChatGPT venait tout juste de sortir et très peu de gens l'avaient vraiment utilisé. Cet entretien de trois heures est resté en tête de la catégorie ChatGPT sur Xiao Yu Zhou. J'y avais émis une vingtaine de jugements et prédictions d'un coup, basés uniquement sur l'intuition et des informations limitées, sans beaucoup de données. La transcription complète de cet entretien est toujours disponible sur mon compte public.
Nous sommes maintenant fin mai 2026, trois ans se sont écoulés, et l'IA a pris une forme inimaginable à l'époque.
Je veux faire une chose : reprendre ces vingt points un par un, et, en utilisant les données les plus récentes disponibles aujourd'hui, faire un bilan objectif. Voir clairement comment le monde a évolué en trois ans, et voir également où le moi d'il y a trois ans a vu juste, et où il s'est trompé.
Pour essayer d'être aussi impartial que possible, j'ai confié ce bilan à une IA : j'ai donné la transcription de l'entretien à un workflow, qui a orchestré 41 agents Opus 4.8, d'abord pour séparer les vingt jugements, puis pour chacun rechercher en ligne les données les plus récentes, vérifier croisé chaque point, et enfin noter le Wang Jianshuo d'il y a trois ans. Ce groupe d'agents a pris environ 20 minutes, brûlé 1,4 million de tokens (environ 35 dollars), et produit le rapport ci-dessous. Les jugements viennent d'eux, pas de moi. La date de référence est fixée à mai 2026.
I. Tableau des scores
Symboles de verdict : ✅ Correct · 🟢 Fondamentalement correct · 🟡 Partiellement correct · ❌ Erroné
En première analyse, la grande orientation de Wang Jianshuo à l'époque était majoritairement juste. Seule une prédiction était vraiment fausse de manière flagrante — avoir répété la rumeur selon laquelle GPT-4 avait 100T de paramètres. Mais le diable se cache dans les détails : derrière presque chaque prédiction « correcte », se cache une queue de détails qu'il n'avait pas anticipée. Aucune des vingt prédictions n'est purement « encore incertaine » ; trois ans est un temps suffisamment long pour que la plupart des choses aient une réponse orientée. Parlons-en en détail par groupes.
II. Ceux qui étaient justes
Ce groupe a en commun que Wang Jianshuo a correctement anticipé la direction, le mécanisme, et même le rythme temporel. Les erreurs ne portent que sur le « degré » et les « formulations catégoriques ».
RAG et architecture de recherche (Points de vue 2, 3)
> En 2023, Wang Jianshuo disait : La méthode principale pour résoudre les problèmes de connaissance et d'hallucinations n'est pas de modifier le modèle, mais d'utiliser la recherche vectorielle pour y injecter des connaissances comme des « antisèches » ; l'architecture correcte est d'utiliser un moteur de recherche pour la récupération, et de donner les résultats au LLM.
C'est devenu le standard de facto de tous les produits d'IA aujourd'hui. RAG est devenu l'architecture par défaut de l'IA d'entreprise ; OpenAI, Google, Anthropic en ont fait une capacité de plateforme ; ChatGPT Search est littéralement « d'abord indexer et rechercher avec Bing, donner les résultats à GPT, puis générer une réponse avec citations ». Google AI Overviews utilise le « grounding » pour atteindre environ 2 milliards d'utilisateurs actifs mensuels, et Perplexity, une société basée uniquement sur cette architecture, a une valorisation d'environ 200 milliards de dollars.
Avant la sortie de GPT-4, alors que le secteur supposait par défaut « injecter des connaissances par fine-tuning », il a parié sur une « recherche externe sans toucher aux paramètres du modèle ». Le mécanisme et le timing étaient justes.
Pour être honnête : il envisageait une « recherche statique unique », alors que la réalité est plus complexe — contexte long, GraphRAG, recherche agentique sont venus le renforcer. Le débat de 2026 « RAG est mort » prouve précisément que la grande direction n'est pas morte ; ce qu'il rejette, c'est la « recherche naïve unique ». La conclusion est de passer à une recherche hybride, pas de revenir à la modification des paramètres du modèle. Autre point : le terme RAG a été introduit dans un article de Meta en 2020, il n'en est pas l'inventeur — il a simplement parié, dans la fenêtre d'opportunité, qu'il deviendrait dominant.
LUI est un nouveau continent (Point de vue 7)
> En 2023, Wang Jianshuo disait : La plus grande réalisation de ChatGPT n'est pas l'AIGC, mais d'avoir ouvert la voie au LUI (Interface Utilisateur en Langage Naturel). Cela restructurera l'interaction homme-machine comme l'a fait l'interface graphique, et donnera naissance à une nouvelle industrie bien plus vaste que « créer de grands modèles ».
La partie « nouveau continent » est presque entièrement juste. Le langage naturel est devenu la couche d'interaction dominante pour le grand public (ChatGPT : 900 millions d'utilisateurs actifs hebdomadaires), et a donné naissance à une nouvelle industrie indépendante — les agents, les agents de codage, la couche protocolaire se sont tous concrétisés. Sa phrase la plus spécifique, « bien plus vaste que créer des modèles », a été fortement confirmée : le protocole MCP est devenu le « standard du système d'exploitation » de l'ère LUI, adopté par OpenAI, Google, Microsoft en 2025, transféré à la Linux Foundation fin d'année ; Claude Code seul a généré environ 2,5 milliards de dollars de revenus annualisés.
Mais il a utilisé des formulations fortes comme « restructurer, remplacer l'interface graphique », ce qui, trois ans plus tard, apparaît comme une superposition et coexistence, pas un remplacement. Trois types de contre-exemples sont flagrants : un rapport du MIT montre que 95 % des projets pilotes d'IA générative en entreprise n'ont pas de ROI mesurable ; les agents « computer-use » (utilisation directe d'interface) ont un taux de réussite d'environ 78 % sur les jeux de tests pour les meilleurs modèles, à peine au niveau de référence humaine ; les appareils matériels purement vocaux sans écran ont presque tous échoué (Humane Pin a définitivement arrêté son service en 2025). Une formulation plus précise serait : LUI est une nouvelle couche d'interaction superposée à l'interface graphique.
Réseau d'agents et nouvelle adressage (Point de vue 9)
> En 2023, Wang Jianshuo disait : Dans environ dix ans, un « réseau d'agents » apparaîtra — les agents se connecteront automatiquement en langage naturel, s'invoqueront mutuellement, sans besoin d'API traditionnelles ; un tout nouveau système d'adressage de noms de domaine verra le jour. Ce système pourrait être fait « en deux ou trois ans ».
La direction est étonnamment juste. MCP, A2A (donné à la Linux Foundation, soutenu par plus de 150 organisations) résolvent l'invocation mutuelle d'agents ; le Agent Network Protocol utilise directement les DID du W3C pour un « adressage d'agents sans autorité centrale », visant un « réseau collaboratif de milliards d'agents » — ce qui est hautement similaire à son « nouveau système de noms de domaine ».
Deux corrections : premièrement, « plus besoin d'API » ne tient pas, les protocoles dominants utilisent des schémas structurés en sous-couche, essentiellement une norme superposée aux API ; deuxièmement, « fait en deux ou trois ans » ne s'est pas réalisé, les données de Gartner montrent qu'à fin 2026, seulement environ 17 % des organisations ont réellement déployé des agents. Il est intéressant de noter qu'à l'époque, il avait en fait stratifié son propos — l'ébauche « en deux ou trois ans », la maturité « en environ dix ans ». Le rythme de l'ébauche était très juste, le cycle de maturité est bien de l'ordre de la décennie. En séparant les deux couches, la qualité de cette prédiction est plus élevée qu'il n'y paraît.
La Chine pourra certainement créer des grands modèles utilisables (Points de vue 10, 20)
> En 2023, Wang Jianshuo disait : La Chine pourra certainement créer des grands modèles utilisables, et l'écart avec les meilleurs sera rapidement comblé en environ trois ans (analogie avec le navigateur QIHOO 360 rattrapant Netscape).
La chronologie de cette prédiction est étonnamment juste. L'AI Index de Stanford 2026 mesure un écart de référence entre les modèles chinois et américains de pointe qui est passé de 17,5–31,6 points de pourcentage en mai 2023, à 2,7 % ; tandis que l'investissement privé américain dans l'IA est environ 23 fois supérieur à celui de la Chine — ils ont comblé l'écart avec un investissement bien moindre. DeepSeek, Qwen, Kimi, GLM sont devenus des acteurs mondiaux majeurs, l'écosystème open source est même en avance.
Mais le mot « rapidement » était trop optimiste — la véritable maturité est survenue environ 14 mois plus tard, pas en « quelques mois ». Et il s'agit de rattraper l'utilisabilité, pas de définir la frontière : début 2026, aucun modèle chinois ne dépasse encore OpenAI o3. Dans le point de vue 20, son erreur est flagrante : son jugement selon lequel « une fois la porte ouverte, elle ne se refermera pas » a été directement contredit par OpenAI, qui a volontairement coupé l'API pour la Chine en juillet 2024, la porte a été fermée par le fournisseur ; le modèle qu'il citait comme leader, Wenxin Yiyan (ERNIE Bot), a perdu du terrain, et ceux qui ont réellement pris le relais étaient des modèles alors obscurs comme DeepSeek, Doubao, Qianwen.
Pas de conscience, le test de Turing ne mesure que l'apparence (Point de vue 13)
> En 2023, Wang Jianshuo disait : ChatGPT n'a pas de conscience, c'est du « locuteur sans intention, auditeur avec sentiments » ; le test de Turing ne mesure que « si ça vous fait croire qu'il en a », pas s'il en a réellement.
Le jugement central « mesurer l'apparence » tient bon, et a même été ironiquement confirmé par une expérience : dans un test de Turing de l'UC San Diego en 2025, GPT-4.5, avec un prompt pour « jouer un rôle humain », a été jugé humain à 73 %, plus que de vraies personnes, mais uniquement grâce à des techniques de jeu — c'est la meilleure illustration de « mesurer seulement si ça vous fait croire qu'il en a ».
Il faut ajouter : l'affirmation catégorique « la machine n'a certainement pas de conscience » a été poussée dans une zone grise en trois ans. Anthropic a créé un poste de recherche sur le « bien-être des modèles », évaluant une probabilité de conscience d'environ 15–20 %, et a ajouté à Claude une fonction pour « mettre fin activement aux conversations abusives ». Cela a transformé « absolument pas » en « faible probabilité mais impossible à exclure ». Cependant, c'est basé sur des « possibles, hypothèses à faire » et non sur des « preuves », le cœur n'est pas renversé, mais son ton était trop définitif à l'époque.
Les autres prédictions justes (Points de vue 6, 11, 12, 16, 18, 19)
- Pas une AGI, mais un grand pas en avant
: Les deux tiennent. Altman lui-même à l'époque de GPT-5 dit encore « pas une AGI, manque d'apprentissage continu » ; en même temps, médailles d'or aux Olympiades Internationales de Mathématiques, score ARC-AGI passant de près de zéro à 85 %, « un grand pas en avant » est incontestable. - Pas de vague de chômage
: En avril 2026, le taux de chômage américain n'est que de 4,3 %. L'angle mort est la « distribution » — une étude de Stanford montre que ce sont précisément les jeunes débutants de 22-25 ans, premier échelon de l'échelle professionnelle, qui sont évincés, le mécanisme de « transition fluide » échoue pour eux. - Pas submergé par les déchets d'IA
: La direction de l'effet net positif est juste, mais il a gravement sous-estimé l'ampleur — le contenu généré par IA représente environ 52 % des nouvelles pages web, « AI slop » est devenu le mot de l'année. - Grande année pour les startups
: Le point d'inflexion de la vague est correct, xAI (créé en mars 2023) a atteint une valorisation de 230 milliards. Mais il a enfermé les « grandes entreprises » en 2023 de manière trop restrictive — les véritables entreprises de l'ordre du trillion, OpenAI et Anthropic, ont été créées plus tôt. - Le moment navigateur de 1994
: Le classement relatif s'est concrétisé, OpenAI a réellement lancé le navigateur Atlas en 2025, transformant la métaphore en réalité littérale. Seulement, ChatGPT s'est diffusé plus rapidement que les navigateurs, la métaphore était plutôt conservatrice. - Prompt avec faits injectés réduit les hallucinations
: La direction est confirmée, GPT-5 hors ligne sans recherche a un taux d'hallucination montant à 47 %, prouvant par contraste que les « faits » sont une variable clé. Il a seulement sous-estimé que la cause racine est l'incitation à l'entraînement, pas le prompt.
III. Ceux qui étaient erronés ou partiellement faux
GPT-4 a 100T de paramètres (Point de vue 4) — Complètement faux
> En 2023, Wang Jianshuo disait : (Rumeur) GPT-4 a 100T de paramètres, environ 600 fois plus que les 175B de GPT-3.
Les deux chiffres sont faux. GPT-3 a 175B, la meilleure estimation de la fuite de juillet 2023 est que GPT-4 a environ 1,8T, un MoE à 16 experts, seulement environ 10 fois plus. 100T est à un ordre de grandeur d'environ 55 fois différent de la réalité. La seule source de « 100T » est une affirmation indirecte approximative du PDG de Cerebras en 2021, Sam Altman avait déjà qualifié ce graphique de comparaison de « complete bullshit » en janvier 2023.
Il avait marqué « rumeur » dans son propos initial, préservant une incertitude. À un niveau plus profond, le cadre « mesurer les générations par le multiple de paramètres » est lui-même dépassé : les GPT-4.5, GPT-5 suivants d'OpenAI ne publient plus les quantités de paramètres. C'est la seule prédiction à la fois numériquement fausse et dont la perspective est dépassée.
Mathématiques des LLM (Point de vue 1) — Diagnostic juste, conclusion plafonnante erronée
> En 2023, Wang Jianshuo disait : Les LLM sont mauvais en maths par nature, leur faire apprendre les maths par eux-mêmes est à la fois impossible et inutile, la bonne approche est de leur adjoindre des outils externes.
Le « diagnostic plus la voie des outils » est entièrement juste — la cause racine est bien la génération token par token rendant la retenue peu fiable (un article sur les mécanismes en 2025 confirme précisément l'intuition « dernier chiffre souvent juste, chiffre du milieu souvent faux ») ; l'amélioration par les outils externes est également énorme (o4-mini avec Python autorisé atteint 99,5 % à l'AIME 2025).
L'erreur réside dans les formulations plafonnantes « impossible, inutile ». « Impossible » a été infirmé — en juillet 2025, Gemini Deep Think et un modèle OpenAI ont obtenu une médaille d'or aux Olympiades Internationales de Mathématiques en utilisant uniquement du langage naturel pur, sans outils. Le tournant clé a été l'apparition des « modèles de raisonnement » en 2024–2025, ce qui était imprévisible en mars 2023 — donc pour cette prédiction, il faut juger la direction avec clémence, pas blâmer le timing.
Capture de valeur (Point de vue 8) — Pari à moitié gagné, affirmation centrale à l'envers
> En 2023, Wang Jianshuo disait : La valeur finira par se situer au niveau applicatif, les entreprises qui créent la couche de base (les fabricants de modèles) ne finiront pas nécessairement par être rentables.
L'argent a effectivement commencé à affluer vers la couche applicative (Cursor atteint 2 milliards de revenus annualisés en trois ans) — c'est à moitié juste. Mais « les fabricants de la couche de base ne sont pas rentables » est directement contredit par Nvidia : bénéfice net FY2026 ~120 milliards de dollars, valorisation 5 000 milliards+, c'est le seul acteur du marché clairement très rentable. Alors que la couche des modèles, qu'il sous-entendait gagnante (OpenAI prévoit une perte d'environ 14 milliards en 2026), ressemble plutôt à la « couche de base qui brûle de l'argent sans être rentable » qu'il décrivait.
Il n'a pas distingué « la couche de base de calcul » de « la couche de base des modèles », ni distingué « revenus » et « bénéfices ». En 2026, la valeur est capturée de manière encore plus extrême par la couche de calcul que par la couche applicative. Il faut ajouter : ceux qui perdent de l'argent sont les fournisseurs de cloud qui achètent les puces, pas Nvidia qui les vend — ce qui est précisément le décalage de son analogie « surconstruction ferroviaire ».
Droits d'auteur (Point de vue 14) — L'enregistrement juste, l'évasion de l'infraction erronée
> En 2023, Wang Jianshuo disait : Le contenu généré par IA pourrait contourner le droit d'auteur (protège l'expression, pas l'idée) ; les productions pourraient à la fois ne pas enfreindre et ne pas pouvoir être enregistrées.
« Ne pas pouvoir être enregistré » est devenu un fait juridique établi (le US Copyright Office a clarifié en 2025 que « le simple fait d'entrer un prompt ne suffit pas à revendiquer la paternité »). Mais « contourner l'infraction » est clairement faux : les tribunaux ont à plusieurs reprises déterminé que si la sortie IA est substantiellement similaire à l'œuvre originale, elle constitue toujours une infraction ; Anthropic a conclu un règlement de 1,5 milliard de dollars pour des données d'entraînement piratées, le plus gros dédommagement pour droits d'auteur de l'histoire des États-Unis. L'IA n'a pas « contourné » le droit d'auteur, elle a plutôt payé le plus gros prix de l'histoire.
Harmonie mondiale (Point de vue 15) — Le mécanisme juste, la tendance pariée à l'envers
> En 2023, Wang Jianshuo disait : ChatGPT fait une « moyenne pondérée » des opinions humaines, ce qui pourrait contrer les chambres d'écho de type TikTok, et offrir la possibilité d'une « harmonie mondiale ».
Au niveau du mécanisme, c'est juste — plusieurs études en 2025 confirment que les LLM compressent les opinions vers la majorité, sous-estimant systématiquement les opinions minoritaires. Mais le jugement social est parié à l'envers : sa propre précision « au moins pour l'instant, ce n'est pas personnalisé » a été renversée en trois ans — OpenAI a, à partir d'avril 2025, fait de la mémoire trans-dialogues et de la personnalisation des capacités par défaut, l'IA évolue rapidement vers le personnalisé. Plus crucial encore, il imaginait la « moyenne pondérée » comme une convention mondiale neutre, mais les tests montrent qu'il s'agit d'un décalage directionnel, avec en plus de la complaisance, pouvant être utilisé pour manipuler activement les positions — cela pointe vers « créer de nouvelles chambres d'écho », pas « dissoudre la polarisation ».
Guerres locales et coût (Point de vue 17) — Qualitatif entièrement juste, quantitatif infirmé
> En 2023, Wang Jianshuo disait : Créer de nouveaux grands modèles deviendra rapidement une « guerre locale », le coût est connu (environ 5-10 milliards de dollars plafond, en enlevant les détours), de nombreux acteurs entreront.
La direction qualitative est étonnamment juste — afflux massif de joueurs, marchandisation rapide, l'open source rattrape le propriétaire, tout cela s'est réalisé. Mais le chiffre dur « 5-10 milliards plafond » est faux des deux côtés : côté frontière, il est gravement sous-estimé (entraînement de niveau GPT-5 en 2026 atteint 2-5 milliards de dollars, plus des centres de données de plusieurs centaines de milliards et Stargate à 5000 milliards) ; côté réplication, il est surestimé (DeepSeek a réduit le coût marginal d'entraînement au niveau du million de dollars). Le « coût » d'un même modèle peut varier de 200 fois selon la définition, mais n'est certainement pas dans l'intervalle qu'il a donné.
Capacités émergentes (Point de vue 5) — Direction juste, chiffres et cadrage erronés
> En 2023, Wang Jianshuo disait : Au-dessus d'environ 60B de paramètres, apparaissent des capacités nouvelles, absentes des données d'entraînement brutes et que les chercheurs ne peuvent expliquer.
L'intuition directionnelle est valide, mais deux formulations ne tiennent pas : premièrement, il n'y a pas de « seuil de 60B » unifié — le vrai seuil pour le raisonnement en chaîne est d'environ 100B, différentes capacités apparaissent à des échelles allant de 13B à 540B ; deuxièmement, « inexplicable » a été remis en question dès fin 2023 par un article remarqué à NeurIPS — de nombreuses « transitions abruptes » sont des artefacts dus au choix des métriques d'évaluation, la courbe devient lisse et prédictible avec des métriques continues. Pour être juste, à l'époque, il rapportait le récit absolument dominant, ce qui est vraiment corrigeable, c'est de prendre « 60B » comme seuil dur et « inexplicable » comme conclusion qualitative.
IV. Retour sur trois ans, quelques tendances
Après avoir fait le point point par point, en prenant du recul, ces vingt jugements de Wang Jianshuo cachent quelques tendances plus intéressantes à retenir que n'importe quel point individuel.
I. La direction est bien plus fiable que les chiffres et les degrés. Sur les vingt, tous les jugements sur les mécanismes et les directions (RAG, LUI, réseau d'agents, test de Turing) sont presque tous corrects ; tous ceux qui donnaient des chiffres précis ou des formulations plafonnantes (100T de paramètres, seuil de 60B, coût de 5-10 milliards, maths « impossibles ») sont presque tous erronés. Pour un domaine en évolution rapide, il vaut mieux miser sur la direction, sur le mécanisme, moins sur des chiffres précis, et surtout se méfier des mots définitifs comme « impossible, certain, plafond, absolument pas » — ce sont des zones à haut risque de se faire rattraper par le temps.
II. Sur le temps, il a tendance à surestimer la vitesse et à sous-estimer l'ampleur. Partout où il a dit « rapidement, fait en deux ou trois ans », la période de maturation est généralement plus longue ; mais pour le plafond des sauts de capacité, il a sous-estimé — les maths peuvent passer de « impossibles » à la médaille d'or aux Olympiades Internationales de Mathématiques, le coût de la frontière peut monter à des niveaux inimaginables à l'époque. En un mot : trop optimiste à court terme, trop prudent à long terme.
III. L'erreur la plus insidieuse revient constamment sur la « distribution ». Ce n'est pas une erreur de direction, mais regarder uniquement le total, en négligeant la distribution. « Pas de vague de chômage » est juste, mais les dégâts sont très concentrés sur les jeunes débutants ; « La valeur se situe au niveau applicatif » est à moitié juste, mais sans distinguer la couche de calcul de la couche des modèles. Le total est correct, mais cache une catastrophe de distribution — c'est la leçon la plus importante à tirer.
IV. Les endroits où il a laissé de la marge tiennent mieux l'épreuve du temps. « Rumeur », « au moins pour l'instant », « réduire fortement plutôt qu'éliminer », « ébauche en deux ou trois ans, maturité en environ dix ans » — tous les jugements qui, à l'époque, comportaient des qualifications ou étaient stratifiés, apparaissent aujourd'hui comme plus solides. En revanche, les phrases absolues lancées sans réfléchir sont les plus susceptibles de se retourner contre soi. L'honnêteté d'une prédiction réside pour moitié dans l'audace de l'énoncer, et pour l'autre moitié dans l'audace d'annoter ses propres incertitudes.
V. Certaines questions, trois ans ne suffisent tout simplement pas. À qui revient finalement la valeur, l'émergence est-elle une véritable rupture, la machine a-t-elle ne serait-ce qu'une once de conscience, le contexte long va-t-il « manger » le RAG — ces débats d'il y a trois ans sont toujours des débats en 2026. Savoir distinguer « ce qui a déjà une réponse » de « ce qui doit encore attendre » est plus important que de se précipiter pour tirer une conclusion sur tout.
Il y a trois ans, Wang Jianshuo, guidé par l'intuition, a pointé vingt directions dans le brouillard, avant même la sortie de GPT-4. Aujourd'hui, après ce bilan, la phrase la plus importante à retenir est peut-être : voir juste la grande direction n'est pas si difficile, ce qui est difficile, c'est d'admettre que l'on fait constamment des suppositions sur les chiffres, la vitesse et la distribution. Ces vingt points de bilan sont moins une notation du passé que des règles établies pour les trois prochaines années. Dans trois ans, en 2029, nous ferons à nouveau le point.










