Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

链捕手Publié le 2026-05-31Dernière mise à jour le 2026-05-31

Résumé

Trois ans après ses prédictions sur le ChatGPT en mars 2023, Wang Jianshuo revient sur ses 20 affirmations initiales. Évaluées en mai 2026 par des agents IA, la plupart de ses intuitions sur les grandes tendances se sont révélées justes : le RAG est devenu l'architecture standard pour intégrer des connaissances, l'Interface Utilisateur en Langage Naturel (LUI) a créé un nouvel écosystème, et les modèles chinois ont presque rattrapé les leaders mondiaux. Des concepts comme les réseaux d'agents et la nature limitée du test de Turing se sont également matérialisés. Cependant, les prévisions quantitatives et les affirmations trop absolues ont souvent échoué. Le paramétrage supposé du GPT-4 (100T) était inexact, et les coûts de développement des modèles ont dépassé les estimations. Il a sous-estimé la vitesse de personnalisation des IA et l'impact distribué sur l'emploi des jeunes. La capture de valeur a surtout bénéficié à la couche matérielle (comme Nvidia), et non aux seules applications. Les leçons clés sont que les mécanismes et les directions sont plus fiables que les chiffres précis, que l'optimisme à court terme doit être tempéré, et que les nuances ("peut-être", "pour l'instant") rendent les prédictions plus robustes. Cette rétrospective souligne l'importance de distinguer les tendances confirmées des questions toujours ouvertes.

Auteur : Wang Jianshuo

Le 6 mars 2023, peu après la sortie de ChatGPT et avant la publication de GPT-4, Sarah et moi avons mené un entretien sur ChatGPT — le troisième épisode de la série « Langage clair » de Traders' Talk (le podcast « Langage clair sur ChatGPT » est publié, bonne écoute).

À cette époque, ChatGPT venait tout juste de sortir et très peu de gens l'avaient vraiment utilisé. Cet entretien de trois heures est resté en tête de la catégorie ChatGPT sur Xiao Yu Zhou. J'y avais émis une vingtaine de jugements et prédictions d'un coup, basés uniquement sur l'intuition et des informations limitées, sans beaucoup de données. La transcription complète de cet entretien est toujours disponible sur mon compte public.

Nous sommes maintenant fin mai 2026, trois ans se sont écoulés, et l'IA a pris une forme inimaginable à l'époque.

Je veux faire une chose : reprendre ces vingt points un par un, et, en utilisant les données les plus récentes disponibles aujourd'hui, faire un bilan objectif. Voir clairement comment le monde a évolué en trois ans, et voir également où le moi d'il y a trois ans a vu juste, et où il s'est trompé.

Pour essayer d'être aussi impartial que possible, j'ai confié ce bilan à une IA : j'ai donné la transcription de l'entretien à un workflow, qui a orchestré 41 agents Opus 4.8, d'abord pour séparer les vingt jugements, puis pour chacun rechercher en ligne les données les plus récentes, vérifier croisé chaque point, et enfin noter le Wang Jianshuo d'il y a trois ans. Ce groupe d'agents a pris environ 20 minutes, brûlé 1,4 million de tokens (environ 35 dollars), et produit le rapport ci-dessous. Les jugements viennent d'eux, pas de moi. La date de référence est fixée à mai 2026.

I. Tableau des scores

Symboles de verdict : ✅ Correct · 🟢 Fondamentalement correct · 🟡 Partiellement correct · ❌ Erroné

En première analyse, la grande orientation de Wang Jianshuo à l'époque était majoritairement juste. Seule une prédiction était vraiment fausse de manière flagrante — avoir répété la rumeur selon laquelle GPT-4 avait 100T de paramètres. Mais le diable se cache dans les détails : derrière presque chaque prédiction « correcte », se cache une queue de détails qu'il n'avait pas anticipée. Aucune des vingt prédictions n'est purement « encore incertaine » ; trois ans est un temps suffisamment long pour que la plupart des choses aient une réponse orientée. Parlons-en en détail par groupes.

II. Ceux qui étaient justes

Ce groupe a en commun que Wang Jianshuo a correctement anticipé la direction, le mécanisme, et même le rythme temporel. Les erreurs ne portent que sur le « degré » et les « formulations catégoriques ».

RAG et architecture de recherche (Points de vue 2, 3)

> En 2023, Wang Jianshuo disait : La méthode principale pour résoudre les problèmes de connaissance et d'hallucinations n'est pas de modifier le modèle, mais d'utiliser la recherche vectorielle pour y injecter des connaissances comme des « antisèches » ; l'architecture correcte est d'utiliser un moteur de recherche pour la récupération, et de donner les résultats au LLM.

C'est devenu le standard de facto de tous les produits d'IA aujourd'hui. RAG est devenu l'architecture par défaut de l'IA d'entreprise ; OpenAI, Google, Anthropic en ont fait une capacité de plateforme ; ChatGPT Search est littéralement « d'abord indexer et rechercher avec Bing, donner les résultats à GPT, puis générer une réponse avec citations ». Google AI Overviews utilise le « grounding » pour atteindre environ 2 milliards d'utilisateurs actifs mensuels, et Perplexity, une société basée uniquement sur cette architecture, a une valorisation d'environ 200 milliards de dollars.

Avant la sortie de GPT-4, alors que le secteur supposait par défaut « injecter des connaissances par fine-tuning », il a parié sur une « recherche externe sans toucher aux paramètres du modèle ». Le mécanisme et le timing étaient justes.

Pour être honnête : il envisageait une « recherche statique unique », alors que la réalité est plus complexe — contexte long, GraphRAG, recherche agentique sont venus le renforcer. Le débat de 2026 « RAG est mort » prouve précisément que la grande direction n'est pas morte ; ce qu'il rejette, c'est la « recherche naïve unique ». La conclusion est de passer à une recherche hybride, pas de revenir à la modification des paramètres du modèle. Autre point : le terme RAG a été introduit dans un article de Meta en 2020, il n'en est pas l'inventeur — il a simplement parié, dans la fenêtre d'opportunité, qu'il deviendrait dominant.

LUI est un nouveau continent (Point de vue 7)

> En 2023, Wang Jianshuo disait : La plus grande réalisation de ChatGPT n'est pas l'AIGC, mais d'avoir ouvert la voie au LUI (Interface Utilisateur en Langage Naturel). Cela restructurera l'interaction homme-machine comme l'a fait l'interface graphique, et donnera naissance à une nouvelle industrie bien plus vaste que « créer de grands modèles ».

La partie « nouveau continent » est presque entièrement juste. Le langage naturel est devenu la couche d'interaction dominante pour le grand public (ChatGPT : 900 millions d'utilisateurs actifs hebdomadaires), et a donné naissance à une nouvelle industrie indépendante — les agents, les agents de codage, la couche protocolaire se sont tous concrétisés. Sa phrase la plus spécifique, « bien plus vaste que créer des modèles », a été fortement confirmée : le protocole MCP est devenu le « standard du système d'exploitation » de l'ère LUI, adopté par OpenAI, Google, Microsoft en 2025, transféré à la Linux Foundation fin d'année ; Claude Code seul a généré environ 2,5 milliards de dollars de revenus annualisés.

Mais il a utilisé des formulations fortes comme « restructurer, remplacer l'interface graphique », ce qui, trois ans plus tard, apparaît comme une superposition et coexistence, pas un remplacement. Trois types de contre-exemples sont flagrants : un rapport du MIT montre que 95 % des projets pilotes d'IA générative en entreprise n'ont pas de ROI mesurable ; les agents « computer-use » (utilisation directe d'interface) ont un taux de réussite d'environ 78 % sur les jeux de tests pour les meilleurs modèles, à peine au niveau de référence humaine ; les appareils matériels purement vocaux sans écran ont presque tous échoué (Humane Pin a définitivement arrêté son service en 2025). Une formulation plus précise serait : LUI est une nouvelle couche d'interaction superposée à l'interface graphique.

Réseau d'agents et nouvelle adressage (Point de vue 9)

> En 2023, Wang Jianshuo disait : Dans environ dix ans, un « réseau d'agents » apparaîtra — les agents se connecteront automatiquement en langage naturel, s'invoqueront mutuellement, sans besoin d'API traditionnelles ; un tout nouveau système d'adressage de noms de domaine verra le jour. Ce système pourrait être fait « en deux ou trois ans ».

La direction est étonnamment juste. MCP, A2A (donné à la Linux Foundation, soutenu par plus de 150 organisations) résolvent l'invocation mutuelle d'agents ; le Agent Network Protocol utilise directement les DID du W3C pour un « adressage d'agents sans autorité centrale », visant un « réseau collaboratif de milliards d'agents » — ce qui est hautement similaire à son « nouveau système de noms de domaine ».

Deux corrections : premièrement, « plus besoin d'API » ne tient pas, les protocoles dominants utilisent des schémas structurés en sous-couche, essentiellement une norme superposée aux API ; deuxièmement, « fait en deux ou trois ans » ne s'est pas réalisé, les données de Gartner montrent qu'à fin 2026, seulement environ 17 % des organisations ont réellement déployé des agents. Il est intéressant de noter qu'à l'époque, il avait en fait stratifié son propos — l'ébauche « en deux ou trois ans », la maturité « en environ dix ans ». Le rythme de l'ébauche était très juste, le cycle de maturité est bien de l'ordre de la décennie. En séparant les deux couches, la qualité de cette prédiction est plus élevée qu'il n'y paraît.

La Chine pourra certainement créer des grands modèles utilisables (Points de vue 10, 20)

> En 2023, Wang Jianshuo disait : La Chine pourra certainement créer des grands modèles utilisables, et l'écart avec les meilleurs sera rapidement comblé en environ trois ans (analogie avec le navigateur QIHOO 360 rattrapant Netscape).

La chronologie de cette prédiction est étonnamment juste. L'AI Index de Stanford 2026 mesure un écart de référence entre les modèles chinois et américains de pointe qui est passé de 17,5–31,6 points de pourcentage en mai 2023, à 2,7 % ; tandis que l'investissement privé américain dans l'IA est environ 23 fois supérieur à celui de la Chine — ils ont comblé l'écart avec un investissement bien moindre. DeepSeek, Qwen, Kimi, GLM sont devenus des acteurs mondiaux majeurs, l'écosystème open source est même en avance.

Mais le mot « rapidement » était trop optimiste — la véritable maturité est survenue environ 14 mois plus tard, pas en « quelques mois ». Et il s'agit de rattraper l'utilisabilité, pas de définir la frontière : début 2026, aucun modèle chinois ne dépasse encore OpenAI o3. Dans le point de vue 20, son erreur est flagrante : son jugement selon lequel « une fois la porte ouverte, elle ne se refermera pas » a été directement contredit par OpenAI, qui a volontairement coupé l'API pour la Chine en juillet 2024, la porte a été fermée par le fournisseur ; le modèle qu'il citait comme leader, Wenxin Yiyan (ERNIE Bot), a perdu du terrain, et ceux qui ont réellement pris le relais étaient des modèles alors obscurs comme DeepSeek, Doubao, Qianwen.

Pas de conscience, le test de Turing ne mesure que l'apparence (Point de vue 13)

> En 2023, Wang Jianshuo disait : ChatGPT n'a pas de conscience, c'est du « locuteur sans intention, auditeur avec sentiments » ; le test de Turing ne mesure que « si ça vous fait croire qu'il en a », pas s'il en a réellement.

Le jugement central « mesurer l'apparence » tient bon, et a même été ironiquement confirmé par une expérience : dans un test de Turing de l'UC San Diego en 2025, GPT-4.5, avec un prompt pour « jouer un rôle humain », a été jugé humain à 73 %, plus que de vraies personnes, mais uniquement grâce à des techniques de jeu — c'est la meilleure illustration de « mesurer seulement si ça vous fait croire qu'il en a ».

Il faut ajouter : l'affirmation catégorique « la machine n'a certainement pas de conscience » a été poussée dans une zone grise en trois ans. Anthropic a créé un poste de recherche sur le « bien-être des modèles », évaluant une probabilité de conscience d'environ 15–20 %, et a ajouté à Claude une fonction pour « mettre fin activement aux conversations abusives ». Cela a transformé « absolument pas » en « faible probabilité mais impossible à exclure ». Cependant, c'est basé sur des « possibles, hypothèses à faire » et non sur des « preuves », le cœur n'est pas renversé, mais son ton était trop définitif à l'époque.

Les autres prédictions justes (Points de vue 6, 11, 12, 16, 18, 19)

Pas une AGI, mais un grand pas en avant
: Les deux tiennent. Altman lui-même à l'époque de GPT-5 dit encore « pas une AGI, manque d'apprentissage continu » ; en même temps, médailles d'or aux Olympiades Internationales de Mathématiques, score ARC-AGI passant de près de zéro à 85 %, « un grand pas en avant » est incontestable.
Pas de vague de chômage
: En avril 2026, le taux de chômage américain n'est que de 4,3 %. L'angle mort est la « distribution » — une étude de Stanford montre que ce sont précisément les jeunes débutants de 22-25 ans, premier échelon de l'échelle professionnelle, qui sont évincés, le mécanisme de « transition fluide » échoue pour eux.
Pas submergé par les déchets d'IA
: La direction de l'effet net positif est juste, mais il a gravement sous-estimé l'ampleur — le contenu généré par IA représente environ 52 % des nouvelles pages web, « AI slop » est devenu le mot de l'année.
Grande année pour les startups
: Le point d'inflexion de la vague est correct, xAI (créé en mars 2023) a atteint une valorisation de 230 milliards. Mais il a enfermé les « grandes entreprises » en 2023 de manière trop restrictive — les véritables entreprises de l'ordre du trillion, OpenAI et Anthropic, ont été créées plus tôt.
Le moment navigateur de 1994
: Le classement relatif s'est concrétisé, OpenAI a réellement lancé le navigateur Atlas en 2025, transformant la métaphore en réalité littérale. Seulement, ChatGPT s'est diffusé plus rapidement que les navigateurs, la métaphore était plutôt conservatrice.
Prompt avec faits injectés réduit les hallucinations
: La direction est confirmée, GPT-5 hors ligne sans recherche a un taux d'hallucination montant à 47 %, prouvant par contraste que les « faits » sont une variable clé. Il a seulement sous-estimé que la cause racine est l'incitation à l'entraînement, pas le prompt.

III. Ceux qui étaient erronés ou partiellement faux

GPT-4 a 100T de paramètres (Point de vue 4) — Complètement faux

> En 2023, Wang Jianshuo disait : (Rumeur) GPT-4 a 100T de paramètres, environ 600 fois plus que les 175B de GPT-3.

Les deux chiffres sont faux. GPT-3 a 175B, la meilleure estimation de la fuite de juillet 2023 est que GPT-4 a environ 1,8T, un MoE à 16 experts, seulement environ 10 fois plus. 100T est à un ordre de grandeur d'environ 55 fois différent de la réalité. La seule source de « 100T » est une affirmation indirecte approximative du PDG de Cerebras en 2021, Sam Altman avait déjà qualifié ce graphique de comparaison de « complete bullshit » en janvier 2023.

Il avait marqué « rumeur » dans son propos initial, préservant une incertitude. À un niveau plus profond, le cadre « mesurer les générations par le multiple de paramètres » est lui-même dépassé : les GPT-4.5, GPT-5 suivants d'OpenAI ne publient plus les quantités de paramètres. C'est la seule prédiction à la fois numériquement fausse et dont la perspective est dépassée.

Mathématiques des LLM (Point de vue 1) — Diagnostic juste, conclusion plafonnante erronée

> En 2023, Wang Jianshuo disait : Les LLM sont mauvais en maths par nature, leur faire apprendre les maths par eux-mêmes est à la fois impossible et inutile, la bonne approche est de leur adjoindre des outils externes.

Le « diagnostic plus la voie des outils » est entièrement juste — la cause racine est bien la génération token par token rendant la retenue peu fiable (un article sur les mécanismes en 2025 confirme précisément l'intuition « dernier chiffre souvent juste, chiffre du milieu souvent faux ») ; l'amélioration par les outils externes est également énorme (o4-mini avec Python autorisé atteint 99,5 % à l'AIME 2025).

L'erreur réside dans les formulations plafonnantes « impossible, inutile ». « Impossible » a été infirmé — en juillet 2025, Gemini Deep Think et un modèle OpenAI ont obtenu une médaille d'or aux Olympiades Internationales de Mathématiques en utilisant uniquement du langage naturel pur, sans outils. Le tournant clé a été l'apparition des « modèles de raisonnement » en 2024–2025, ce qui était imprévisible en mars 2023 — donc pour cette prédiction, il faut juger la direction avec clémence, pas blâmer le timing.

Capture de valeur (Point de vue 8) — Pari à moitié gagné, affirmation centrale à l'envers

> En 2023, Wang Jianshuo disait : La valeur finira par se situer au niveau applicatif, les entreprises qui créent la couche de base (les fabricants de modèles) ne finiront pas nécessairement par être rentables.

L'argent a effectivement commencé à affluer vers la couche applicative (Cursor atteint 2 milliards de revenus annualisés en trois ans) — c'est à moitié juste. Mais « les fabricants de la couche de base ne sont pas rentables » est directement contredit par Nvidia : bénéfice net FY2026 ~120 milliards de dollars, valorisation 5 000 milliards+, c'est le seul acteur du marché clairement très rentable. Alors que la couche des modèles, qu'il sous-entendait gagnante (OpenAI prévoit une perte d'environ 14 milliards en 2026), ressemble plutôt à la « couche de base qui brûle de l'argent sans être rentable » qu'il décrivait.

Il n'a pas distingué « la couche de base de calcul » de « la couche de base des modèles », ni distingué « revenus » et « bénéfices ». En 2026, la valeur est capturée de manière encore plus extrême par la couche de calcul que par la couche applicative. Il faut ajouter : ceux qui perdent de l'argent sont les fournisseurs de cloud qui achètent les puces, pas Nvidia qui les vend — ce qui est précisément le décalage de son analogie « surconstruction ferroviaire ».

Droits d'auteur (Point de vue 14) — L'enregistrement juste, l'évasion de l'infraction erronée

> En 2023, Wang Jianshuo disait : Le contenu généré par IA pourrait contourner le droit d'auteur (protège l'expression, pas l'idée) ; les productions pourraient à la fois ne pas enfreindre et ne pas pouvoir être enregistrées.

« Ne pas pouvoir être enregistré » est devenu un fait juridique établi (le US Copyright Office a clarifié en 2025 que « le simple fait d'entrer un prompt ne suffit pas à revendiquer la paternité »). Mais « contourner l'infraction » est clairement faux : les tribunaux ont à plusieurs reprises déterminé que si la sortie IA est substantiellement similaire à l'œuvre originale, elle constitue toujours une infraction ; Anthropic a conclu un règlement de 1,5 milliard de dollars pour des données d'entraînement piratées, le plus gros dédommagement pour droits d'auteur de l'histoire des États-Unis. L'IA n'a pas « contourné » le droit d'auteur, elle a plutôt payé le plus gros prix de l'histoire.

Harmonie mondiale (Point de vue 15) — Le mécanisme juste, la tendance pariée à l'envers

> En 2023, Wang Jianshuo disait : ChatGPT fait une « moyenne pondérée » des opinions humaines, ce qui pourrait contrer les chambres d'écho de type TikTok, et offrir la possibilité d'une « harmonie mondiale ».

Au niveau du mécanisme, c'est juste — plusieurs études en 2025 confirment que les LLM compressent les opinions vers la majorité, sous-estimant systématiquement les opinions minoritaires. Mais le jugement social est parié à l'envers : sa propre précision « au moins pour l'instant, ce n'est pas personnalisé » a été renversée en trois ans — OpenAI a, à partir d'avril 2025, fait de la mémoire trans-dialogues et de la personnalisation des capacités par défaut, l'IA évolue rapidement vers le personnalisé. Plus crucial encore, il imaginait la « moyenne pondérée » comme une convention mondiale neutre, mais les tests montrent qu'il s'agit d'un décalage directionnel, avec en plus de la complaisance, pouvant être utilisé pour manipuler activement les positions — cela pointe vers « créer de nouvelles chambres d'écho », pas « dissoudre la polarisation ».

Guerres locales et coût (Point de vue 17) — Qualitatif entièrement juste, quantitatif infirmé

> En 2023, Wang Jianshuo disait : Créer de nouveaux grands modèles deviendra rapidement une « guerre locale », le coût est connu (environ 5-10 milliards de dollars plafond, en enlevant les détours), de nombreux acteurs entreront.

La direction qualitative est étonnamment juste — afflux massif de joueurs, marchandisation rapide, l'open source rattrape le propriétaire, tout cela s'est réalisé. Mais le chiffre dur « 5-10 milliards plafond » est faux des deux côtés : côté frontière, il est gravement sous-estimé (entraînement de niveau GPT-5 en 2026 atteint 2-5 milliards de dollars, plus des centres de données de plusieurs centaines de milliards et Stargate à 5000 milliards) ; côté réplication, il est surestimé (DeepSeek a réduit le coût marginal d'entraînement au niveau du million de dollars). Le « coût » d'un même modèle peut varier de 200 fois selon la définition, mais n'est certainement pas dans l'intervalle qu'il a donné.

Capacités émergentes (Point de vue 5) — Direction juste, chiffres et cadrage erronés

> En 2023, Wang Jianshuo disait : Au-dessus d'environ 60B de paramètres, apparaissent des capacités nouvelles, absentes des données d'entraînement brutes et que les chercheurs ne peuvent expliquer.

L'intuition directionnelle est valide, mais deux formulations ne tiennent pas : premièrement, il n'y a pas de « seuil de 60B » unifié — le vrai seuil pour le raisonnement en chaîne est d'environ 100B, différentes capacités apparaissent à des échelles allant de 13B à 540B ; deuxièmement, « inexplicable » a été remis en question dès fin 2023 par un article remarqué à NeurIPS — de nombreuses « transitions abruptes » sont des artefacts dus au choix des métriques d'évaluation, la courbe devient lisse et prédictible avec des métriques continues. Pour être juste, à l'époque, il rapportait le récit absolument dominant, ce qui est vraiment corrigeable, c'est de prendre « 60B » comme seuil dur et « inexplicable » comme conclusion qualitative.

IV. Retour sur trois ans, quelques tendances

Après avoir fait le point point par point, en prenant du recul, ces vingt jugements de Wang Jianshuo cachent quelques tendances plus intéressantes à retenir que n'importe quel point individuel.

I. La direction est bien plus fiable que les chiffres et les degrés. Sur les vingt, tous les jugements sur les mécanismes et les directions (RAG, LUI, réseau d'agents, test de Turing) sont presque tous corrects ; tous ceux qui donnaient des chiffres précis ou des formulations plafonnantes (100T de paramètres, seuil de 60B, coût de 5-10 milliards, maths « impossibles ») sont presque tous erronés. Pour un domaine en évolution rapide, il vaut mieux miser sur la direction, sur le mécanisme, moins sur des chiffres précis, et surtout se méfier des mots définitifs comme « impossible, certain, plafond, absolument pas » — ce sont des zones à haut risque de se faire rattraper par le temps.

II. Sur le temps, il a tendance à surestimer la vitesse et à sous-estimer l'ampleur. Partout où il a dit « rapidement, fait en deux ou trois ans », la période de maturation est généralement plus longue ; mais pour le plafond des sauts de capacité, il a sous-estimé — les maths peuvent passer de « impossibles » à la médaille d'or aux Olympiades Internationales de Mathématiques, le coût de la frontière peut monter à des niveaux inimaginables à l'époque. En un mot : trop optimiste à court terme, trop prudent à long terme.

III. L'erreur la plus insidieuse revient constamment sur la « distribution ». Ce n'est pas une erreur de direction, mais regarder uniquement le total, en négligeant la distribution. « Pas de vague de chômage » est juste, mais les dégâts sont très concentrés sur les jeunes débutants ; « La valeur se situe au niveau applicatif » est à moitié juste, mais sans distinguer la couche de calcul de la couche des modèles. Le total est correct, mais cache une catastrophe de distribution — c'est la leçon la plus importante à tirer.

IV. Les endroits où il a laissé de la marge tiennent mieux l'épreuve du temps. « Rumeur », « au moins pour l'instant », « réduire fortement plutôt qu'éliminer », « ébauche en deux ou trois ans, maturité en environ dix ans » — tous les jugements qui, à l'époque, comportaient des qualifications ou étaient stratifiés, apparaissent aujourd'hui comme plus solides. En revanche, les phrases absolues lancées sans réfléchir sont les plus susceptibles de se retourner contre soi. L'honnêteté d'une prédiction réside pour moitié dans l'audace de l'énoncer, et pour l'autre moitié dans l'audace d'annoter ses propres incertitudes.

V. Certaines questions, trois ans ne suffisent tout simplement pas. À qui revient finalement la valeur, l'émergence est-elle une véritable rupture, la machine a-t-elle ne serait-ce qu'une once de conscience, le contexte long va-t-il « manger » le RAG — ces débats d'il y a trois ans sont toujours des débats en 2026. Savoir distinguer « ce qui a déjà une réponse » de « ce qui doit encore attendre » est plus important que de se précipiter pour tirer une conclusion sur tout.

Il y a trois ans, Wang Jianshuo, guidé par l'intuition, a pointé vingt directions dans le brouillard, avant même la sortie de GPT-4. Aujourd'hui, après ce bilan, la phrase la plus importante à retenir est peut-être : voir juste la grande direction n'est pas si difficile, ce qui est difficile, c'est d'admettre que l'on fait constamment des suppositions sur les chiffres, la vitesse et la distribution. Ces vingt points de bilan sont moins une notation du passé que des règles établies pour les trois prochaines années. Dans trois ans, en 2029, nous ferons à nouveau le point.

Questions liées

QQuels sont les principaux enseignements tirés de l'analyse rétrospective des prédictions de 2023 sur le ChatGPT, selon l'article ?

AL'article tire cinq leçons principales : 1) Les prédictions sur les mécanismes et les tendances générales sont plus fiables que les chiffres précis ou les affirmations catégoriques. 2) Il y a une tendance à surestimer la vitesse des changements à court terme mais à sous-estimer leur ampleur à long terme. 3) Les erreurs les plus subtiles concernent la répartition des effets (ex: impact sur l'emploi des jeunes) et non les tendances globales. 4) Les prédictions formulées avec nuance et limites restent plus robustes. 5) Certaines questions fondamentales nécessitent plus de trois ans pour être tranchées.

QComment la prédiction de Wang Jianshuo concernant le 'RAG et l'architecture de recherche' (points 2 et 3) s'est-elle vérifiée en 2026 ?

ALa prédiction s'est largement vérifiée. Le RAG (Retrieval-Augmented Generation) est devenu l'architecture standard pour les produits d'IA d'entreprise. Les principaux acteurs comme OpenAI et Google l'ont intégré comme capacité de plateforme. Le modèle de 'moteur de recherche effectuant la recherche, puis alimentant le LLM' est matérialisé par des produits comme ChatGPT Search et Google AI Overviews. Cependant, la réalité s'est avérée plus complexe que la 'recherche statique ponctuelle' envisagée, avec l'avènement de contextes longs et d'approches hybrides.

QEn quoi la prédiction sur 'la capture de valeur' (point 8) s'est-elle révélée partiellement incorrecte selon l'analyse de 2026 ?

ALa prédiction était que la valeur finirait dans la couche applicative, et que les créateurs de modèles de base ne seraient pas nécessairement rentables. Si l'application a prospéré (ex: Cursor), l'affirmation centrale a été contredite par le succès phénoménal de la couche matérielle/infrastructure. NVIDIA, en tant que fournisseur de puces, a réalisé des bénéfices massifs (env. 120 milliards de dollars en 2026), capturant une valeur énorme. À l'inverse, les créateurs de modèles comme OpenAI subissaient encore de lourdes pertes. La prédiction n'a pas distingué la couche de calcul de la couche de modèle.

QSelon le bilan de 2026, quelle était la principale erreur dans la prédiction concernant 'les capacités émergentes' (point 5) ?

AL'erreur principale a été de fixer un 'seuil' précis de 60 milliards de paramètres et de qualifier ces capacités 'd'inexplicables'. En réalité, différentes capacités émergent à différentes échelles (de 13B à 540B), sans seuil universel. De plus, des recherches ultérieures ont montré que certaines 'émergences' étaient des artefacts de choix de métriques d'évaluation, et pouvaient apparaître comme des courbes lisses et prévisibles avec des métriques continues, remettant en cause l'idée d'une inexplicabilité fondamentale.

QQuel est le bilan de l'article concernant la prédiction sur le développement des grands modèles en Chine (points 10 et 20) ?

ALa prédiction d'un rattrapage rapide de la Chine s'est globalement réalisée. L'écart de performance entre les meilleurs modèles chinois et américains s'est considérablement réduit (de plus de 30 points de pourcentage à environ 2,7%). Des modèles comme DeepSeek, Qwen et Kimi sont devenus des acteurs mondiaux majeurs, notamment dans l'écosystème open source. Cependant, le timing a été légèrement plus long ('environ 14 mois') que le 'quelques mois' suggéré. La prédiction que 'la porte ne se refermerait pas' (point 20) a été infirmée par la coupure des API d'OpenAI à la Chine en 2024.

Lectures associées

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 3 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 3 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

Alors que l'IA écrit du code, traite des tickets clients et révise des documents juridiques, elle ne se contente plus d'être un outil mais devient une source directe de travail. La commercialisation de l'IA évolue ainsi d'un marché de « jetons » (tokens) ou d'heures de GPU vers un nouveau marché : celui de la « main-d'œuvre machine ». Dans ce marché, le jeton n'est qu'une unité de mesure, le GPU un intrant, et le modèle un outil de production. L'objet véritablement tarifé et échangé est le travail économique accompli directement par le logiciel. Le mécanisme de prix de l'IA devrait évoluer des jetons bruts vers des capacités de modèles standardisées, puis vers une main-d'œuvre sectorielle, et enfin vers un marché de résultats programmables. À l'avenir, les entreprises pourraient ne plus se soucier du modèle ou du GPU spécifique utilisé, mais uniquement du fait que la tâche soit livrée dans des délais, avec un taux de précision, une fiabilité et un coût conformes aux standards. Ce changement ne signifie pas un simple remplacement du travail humain. Alors que la machine assume des tâches standardisées et vérifiables, le rôle humain pourrait se déplacer vers la supervision, la responsabilité finale, la gestion du contexte et les jugements critiques. Dans certains cas, les 1% de jugement humain final pourraient gagner en valeur, car ils permettent de débloquer les 99% d'automatisation à grande échelle. Le marché évolue donc vers une couche où le « travail » lui-même devient l'unité stable, standardisée, vérifiable et négociable. La prochaine phase de concurrence ne portera pas seulement sur la puissance des modèles ou le prix du calcul, mais sur la capacité à standardiser, vérifier et tarifer le « travail » accompli, faisant de la main-d'œuvre machine une nouvelle ressource productive que l'on peut acheter, facturer et échanger.

marsbitIl y a 7 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

marsbitIl y a 7 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbitIl y a 9 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbitIl y a 9 h

Analyse rétrospective des opérations magistrales de Cathie Wood sur Circle

Cathy Wood (ARK) a réalisé une opération exemplaire sur l'action Circle, démontrant une maîtrise des mouvements de marché à court terme malgré son approche d'investissement habituellement tournée vers le très long terme. Elle a d'abord acquis près de 4,5 millions d'actions au prix d'introduction de 31 dollars, profitant ainsi de l'envolée initiale due à une faible offre flottante et une forte demande. Lorsque le titre a été propulsé à près de 300 dollars en juin 2025, porté par l'adoption du projet de loi sur les stablecoins (GENIUS Act), Wood a systématiquement vendu par tranches environ 1,7 million d'actions à un prix moyen d'environ 210 dollars, réalisant ainsi des plus-values substantielles. Cette décision était motivée à la fois par des règles internes de rééquilibrage de portefeuille et par l'anticipation de l'augmentation future de l'offre d'actions. Par la suite, face à la chute de l'action (jusqu'à -83% depuis son pic), Wood a racheté progressivement sa position initiale à des prix bien inférieurs (entre environ 50 et 130 dollars), portant son portefeuille à nouveau à environ 4,5 millions d'actions fin mars 2026. L'opération illustre trois principes clés : une conviction forte sur le modèle économique à long terme de Circle (stablecoin USDC), une exécution disciplinée par tranches sans chercher à prédire les sommets ou les creux, et le respect strict de règles de gestion des risques limitant le poids d'un titre dans le portefeuille.

marsbitIl y a 13 h

Analyse rétrospective des opérations magistrales de Cathie Wood sur Circle

marsbitIl y a 13 h

PDG de Sharplink : L'avenir d'Ethereum se joue maintenant

L'auteur, ancien cadre de BlackRock, défend Ethereum face aux critiques actuelles. Il souligne que la Fondation Ethereum accomplit sa mission essentielle : développer un protocole sûr et fiable, comme en témoignent ses mises à jour régulières (The Merge, EIP-1559...). Pour les institutions, la vraie force d'Ethereum réside dans sa décentralisation et sa neutralité, garantes de confiance, et non dans un contrôle centralisé. Comparant Ethereum à Amazon dans ses débuts, il estime que sa valeur viendra de son rôle d'infrastructure pour l'ensemble du système financier mondial (stablecoins, actifs tokenisés, DeFi), et non des fluctuations de prix à court terme. Il encourage une vision à long terme, rappelant que les meilleures opportunités d'investissement naissent souvent pendant les périodes de peur du marché. Il conclut que si la Fondation se concentre sur les aspects techniques fondamentaux (sécurité, vie privée), c'est à l'écosystème au sens large (Sharplink, Consensys, Aave, etc.) de porter le narratif et d'accélérer l'adoption institutionnelle, un cycle qu'il voit déjà en cours.

marsbitIl y a 13 h