Les grands modèles de langage cartonnent à tous les examens, mais s'éloignent encore plus de l'AGI : Que révèle cet article de recherche ?

marsbitPublié le 2026-05-28Dernière mise à jour le 2026-05-28

Résumé

Cet article remet en question les définitions actuelles de l'AGI (Intelligence Artificielle Générale), souvent basées sur des performances à des tests humains, que les grands modèles linguistiques dépassent désormais sans pour autant démontrer une véritable intelligence générale adaptative. S'appuyant sur un article de Michael Timothy Bennett, l'auteur critique l'approche dominante de « Scale-maxing » (maximisation de l'échelle), qui repose sur des quantités massives de données et de puissance de calcul pour mémoriser des réponses approximatives, mais échoue face à des problèmes nouveaux ou requérant une compréhension causale. La proposition centrale est de redéfinir l'AGI non pas comme une imitation de l'homme, mais comme un « scientifique artificiel ». Un tel système devrait posséder trois capacités clés : 1) une **capacité d'expérimentation active** pour acquérir des informations par interaction avec son environnement, 2) une **compréhension causale** (« savoir pourquoi ») et non pas seulement des corrélations, et 3) la capacité à **équilibrer exploration et exploitation** des connaissances sous contraintes de ressources (calcul, mémoire, énergie). L'article conclut que la voie vers l'AGI nécessitera une fusion de différentes méthodes (maximisation d'échelle, de simplicité, et d'affaiblissement des contraintes), et non pas seulement le perfectionnement des grands modèles. Les critères d'évaluation devraient ainsi évoluer vers des « benchmarks d'adaptation » mesurant la c...

Si quelqu'un vous dit que l'AGI (Intelligence Artificielle Générale) est déjà réalisée, comment juger s'il dit la vérité ou s'il exagère ?

Dans l'accord secret révélé entre OpenAI et Microsoft, le critère est un bilan financier – un système d'IA capable de générer au moins 100 milliards de dollars de profit serait considéré comme une AGI. Dans la bouche de Jensen Huang (NVIDIA), ce critère est le temps – elle doit apparaître d'ici cinq ans. Elon Musk, lui, a maintes fois prophétisé "une réalisation l'année prochaine".

Les grands pontes de l'industrie ne sont pas sur la même longueur d'onde. La source du problème n'est pas que certains mentent, mais que le concept même d'AGI ne possède tout simplement pas de critère universellement reconnu. Comme le souligne un chercheur indépendant dans le domaine de l'AGI, Bennett, dans son article, l'AGI a été réduite par le battage médiatique et la spéculation à un "test de Rorschach" – chacun y voit le reflet de sa propre imagination, pas un fait objectif. La scientifique Melanie Mitchell du Santa Fe Institute pense aussi que ce débat ne pourra être clarifié que par une recherche scientifique à long terme. (Lien vers l'article : https://arxiv.org/pdf/2503.23923)

C'est le dilemme le plus absurde de l'industrie de l'IA actuelle : nous fonçons à toute vitesse vers un objectif dont nous n'avons même pas clairement tracé la ligne d'arrivée.

2025, qui redessine la ligne de départ de l'AGI ?

Face à ce vide de définition, le monde académique a intensément commencé à "combler les vides" en 2025. Bengio et d'autres chercheurs mettent l'accent sur la "polyvalence" et la "compétence" ; DeepMind propose une "AGI distribuée", tentant de briser le mythe de l'omnicompétence d'un seul agent.

Mais le chercheur Michael Timothy Bennett de l'Université Nationale Australienne, dans un article soumis sur arXiv fin mars, apporte une réponse extrêmement provocatrice et pourtant on ne peut plus pertinente.

Il souligne que les définitions précédentes tournent toujours, en fin de compte, autour de la comparaison avec un "adulte éduqué". Bennett adopte la définition de l'intelligence du chercheur Pei Wang – considérer l'intelligence comme une capacité d'adaptation sous des ressources limitées – s'extrayant ainsi fondamentalement du cadre "ressembler à l'humain", et définit l'AGI comme un "scientifique artificiel".

Il propose qu'une véritable AGI devrait être un système capable, sous des contraintes réelles de calcul, de mémoire et d'énergie, de s'adapter de manière large, efficace et scientifique à de nouveaux environnements et tâches, comme le ferait un scientifique humain.

Ce qui est sous-entendu dans cette phrase est : le critère pour juger une AGI ne devrait pas être à quel point elle imite l'humain, mais à quel point sa capacité à "découvrir de nouvelles connaissances" est forte.

Pourquoi avons-nous besoin d'un nouveau critère de toute urgence ? Parce que les anciens – le test de Turing et les benchmarks humains – ont été explosés par les grands modèles de langage, mais nous nous éloignons de plus en plus de la véritable intelligence générale.

En 2025, si vous demandez à un grand modèle de pointe "Qu'est-ce qui est plus grand, 9.11 ou 9.9 ?", il pourrait encore vous répondre avec assurance que 9.11 est plus grand, parce que 11 est supérieur à 9. Pour résoudre une preuve d'inégalité mathématique complexe, même si un grand modèle devine la bonne réponse, son processus de raisonnement est souvent un fiasco logique.

Bennett met le doigt sur la cause profonde : les grands modèles actuels suivent la voie de "l'approximation par maximisation d'échelle" – utiliser des données massives et de la puissance de calcul pour stocker à l'avance des réponses approximatives à toutes sortes de tâches dans les poids du réseau. Dès qu'ils rencontrent un problème hors distribution jamais vu auparavant, ils sont immédiatement démasqués.

Plus mortel encore, les grands modèles n'ont pas de "capacité active". Ils ne peuvent pas mener activement des expériences pour vérifier des hypothèses, ils ne peuvent pas construire de chaînes causales de manière autonome, encore moins arbitrer entre "continuer à explorer" et "exploiter le connu".

Pour en revenir à la comparaison entre 9.11 et 9.9 – le grand modèle ne sait pas faire l'arithmétique, c'est qu'il n'a tout simplement pas construit de modèle causal sur la comparaison des nombres. Il utilise juste des probabilités pour deviner le fragment de texte qu'il a déjà vu et qui est le plus proche.

Le fossé entre la "capacité d'imitation" et la "capacité d'adaptation" est précisément ce que ce nouveau standard AGI cherche à mesurer.

La nouvelle échelle de l'intelligence : décomposer le "scientifique artificiel"

La raison pour laquelle ce cadre de Bennett mérite l'attention, c'est qu'il réduit l'AGI d'une question philosophique vague à un problème d'ingénierie quantifiable.

À ses yeux, une véritable AGI devrait aligner parfaitement son mode de comportement sur le paradigme de recherche du scientifique humain :

Premièrement, de "marionnette" à "expérimentateur actif".

L'IA d'aujourd'hui est un apprenant purement passif, elle ne peut que "regarder" les données qu'on lui donne. Mais un scientifique ne fait pas cela. Si un scientifique était enfermé dans une pièce inconnue, il ne resterait pas planté là à attendre des informations ; il pousserait la porte, tirerait la poignée, vérifierait les fenêtres – c'est cela "l'expérimentation active". Une véritable AGI doit être capable de planifier des expériences de manière autonome et d'obtenir des informations clés par interaction active.

Deuxièmement, de "savoir que c'est" à "savoir pourquoi c'est".

C'est le plus grand point faible de l'IA actuelle. Les grands modèles sont des "appreneurs de corrélations" extrêmes ; ils savent que la "pluie" est souvent associée au "sol mouillé", mais ils ne savent pas qui cause qui. Ce n'est qu'en comprenant la causalité que l'on peut, par ciel clair mais sol mouillé, déduire que c'est un arroseur qui est passé et non qu'il va bientôt pleuvoir. Sans compréhension causale, l'IA ne pourra jamais que tourner en rond dans la distribution de ses données d'entraînement, ce qui n'a rien à voir avec le "général".

Troisièmement, marcher sur un fil entre "exploration" et "exploitation".

Si on ne fait qu'explorer sans exploiter, on ne résout pas le problème immédiat avec toutes les connaissances acquises ; si on ne fait qu'exploiter sans explorer, on est impuissant dès que l'environnement change. Une AGI doit équilibrer dynamiquement cette contradiction sous contrainte de ressources – savoir ce qu'elle ne sait pas, et allouer sa puissance de calcul en conséquence.

En outre, Bennett ajoute une dimension très réaliste : la limitation énergétique. Inclure "l'énergie" dans la définition signifie qu'il trace une ligne de fond : l'intelligence véritable n'est pas de disposer de ressources infinies, mais de s'adapter avec élégance sous des ressources limitées. Une IA qui nécessite de consommer une centrale nucléaire pour résoudre un nouveau problème n'est qu'une calculatrice onéreuse, pas une AGI.

Réinitialisation de la voie vers l'AGI : dire adieu à la loi unique de mise à l'échelle (Scaling Law)

Sur la base de ce cadre, Bennett décompose les méthodes méta actuelles de construction de systèmes intelligents en trois catégories :

Scale-maxing (Maximisation de l'échelle) : La voie dominante actuelle des grands modèles, qui entasse frénétiquement les paramètres, les données et la puissance de calcul. Mais la limite est déjà visible : l'efficacité de l'échantillonnage et de l'énergie est extrêmement faible.

Simp-maxing (Maximisation de la simplicité) : Recherche une simplicité extrême de la structure du modèle, adhérant au rasoir d'Occam. Mais la simplicité est une propriété de la forme et non de la fonction – la définition du "plus simple" peut être totalement différente sous différentes machines de Turing, ce qui rend difficile d'échapper au piège de la subjectivité.

W-maxing (Maximisation de l'affaiblissement des contraintes) : Affaiblir autant que possible les contraintes fonctionnelles, laissant le système trouver la solution optimale par lui-même. Les expériences montrent que la seule W-maxing peut déjà améliorer les taux de généralisation de 110% à 500% sur des tâches spécifiques, mais elle nécessite d'explorer un espace infini de formes matérielles, rendant l'optimisation extrêmement difficile.

La conclusion de Bennett est extrêmement claire : bien que le Scale-maxing domine actuellement de manière absolue, l'AGI n'est certainement pas quelque chose que l'on peut atteindre par la force brute d'une seule méthode ; elle sera nécessairement une fusion de plusieurs méthodes méta.

Si la définition du "scientifique artificiel" est largement acceptée, l'industrie de l'IA connaîtra un transfert de paradigme profond.

Les critères d'évaluation changeront radicalement. Nous n'aurons plus besoin de voir à combien de points les grands modèles dépassent encore les humains sur les classements d'examens, mais d'établir un ensemble de "benchmarks d'adaptabilité" : plonger l'IA dans un environnement physique jamais vu auparavant, voir si elle peut découvrir des règles en un nombre limité d'interactions ; lui donner un nouveau jeu, voir si elle peut en comprendre les règles plus vite qu'un humain ; voire la laisser résoudre de vrais problèmes scientifiques, voir si elle peut proposer des hypothèses de manière autonome et concevoir des expériences pour les vérifier. Le cœur n'est plus "combien tu sais", mais "combien tu peux découvrir".

Les voies technologiques évolueront en conséquence. Le simple Scaling Law atteindra rapidement ses limites, car les données reçues passivement ne peuvent nourrir la causalité. Recherche et approximation, maximisation d'échelle et affaiblissement des contraintes – la réalisation de l'AGI sera nécessairement une fusion de multiples outils et méthodes méta, et non une extension d'une seule voie.

L'article de Bennett est important, non pas parce qu'il donne la réponse ultime à l'AGI, mais parce qu'il nettoie un coin de ce miroir flou nommé "intelligence". Il nous permet de voir que la réalisation de l'AGI n'est pas une itération linéaire des grands modèles, mais une réinitialisation de la voie.

À quoi devrait finalement ressembler une AGI ? La réponse ne se trouve pas dans ces conversations de plus en plus humaines, mais dans ces capacités à s'interroger activement sur le "pourquoi" et à aller vérifier la réponse de ses propres mains. Lorsque l'IA sortira vraiment de la brume du "test de Rorschach", elle ne se contentera plus d'imiter l'apparence humaine, mais elle possédera l'esprit du scientifique. (Cet article est initialement paru sur l'APP Titanium Media, auteur | Silicon Valley Tech News, éditeur | Zhao Hongyu)

Questions liées

QSelon l'article, quel est le principal problème de la définition actuelle de l'AGI ?

AL'article souligne que l'AGI n'a pas de définition claire et acceptée. Il est devenu un « test de Rorschach » où chacun projette ses propres attentes, manquant d'une ligne d'arrivée objective.

QQuelle nouvelle définition de l'AGI Michael Timothy Bennett propose-t-il ?

ABennett définit l'AGI comme un « scientifique artificiel », un système capable d'une adaptation scientifique large et efficace à de nouveaux environnements et tâches sous des contraintes réelles comme le calcul, la mémoire et l'énergie.

QPourquoi les tests basés sur les performances humaines (comme le test de Turing) sont-ils considérés comme inadéquats pour évaluer l'AGI aujourd'hui ?

AParce que les grands modèles de langage ont déjà surpassé les humains dans de nombreux tests de référence, mais ils échouent toujours sur des problèmes simples hors distribution (comme comparer 9.11 et 9.9) et manquent de capacités d'adaptation et de compréhension causale.

QQuelles sont les trois capacités clés que doit posséder un « scientifique artificiel » selon le cadre de Bennett ?

A1) Être un expérimentateur actif (non passif). 2) Comprendre les relations de cause à effet (« savoir pourquoi »). 3) Savoir équilibrer l'exploration de nouvelles informations et l'exploitation des connaissances existantes.

QL'article mentionne trois « méta-méthodes » pour construire des systèmes intelligents. Laquelle domine actuellement et quel est son principal inconvénient ?

ALa « Scale-maxing » (maximisation de l'échelle) domine actuellement. Son principal inconvénient est son inefficacité extrême en termes d'échantillons et d'énergie, et son incapacité à développer une véritable compréhension causale et une adaptation.

Lectures associées

Le jugement d'un VC crypto : Terminus atteint, tous les passagers descendez

Un capital-risqueur israélien spécialisé dans les crypto-monnaies, Collider, constate une rupture majeure dans l'industrie. L'ère de l'adoption massive par les particuliers et les idéaux décentralisés est révolue. Les derniers cycles ont révélé que de nombreux petits investisseurs recherchaient avant tout des paris spéculatifs, comme les memecoins, plutôt qu'un nouveau système financier. Pendant ce temps, les grandes institutions (banques, géants du paiement) sont entrées en force. Leur motivation n'est pas l'idéologie crypto, mais l'efficacité radicale de la blockchain pour transférer des fonds. Des acteurs comme Larry Fink (BlackRock) évoquent la tokenisation comme une transformation fondamentale de la finance, visant un marché de 140 000 milliards de dollars. Ces institutions ne rejoignent pas le monde décentralisé existant. Elles construisent leurs propres "jardins clos" (comme les réseaux Canton, Zero) en reprenant la technologie blockchain tout en rejetant ses principes d'ouverture et de permissionless. Elles conservent le contrôle, la confidentialité et les profits. L'évolution a mené à une destination finale : l'**économie des actifs numériques**. La crypto n'est plus une industrie à part mais une couche infrastructurelle invisible. Le futur est la tokenisation de tous les actifs (immobilier, crédit, obligations), principalement via des canaux traditionnels régulés. Le conseil aux entrepreneurs et investisseurs est de changer de mentalité : penser en vétérans de la fintech, comprendre les besoins et les craintes réglementaires des institutions, et construire des solutions qui s'intègrent à leur monde. Les investissements doivent désormais se concentrer sur des projets ayant de réelles barrières à l'entrée, une utilité tangible et une adoption institutionnelle. Les institutions sont le nouveau canal de distribution qui amènera les prochains milliards d'utilisateurs et de milliers de milliards de dollars dans l'économie numérique, souvent sans qu'ils ne sachent qu'ils utilisent une blockchain.

marsbitIl y a 9 mins

Le jugement d'un VC crypto : Terminus atteint, tous les passagers descendez

marsbitIl y a 9 mins

Anticiper les réponses avant de rendre sa copie ? Un ingénieur de Google piégé dans une affaire de délit d'initié sur Polymarket

Un ingénieur sécurité de Google, Michele Spagnuolo, a été inculpé par le parquet du district sud de New York pour fraude sur marchandises, fraude électronique et blanchiment d'argent. Il est accusé d'avoir utilisé des outils internes de Google pour consulter des données confidentielles sur les personnalités les plus recherchées en 2025, avant de placer des paris sur les marchés de prédiction correspondants sur Polymarket via un compte associé nommé « AlphaRaccoon ». Il aurait ainsi réalisé un profit de plus de 1,2 million de dollars. Les autorités ont retracé le parcours des fonds : après le retrait de Polymarket, les gains ont transité par divers services d'échange et outils de confidentialité avant d'atterrir sur un compte de traitement de paiements en Italie ouvert au nom de Spagnuolo. Google a déclaré coopérer avec l'enquête et avoir suspendu l'employé, soulignant que l'utilisation d'informations internes confidentielles pour trader viole gravement sa politique. Cette affaire intensifie la pression réglementaire sur Polymarket, déjà confronté à des interdictions dans plusieurs pays comme l'Espagne et l'Indonésie pour son absence de licence de jeu. La plateforme cherche à atténuer ces risques en mettant en œuvre des procédures de vérification d'identité (KYC) et en soulignant sa collaboration avec les autorités américaines ainsi que la traçabilité inhérente aux transactions blockchain. L'affaire soulève des questions cruciales sur l'origine des informations utilisées par les traders sur les marchés de prédiction.

Odaily星球日报Il y a 20 mins

Anticiper les réponses avant de rendre sa copie ? Un ingénieur de Google piégé dans une affaire de délit d'initié sur Polymarket

Odaily星球日报Il y a 20 mins

TermMax et Renaiss suscitent un intérêt croissant : comment s'impliquer dans ces deux projets incubés par YZi Labs ?

TermMax et Renaiss, deux projets incubés par YZi Labs dans le cadre du programme EASY Residency, voient leur popularité augmenter. TermMax est un protocole DeFi de prêt à taux fixe et à durée déterminée, souvent appelé "AMM de prêt". Il permet aux emprunteurs de verrouiller leur coût de financement et aux prêteurs de connaître leur rendement à l'avance. Inspiré par Uniswap V3, il tokenise l'exposition au levier et aux rendements fixes. Son TVL a dépassé 71 millions de dollars. La version V2, récemment lancée, améliore l'efficacité des liquidités et de l'expérience utilisateur. Une opportunité d'interaction est disponible via la participation à la "Season 0" sur leur plateforme pour gagner des points. Renaiss se concentre sur la tokenisation et la financiarisation d'actifs physiques de collection, comme les cartes à jouer, créant un réseau de liquidités pour ces RWA. Il résout les problèmes de garde, d'authentification et de liquidité du marché physique. La plateforme a dépassé 15 millions de dollars de volume d'échange. Récemment, elle a lancé et rapidement épuisé des packs de cartes "Magma Pack" et annoncé la future sortie de packs "Eden Pack" sur le thème de *One Piece*. Les utilisateurs peuvent interagir en achetant ces packs de cartes sur son site officiel.

Odaily星球日报Il y a 1 h

TermMax et Renaiss suscitent un intérêt croissant : comment s'impliquer dans ces deux projets incubés par YZi Labs ?

Odaily星球日报Il y a 1 h

Bulletin du Matin | Coinbase s'associe à Standard Chartered pour élargir ses canaux de monnaies fiduciaires multiples ; Sharplink et Forward intégrés aux indices Russell ; JPMorgan pourrait éventuellement émettre un stablecoin

Ce résumé en français présente les principales informations du marché des cryptomonnaies du 28 mai. **Actualités majeures :** * **Coinbase** élargit ses canaux de règlement en monnaies fiduciaires grâce à un partenariat avec **Standard Chartered**, prenant désormais en charge l'AUD, le SGD, le CAD, le CHF, l'EUR et le GBP. * Les sociétés **Sharplink** et **Forward Industries**, détenant respectivement d'importantes réserves d'ETH et de SOL, seront intégrées aux **indices Russell**, offrant une exposition indirecte à ces cryptomonnaies aux investisseurs institutionnels. * Le PDG de **JPMorgan Chase**, Jamie Dimon, a évoqué la possibilité future que la banque émette sa propre **stablecoin**. * **Tom Lee** de Fundstrat prévoit un "super-cycle" pour le marché des cryptos, porté par la tokenisation des actifs traditionnels et le développement des agents IA, bénéficiant particulièrement à **Ethereum**. * L'Autorité monétaire de Hong Kong (**HKMA**) a introduit trois nouvelles mesures de contrôle pour les comptes d'investissement des résidents chinois continentaux, incluant une vérification rétroactive des documents depuis janvier 2023. * La plateforme de marchés de prédiction **Polymarket** envisage d'imposer le **KYC** (Know Your Customer) à ses utilisateurs pour atténuer les risques liés aux sanctions et à la conformité. **Autres points notables :** * **Analyse de marché :** Un trader souligne que la période actuelle de pertes pourrait ne pas être suffisamment longue pour marquer le fond d'un marché baissier ("bear market"). * **Régulation :** Aux États-Unis, les chances de voir la loi sur la structure des marchés cryptos (**CLARITY Act**) adoptée cette année diminuent en raison du climat politique. * **Innovation/Développements :** * **Vitalik Buterin** annonce se lancer dans l'écriture de science-fiction sur la gouvernance décentralisée. * **a16z crypto** note que de nombreux actifs tokenisés ne sont pas pleinement utilisables dans la DeFi, limitant leur "composabilité". * Le lancement d'un contrat perpétuel sur **SpaceX** par **Hyperliquid** soulève des questions sur un vide réglementaire. * **Falcon Finance** et **Anchorage** lancent **fUSD**, un stablecoin conforme destiné aux institutions. * **Tendances régionales :** * À Hong Kong, un ETF à effet de levier sur **SK Hynix** a vu ses actifs multipliés par 10 en un an. * En Corée du Sud, le volume des échanges de cryptomonnaies a chuté à environ 8% de celui du KOSPI, et la prime coréenne sur le Bitcoin reste négative. * **Perspective juridique :** La Cour populaire suprême de Chine a annoncé qu'elle étudierait les règles juridiques applicables aux nouveaux types d'affaires, dont celles concernant les **monnaies virtuelles**. **Performances des Meme Coins (24h) :** * **Ethereum :** HEX, SHIB, LINK, PEPE, mUSD * **Solana :** TROLL, SAOS, neet, WORLDCUP, Buttcoin * **Base :** toby, ELSA, cbETH, CYPR, ALB **Article à lire :** Un éditorial du fondateur de **Bankless** explique les raisons de sa décision de vendre tous ses ETH.

链捕手Il y a 1 h

Bulletin du Matin | Coinbase s'associe à Standard Chartered pour élargir ses canaux de monnaies fiduciaires multiples ; Sharplink et Forward intégrés aux indices Russell ; JPMorgan pourrait éventuellement émettre un stablecoin

链捕手Il y a 1 h

Pourquoi la tokenisation du marché immobilier, avec son potentiel de billions, n'a-t-elle pas décollé ?

La tokenisation de l'immobilier, bien que prometteuse pour démocratiser l'investissement et améliorer la liquidité, peine à décoller, représentant moins de 0,1% du marché mondial. L'écart entre la théorie et la réalité s'explique par une approche initiale centrée sur la technologie plutôt que sur les besoins des investisseurs, conduisant à des produits aux cadres juridiques et opérationnels flous. Le secteur souffre d'un déficit d'infrastructures essentielles : des droits de propriété légaux, des mécanismes de transfert conformes, une gestion professionnelle et une interopérabilité avec le système financier traditionnel. Cette absence de fondations solides dissuade les investisseurs institutionnels, pour qui l'incertitude réglementaire et la complexité ajoutée l'emportent sur les avantages potentiels. Des signaux positifs émergent, comme des régulations plus claires dans des juridictions comme les Émirats arabes unis. La discussion évolue vers la résolution des questions fondamentales de propriété et de protection légale. La valeur de la tokenisation réside non dans la création de nouveaux revenus, mais dans l'optimisation de l'accès, de l'efficacité et de la liquidité des actifs physiques existants. L'avenir du secteur dépendra de sa capacité à démontrer des opérations conformes à grande échelle et une valeur économique tangible, plutôt que de simples innovations techniques. Le principal frein n'est plus la technologie, mais bien les infrastructures et la conformité.

marsbitIl y a 1 h

Pourquoi la tokenisation du marché immobilier, avec son potentiel de billions, n'a-t-elle pas décollé ?