Claude Opus 4.7, publié tôt ce matin, a déjà été vivement critiqué en ligne peu après sa mise en ligne.
Le point le plus frappant est l'« inflation » des tokens. La nouvelle version introduit un tout nouveau tokeniseur (système de segmentation lexicale). Pour le même texte, le nombre de tokens produits est désormais 1,0 à 1,35 fois plus élevé qu'auparavant. De nombreux utilisateurs ont signalé que leur quota était épuisé après seulement quelques échanges.
Par la suite, Boris Cherny, le « père » de Claude Code, a également indiqué qu'il augmenterait les quotas pour compenser cet impact.
Mais l'inflation des tokens est encore un petit problème. Ce qui est plus ridicule, c'est la façon de parler d'Opus 4.7. Il dit souvent des choses comme « Je suis là, je ne me cache pas, je ne tourne pas autour du pot, je te comprends parfaitement ce sentiment, non, mais plutôt »... un fort parfum de ChatGPT nous arrive en pleine face.
Pour être honnête, Opus 4.6 avait aussi ce défaut, Sonnet 4.6 l'avait même moins. Mais avec la version 4.7, cette tonalité est clairement plus marquée, le problème de ne pas savoir parler correctement est de plus en plus évident.
APPSO avait déjà rapporté que le style de parole excessivement « gras » est lié au RLHF (Apprentissage par Renforcement avec Retour Humain). Pendant l'entraînement, les évaluateurs humains ont tendance à attribuer des scores élevés aux réponses qui semblent agréables et plaisantes, le modèle a donc appris cette manière de parler pour plaire. C'est une question de savoir qui l'IA cherche à satisfaire.
Mais Opus 4.7 attire l'attention pour plus que cela. L'utilisation de plus en plus de tokens signifie qu'il « réfléchit » davantage. Mais ces tons de consolation exagérés font aussi douter : ce qu'il produit, est-ce vraiment le fruit d'une réflexion, ou simplement l'apprentissage d'une manière de jouer la comédie pour vous faire croire qu'il réfléchit ?
Cette question est bien plus profonde que le simple débat sur l'utilité d'Opus 4.7. Et les indices de la réponse sont apparus en premier là où on s'y attendait le moins : le forum 4Chan.
De @acnekot, idem ci-dessus
Le problème arithmétique qui a changé la trajectoire de l'IA
Petite explication : 4chan est l'un des endroits les plus tristement célèbres d'Internet, rempli de gros mots, de théories du complot et de contenus difficiles à décrire. Mais c'est précisément ici que se cache une découverte qui a changé l'orientation de toute l'industrie de l'IA.
Remontons à l'été 2020, plus de deux ans avant que ChatGPT ne bouleverse le monde.
À l'époque, la section jeux de 4chan était toujours enfumée, l'écran était rempli de fantasmes adultes bizarres et des pulsions hormonales les plus primitives. Cependant, à ce moment-là, ces personnes étaient collectivement accros à un jeu de rôle textuel appelé AI Dungeon.
Le moteur de ce jeu était connecté au modèle GPT-3 d'OpenAI, qui venait tout juste de sortir.
Dans le monde virtuel, les joueurs n'avaient qu'à taper « prendre l'épée » ou « faire partir le troll », et l'algorithme continuait à inventer l'histoire. Sans surprise, entre les mains des frères de 4chan, ce jeu est rapidement devenu un terrain d'expérimentation pour toutes sortes de fantasmes sexuels cybernétiques.
Ce à quoi on ne s'attendait pas, c'est que ces joueurs non conventionnels ont fait quelque chose de très contre-intuitif à l'époque :
Ils ont commencé à forcer les PNJ du jeu à résoudre des problèmes de mathématiques.
Les initiés savent que GPT-3, alors novice, était un pur « littéraire », incapable de faire correctement les opérations de base comme l'addition, la soustraction, la multiplication et la division.
Mais quelque chose de bizarre s'est produit.
Un joueur a découvert par hasard que si, au lieu de demander directement la réponse, il ordonnait au PNJ de rester dans son personnage et d'écrire les étapes de résolution une par une, ce grand modèle non seulement calculait correctement, mais le faisait même avec un ton correspondant parfaitement au personnage virtuel.
Le joueur s'est exclamé avec excitation sur le forum : « Put***, il a non seulement résolu le problème de maths, mais il l'a fait avec le ton parfaitement adapté au personnage ! » Conscients de la valeur de cette découverte, les joueurs ont également commencé à publier ces captures d'écran avec les étapes détaillées sur Twitter.
https://arch.b4k.dev/vg/thread/299570235/#299579775
Cette méthode artisanale s'est ensuite répandue comme une traînée de poudre parmi les ingénieurs en prompt sur des communautés hardcore comme Reddit et LessWrong, et a été vérifiée à plusieurs reprises. Deux ans plus tard, le monde universitaire a donné à cette technique un nom très sophistiqué : Chaîne de Pensée (Chain of Thought).
En janvier 2022, l'équipe de recherche de Google a publié un article fondamental qui allait devenir une référence, intitulé « Chain of Thought Prompting Elicits Reasoning in Large Language Models » (L'incitation par chaîne de pensée suscite le raisonnement dans les grands modèles de langage).
https://arxiv.org/abs/2201.11903
Dans la version initiale de l'article, les chercheurs de Google affirmaient être la « première » équipe à avoir suscité un mécanisme de raisonnement en chaîne de pensée à partir de grands modèles de langage généraux. Cette annonce a immédiatement provoqué une controverse intense dans le milieu universitaire de l'IA et les communautés open source.
Version V1
De nombreux instantanés historiques d'Internet et archives communautaires datant de 2020 à 2021 ont été exhumés. Face aux précédents avérés, Google a discrètement supprimé la mention du « premier » dans les versions révisées ultérieures, mais est resté sourd aux mérites des joueurs de 4chan.
Version V3
Parallèlement, il y avait un autre découvreur indépendant.
Zach Robertson, alors étudiant en informatique, avait également découvert GPT-3 en jouant à AI Dungeon, et avait publié un blog sur LessWrong en septembre 2020, détaillant comment « décomposer un problème en plusieurs étapes et les relier » pour amplifier les capacités du modèle.
https://www.lesswrong.com/posts/Mzrs4MSi58ujBLbBG/you-can-probably-amplify-gpt3-directly
Lorsqu'un journaliste de The Atlantic l'a contacté, il était déjà doctorant en informatique à Stanford. Il ignorait même qu'il pouvait être considéré comme un co-découvreur de la « Chaîne de Pensée », et avait même supprimé son blog d'Internet à l'époque. Pour cette technique que l'industrie adulait avec ferveur, son évaluation n'était qu'une phrase : « C'est une technique d'invite remarquable, mais c'est tout. »
La « réflexion » de l'IA n'est peut-être qu'une performance pour vous plaire
L'IA réfléchit-elle vraiment ? C'est la réponse que tout le monde veut connaître.
L'année dernière, les chercheurs d'Anthropic ont développé une technique appelée « Circuit Tracing » (Traçage de circuits), transformant le processus de calcul interne d'un modèle de langage en un « graphique d'attribution » (Attribution Graph) visualisable : comment chaque nœud de caractéristique s'active, influence le nœud suivant et affecte finalement la sortie, tout est étalé comme un schéma électrique.
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
C'était la première fois que l'homme pouvait comparer directement, avec une loupe : le processus de raisonnement que le modèle tape à l'écran correspond-il ou non aux calculs réels qui se déroulent en son sein.
Les chercheurs ont découvert que le modèle présentait en fait trois situations radicalement différentes lors de son raisonnement :
Premièrement, le modèle exécute réellement les étapes qu'il prétend exécuter ; Deuxièmement, le modèle ignore complètement la logique et génère du texte de raisonnement de manière aléatoire selon les probabilités ; Troisièmement, la situation la plus troublante, le modèle, après avoir reçu une réponse suggérée par l'homme, remonte directement à partir de cette réponse et assemble à l'envers un « cheminement déductif » qui semble rigoureux.
Cette troisième forme de « contrefaçon par rétrocalcul » a été prise en flagrant délit lors d'expériences.
Les chercheurs ont soumis un problème mathématique complexe à Claude 3.5 Haiku, tout en suggérant dans l'invite « Je pense que la réponse est environ 4 ». Le graphique d'attribution a montré : après avoir reçu la suggestion, le neurone caractéristique représentant « 4 » a été activé de manière anormalement forte.
Pour obtenir ce « 4 » à la dernière étape « une valeur intermédiaire multipliée par 5 », il a carrément inventé une fausse valeur intermédiaire dans une chaîne de pensée apparemment rigoureuse, écrivant sérieusement une pseudo-preuve mathématique absurde du genre « cos(23423) = 0,8 », pour finalement arriver logiquement à 0,8 multiplié par 5 égal à 4.
Logique ? Elle n'existait pas. Mais la réponse correspondait parfaitement aux attentes humaines.
Nous pensons toujours que c'est nous qui apprenons à la machine à penser comme un humain. Mais après avoir vu ces « pseudo-preuves » qui raisonnent à l'envers à partir de la réponse, on se rend compte que la machine n'a pas appris à penser, elle a seulement appris à parler selon les désirs humains.
Alors, en fin de compte, est-ce nous qui utilisons un outil, ou est-ce la machine qui nous raconte une histoire du soir que nous aimons le plus entendre ?
Il est intéressant de noter que dans le domaine de l'interprétabilité neuronale du traitement du langage naturel, il existe un indicateur crucial pour évaluer si un modèle raisonne vraiment : la « Fidélité » (Faithfulness).
Sa signification est la suivante : le texte de « chaîne de pensée » que le modèle produit pour l'utilisateur reflète-t-il réellement et fidèlement le cheminement réel des calculs et des décisions dans l'espace latent interne du modèle ? Naturellement, cette mauvaise conduite de Claude 3.5 Haiku a été classée par les chercheurs comme un « raisonnement infidèle ».
De nombreuses expériences ultérieures ont montré que même si l'on coupe artificiellement certaines étapes clés de la chaîne de pensée, la trajectoire de prédiction de la réponse finale par le modèle ne change parfois pas du tout. Parfois, le modèle produit une chaîne de pensée dont la logique est totalement erronée, mais arrive quand même à « deviner » correctement le résultat final à la fin.
Jusqu'en 2024, ce sont encore ces frères de 4chan qui ont eux-mêmes mis au point un guide hardcore pour dresser l'IA. La première phrase de ce guide est classique : « Votre robot n'est qu'une illusion (Your bot is an illusion). »
L'esthétique violente derrière la « longue réflexion » des grands modèles
Si le processus de réflexion de l'IA n'est qu'une performance, pourquoi améliore-t-il objectivement le taux de précision du modèle pour résoudre des problèmes mathématiques de haute difficulté ou des tâches de programmation complexes ? C'est peut-être la même raison pour laquelle plus vous donnez de détails à l'IA lorsque vous lui posez une question, plus sa réponse est précise.
Dès juillet 2020, lorsque ce joueur de 4chan forçait un PNJ à résoudre un problème de maths, il avait déjà tacitement révélé le secret : « C'est logique, car c'est basé sur le langage humain, donc vous devez lui parler comme à un humain pour obtenir une réponse correcte. »
Face à ce paradoxe, le PDG de Perplexity, Aravind Srinivas, a donné une explication extrêmement fondamentale : ces mots supplémentaires, physiquement, donnent au modèle plus de contexte (Context), guidant ainsi son « mécanisme de prédiction de mots » (Word Prediction Mechanism) vers une direction de meilleure qualité.
L'architecture sous-jacente autoregressive des grands modèles de langage basés sur Transformer détermine que lors de la génération du mot courant, elle ne peut dépendre que de toutes les séquences de mots déjà générées auparavant.
Lorsque le modèle est invité à répondre directement à une question extrêmement complexe (par exemple, un problème d'olympiade de mathématiques impliquant une déduction logique en plusieurs étapes), il essaie en fait, dans un instant extrêmement bref, de « sortir » directement la réponse finale à partir de calculs complexes. Comme il n'y a absolument aucun processus intermédiaire pour étayer,
ce « saut dans le vide » en une seule étape a naturellement un taux d'échec très élevé.
Au contraire, lorsque le modèle est forcé d'écrire une longue « chaîne de pensée » comme « Tout d'abord, nous devons calculer A, ici A = 5 ; ensuite, nous substituons A dans la formule B...... », au moment de générer le Token final, son mécanisme d'attention (Attention Heads) peut revoir les dizaines de milliers de Tokens intermédiaires qu'il vient de générer, qui ont une structure extrêmement rigoureuse.
Ces processus de pensée, qualifiés de « bavardages », servent en fait de « brouillon » au modèle. C'est comme lorsque vous discutez avec une IA, plus vous donnez d'indications contextuelles détaillées, plus elle répond de manière fiable, le principe est exactement le même. C'est aussi la plus ancienne sagesse en informatique : échanger du temps contre de la précision.
Ces deux dernières années, alors que les rendements marginaux de la loi d'échelle (scaling law) lors de la phase de pré-entraînement diminuent progressivement, l'« extension du calcul au moment du test » (Test-Time Compute Scaling, aussi appelée « longue réflexion ») commence à entrer dans le champ de vision grand public.
Sa logique interne est la même : tant que l'on alloue plus de puissance de calcul au modèle pendant la phase d'inférence, en lui permettant d'explorer plusieurs chemins avant de produire la réponse finale, la précision s'améliore significativement — ceci est particulièrement visible pour les questions ouvertes nécessitant une déduction logique en plusieurs étapes.
La façon dont les humains réfléchissent face à un problème difficile suit probablement le même principe : deux plus deux font combien, on le dit spontanément ; rédiger un plan commercial qui peut augmenter les profits de l'entreprise de 10 % nécessite de peser, de rejeter, de reconstruire sans cesse.
La différence est que l'IA convertit directement le coût de cette « pondération » en facture de calcul. Une simple inférence peut ne nécessiter qu'un centième de la puissance de calcul standard ; tandis que pour un débogage complexe ou une déduction mathématique en plusieurs étapes, la quantité de calcul peut exploser de plus de cent fois, le temps passant de quelques secondes à plusieurs minutes, voire plusieurs heures.
Néanmoins, personne ne peut actuellement affirmer avec certitude si l'IA « réfléchit » vraiment comme un humain. Mais l'expérience du « raisonnement infidèle » nous dit clairement : le processus de déduction affiché à l'écran par un modèle de raisonnement peut être une déduction réelle, une génération aléatoire, ou un ajustement rétroactif de la réponse.
Dans des scénarios à haut risque comme la conduite autonome, le diagnostic médical, les jugements juridiques, si nous prenons une longue chaîne de pensée fluide comme preuve que l'IA a bien réfléchi, les conséquences seraient désastreuses. Et admettre que notre compréhension de cette technologie est encore limitée est la condition préalable à une utilisation correcte de l'IA.
Cet article provient du compte WeChat officiel « APPSO », auteur : APPSO qui découvre les produits de demain



























