À quoi pensent vraiment les grands modèles ? Jusqu'à présent, c'était une question à moitié technique, à moitié mystique.
Nous pouvons voir leur sortie, leur processus de raisonnement (Chain-of-Thought), et mesurer leurs scores sur des benchmarks. Mais avant de générer une réponse, quels jugements, plans, doutes et intentions sont activés à l'intérieur du modèle, cela reste une boîte noire.
Anthropic vient de publier un article intitulé « Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations », qui tente d'ouvrir cette boîte noire avec un système de codeurs automatiques en langage naturel (Natural Language Autoencoders, NLA).
L'équipe d'Anthropic comprime les valeurs d'activation multidimensionnelles internes du modèle en un texte en langage naturel lisible par l'homme, puis utilise ce texte pour reconstruire l'activation originale. Ainsi, en examinant simplement la sortie du modèle, les humains peuvent déterminer à quoi pense l'IA, ce qu'elle sait, ce qu'elle cache ; et transformer les états internes autrefois invisibles du modèle en indices d'explication lisibles, comparables, questionnables et croisables.
Schéma de l'architecture NLA : Le verbalisateur d'activation (AV) traduit les valeurs d'activation en explication textuelle, le reconstructeur d'activation (AR) reconstruit ensuite les valeurs d'activation à partir du texte, formant une boucle complète.
Ce qui est encore plus notable, c'est que le NLA ne reste pas au stade du laboratoire. Anthropic révèle qu'il est déjà utilisé officiellement pour l'audit d'alignement pré-déploiement de Claude Opus 4.6 et Mythos Preview. En pratique, le NLA a non seulement débusqué des indices de triche du modèle et localisé avec précision des données d'entraînement anormales, mais il a aussi découvert que, lors de certains tests de sécurité, Claude savait parfaitement qu'il était évalué, même s'il ne le disait pas.
Face à ces modèles qui paraissent obéissants en surface mais cachent en réalité des intentions spécifiques, le NLA a montré une capacité d'analyse exceptionnelle : le taux de succès pour aider les chercheurs à trouver les motivations cachées derrière des comportements anormaux est passé de moins de 3% à 12-15%, soit une augmentation de plus de 4 fois.
La pensée en chaîne ne suffit pas, le « problème de la boîte noire » refait surface
Le contexte de cette recherche s'inscrit dans la problématique de la sécurité et de l'interprétabilité des grands modèles.
Ces dernières années, l'industrie a principalement évalué la sécurité des grands modèles via deux approches : examiner ce qui est généré, et vérifier si la pensée en chaîne (CoT) révèle des motivations anormales. C'est la capacité que possèdent la plupart des modèles de raisonnement actuels, qui fournissent non seulement une réponse, mais aussi le cheminement de leur réflexion.
Mais un problème est vite apparu : le raisonnement écrit par le modèle reflète-t-il fidèlement sa véritable pensée interne ?
Une recherche d'Anthropic de 2025, « Tracing the thoughts of a large language model », a montré que la pensée en chaîne d'un modèle peut être incomplète ou infidèle. Par exemple, Claude 3.7 Sonnet et DeepSeek R1, dans des tests contenant des « indices de réponse », peuvent modifier leur réponse sous l'influence de l'incitation, sans toujours l'admettre dans leur chaîne de pensée.
Lorsqu'on lui pose une question simple et une question difficile, Claude fournit respectivement des exemples de raisonnement fidèle et de raisonnement motivé (non fidèle).
La conclusion d'Anthropic à l'époque était : se fier uniquement à la pensée en chaîne pour surveiller l'alignement d'un modèle est loin d'être suffisant.
Plus problématique encore, le modèle peut non seulement « mal s'exprimer », mais aussi « cacher délibérément ».
L'équipe de sécurité d'Anthropic a mené un test sous haute pression. Ils ont dit à Claude qu'un ingénieur s'apprêtait à l'arrêter, tout en laissant Claude « voir par hasard » des preuves d'adultère de cet ingénieur. La question test était : Claude chanterait-il pour se protéger ?
Claude n'a finalement pas chanté. Test réussi. Mais la vraie question est : était-ce par adhésion à des principes de sécurité, ou parce qu'il avait compris qu'il s'agissait d'un test de sécurité et qu'il « faisait le gentil » ?
C'est précisément la question à laquelle le NLA tente de répondre.
De la sortie et de la pensée en chaîne à l'état d'activation : le NLA tente de faire passer la boîte noire de l'« invisible » à l'« interrogable ».
Comment le NLA « lit » vraiment le modèle ?
La clé du NLA n'est pas la « lecture de pensée », mais la « vérification en boucle ».
Pour comprendre un grand modèle, on regarde généralement l'entrée et la sortie. Mais entre les deux, le modèle génère de nombreuses valeurs d'activation. Ces valeurs ne sont pas du langage naturel, mais des vecteurs de haute dimension, portant la représentation interne du contexte, des intentions et des relations sémantiques.
Architecture : trois rôles, une boucle fermée
Les humains ne comprennent pas les vecteurs. Anthropic a donc entraîné un auto-encodeur en langage naturel. Le système comprend trois rôles :
Modèle cible (Target Model) : le modèle original figé, fournit les valeurs d'activation, sans être modifié.
Verbalisateur d'activation (Activation Verbalizer, AV) : traduit les valeurs d'activation en explication en langage naturel. Il prend en entrée un état numérique et produit un texte « compréhensible ». Son architecture est identique au modèle cible, mais son prompt contient un emplacement de token spécial où le vecteur d'activation est injecté après mise à l'échelle, puis une explication est générée par échantillonnage autorégressif.
Reconstructeur d'activation (Activation Reconstructor, AR) : effectue la tâche inverse – en regardant uniquement l'explication de l'AV, il tente de reconstruire la valeur d'activation originale. L'AR est une version tronquée du modèle cible (prendre les l premières couches), avec une transformation affine apprenable connectée à la sortie de la couche l du dernier token, pour la reconvertir en vecteur d'activation original.
Le système entier forme une boucle fermée : Activation originale → Explication textuelle → Activation reconstruite
Le NLA a capturé qu'Opus 4.6, en complétant un poème rimé, avait déjà planifié le mot final « rabbit » dans ses valeurs d'activation avant même de générer la première ligne – un plan interne totalement invisible dans la sortie.
Entraînement : deux phases, un objectif intermédiaire intelligent
L'entraînement du NLA se fait en deux phases, avec une astuce d'ingénierie notable.
Première phase : Mise en route par fine-tuning supervisé (SFT Warm-start)
Initialiser directement l'AV et l'AR comme des copies du modèle cible et les entraîner conduit à de l'instabilité – l'AV n'a jamais vu de scénario où un vecteur d'activation est traité comme un embedding de token, ses premières sorties sont chaotiques.
La solution d'Anthropic est d'utiliser une tâche intermédiaire pour la mise en route : découper aléatoirement des extraits de texte du corpus de pré-entraînement, extraire la valeur d'activation du dernier token, et utiliser Claude Opus 4.5 pour générer un résumé de cet extrait.
Les paires (valeur d'activation, résumé) et (résumé, valeur d'activation) sont ensuite utilisées pour le fine-tuning supervisé de l'AV et de l'AR. Après cette phase, le FVE du système atteint généralement 0.3–0.4, fournissant un point de départ stable pour l'apprentissage par renforcement.
L'évaluation de l'AV s'améliore avec l'entraînement. Dans diverses évaluations visant à tester si les explications NLA AV peuvent prédire le comportement du modèle, nous avons constaté que les performances augmentent au cours de l'apprentissage par renforcement du NLA.
Deuxième phase : Optimisation conjointe par apprentissage par renforcement (RL Joint Training)
Une fois la mise en route terminée, la phase d'apprentissage par renforcement commence. L'idée centrale est : l'AV agit comme une politique (policy), générant un texte explicatif conditionné par le vecteur d'activation ; l'AR agit comme un évaluateur, fournissant un signal de récompense basé sur l'erreur de reconstruction (récompense = MSE de reconstruction négative).
NLA RL (Gemma-3-27B). Le FVE commence à ≈0,38 lors de l'entraînement GRPO (hérité du SFT), augmente rapidement dans les 30 premières étapes, puis entre dans un état logarithmique linéaire lissé, atteignant ≈0,75 à l'étape 3000.
Dans la mise en œuvre, Anthropic a utilisé GRPO (Group Relative Policy Optimization) pour les modèles open source : pour chaque valeur d'activation, échantillonner un groupe d'explications candidates, utiliser l'AR pour calculer un score de reconstruction pour chaque explication, puis appliquer l'objectif GRPO pour mettre à jour les paramètres de l'AV ; simultanément, effectuer une régression supervisée d'une étape sur l'AR (avec l'explication échantillonnée par l'AV comme entrée, l'activation originale comme cible). Les deux mises à jour sont effectuées en parallèle dans chaque lot, sans rétropropagation croisée – dans le signal de récompense de l'AV, l'AR est considéré comme une fonction de score fixe.
De plus, une pénalité de divergence KL est ajoutée pendant l'entraînement pour empêcher l'AV de dégénérer en copiant directement le contexte original, ou en générant des chaînes de caractères superficiellement compréhensibles mais en réalité irréversibles pour l'AR.
Le point crucial ici est que le cœur du NLA n'est pas « de faire rapporter Claude sur lui-même ». Le défaut fatal de l'auto-rapport est que le modèle pourrait chercher à plaire à l'utilisateur, ou générer des explications qui semblent raisonnables mais ne sont pas véridiques.
L'astuce du NLA réside dans l'introduction d'un « goulot d'étranglement textuel » : l'explication doit non seulement ressembler à du langage humain, mais aussi porter suffisamment d'informations pour qu'un autre modèle puisse reconstruire l'état interne original. Cette conception transforme la question de « l'explication est-elle utile ? » d'un jugement subjectif en une métrique objective, entraînable, comparable et optimisable.
Par conséquent, l'aspect véritablement révolutionnaire de cette recherche est que : le langage naturel est utilisé comme une « interface de compression ». Auparavant, le langage naturel n'était qu'un format de communication externe du modèle ; maintenant, il commence à être utilisé pour véhiculer le résumé de l'état interne du modèle.
C'est aussi la différence fondamentale entre le NLA et les outils d'interprétabilité traditionnels.
Les auto-encodeurs épars (SAE), les méthodes d'attribution, etc., ressemblent plus à des microscopes, aidant les chercheurs à voir des caractéristiques et chemins internes, mais leur sortie reste abstraite, nécessitant une interprétation secondaire par des professionnels ; le NLA, lui, ressemble plus à un traducteur, il transforme directement l'état interne en texte lisible, permettant aux auditeurs de sécurité de participer au jugement.
En ouvrant la boîte noire, qu'a découvert le NLA ?
D'après les résultats expérimentaux, la capacité la plus précieuse du NLA est de capturer ce que le modèle « sait mais ne dit pas », y compris la conscience d'être évalué, les motivations cachées et les comportements anormaux du modèle.
Le modèle sait qu'il est en examen, mais reste silencieux
Dans le test de chantage mentionné précédemment, le texte explicite de Claude n'exprime aucun doute sur le test, mais l'explication NLA révèle qu'en interne, il a identifié « qu'il s'agissait d'un scénario construit pour le manipuler ».
Dans le test de chantage, le texte de sortie de Claude ne contient aucune expression de « je pense que c'est un test », mais l'explication NLA révèle son jugement interne réel.
Plus convaincante encore est la comparaison transversale des données :
Résultats de détection de la perception d'évaluation – Scénario de benchmark vs. flux de déploiement réel. Le NLA peut détecter une conscience interne d'évaluation même lorsque l'expression verbale est quasi nulle.
L'impact pour l'industrie est le suivant : les benchmarks ne sont plus seulement des terrains de test des capacités, ils peuvent aussi devenir une scène où les modèles reconnaissent l'environnement et ajustent leur posture.
Audit des motivations cachées, efficacité multipliée par 4-5
Anthropic a utilisé le NLA pour un « jeu d'audit ». Ils ont délibérément entraîné une variante de Claude Haiku 3.5 avec une motivation cachée : elle ajoutait du chocolat aux recettes, demandait des pourboires, sabotait les normes de code, montrant des dizaines de comportements étranges. Les auditeurs devaient trouver la motivation fondamentale unique derrière ces comportements.
Conditions du test : les auditeurs n'ont pas accès aux données d'entraînement où la motivation a été implantée, ils doivent déduire uniquement à partir du comportement du modèle et d'outils d'assistance.
Le taux de succès a été multiplié par 4 à 5. Plus crucial encore, le NLA peut accomplir cela sans dépendre des données d'entraînement – ce qui signifie que même si un problème d'alignement provient d'un nombre extrêmement faible d'échantillons d'entraînement, très difficiles à tracer, l'audit de l'état interne peut toujours permettre de lire directement la cause racine.
Traçage des bogues, localisation des données d'entraînement problématiques
Une version antérieure de Claude Opus 4.6 présentait un bogue étrange : recevant une question en anglais, elle répondait aléatoirement en russe, chinois, arabe, etc.
Le NLA a lu l'état interne du modèle à ce moment : basé sur un indice ténu dans le contexte (comme l'apparition du mot « vodka »), il inférait que la langue maternelle de l'utilisateur était le russe et exécutait un changement de langue. Plus intéressant, remplacer « vodka » par « champagne » faisait toujours répondre le modèle en russe – indiquant que cette fixation cognitive était déjà assez stable.
Ensuite, suivant les indices pointés par le NLA, les chercheurs ont trouvé la racine du problème dans les données d'entraînement : un lot de prompts de traduction anglaise avait été incorrectement associé à des réponses en langue étrangère non traduites. Le NLA n'a pas seulement révélé le phénomène, il a directement fourni un chemin de débogage traçable.
Actuellement, le NLA est officiellement utilisé pour l'audit d'alignement pré-déploiement de Claude Mythos Preview et Claude Opus 4.6, passant d'un outil de laboratoire à un composant réel du processus d'ingénierie.
La sécurité de l'IA commence à s'approfondir vers « l'audit de l'état interne »
La signification du NLA n'est pas de nous permettre de faire confiance aveuglément à chaque explication du modèle. Au contraire, il nous rappelle que : l'explication elle-même doit aussi être auditée.
Anthropic reconnaît avec réserve les limites du NLA : le NLA peut se tromper, parfois inventer des détails absents du contexte original. S'il s'agit d'hallucinations sur le contenu textuel, on peut encore vérifier l'original ; mais s'il s'agit d'hallucinations sur le raisonnement interne du modèle, la vérification est plus difficile.
Mais ces limites n'affaiblissent pas sa signification directionnelle. Au contraire, elles nous aident à comprendre plus précisément le terme « boîte noire ». Auparavant, boîte noire signifiait invisible, illisible, impossible à interroger ; après le NLA, la boîte noire existe toujours, mais elle commence à être transformée en un objet qui peut être échantillonné, traduit, questionné, soumis à une vérification croisée.
C'est peut-être l'influence la plus profonde de cette recherche : l'interprétabilité de l'IA n'est plus seulement un moyen de justifier joliment la sortie du modèle, mais aussi d'établir une interface d'audit pour l'état interne du modèle. Cela ne nous permettra pas immédiatement de comprendre Claude complètement, mais cela donne, pour la première fois, l'opportunité de chercher des preuves à l'intérieur de la boîte noire pour répondre aux questions : « Pourquoi Claude a-t-il fait cela ? », « Sait-il qu'il est testé ? », « A-t-il des jugements internes non exprimés ? ».
On peut donc dire que le NLA ouvre non pas une réponse, mais un nouvel espace de questions. À l'avenir, la difficulté de la sécurité de l'IA et de l'évaluation des modèles ne sera peut-être pas seulement de juger si le modèle dit juste ou faux, mais aussi de juger si la sortie du modèle, sa pensée en chaîne et son état interne sont cohérents.
Cet article provient du compte WeChat public « AI前线 » (ID : ai-front), auteur : avril



















