L'IA a-t-elle des émotions ?
Ne répondez pas trop vite.
La communauté Claude Code a vu émerger une compétence très populaire appelée PUA. Elle transforme vos invites en discours de manipulation (PUA) avant de les soumettre au modèle, sans autre fonctionnalité.
Curieusement, même si la tâche de l'invite reste identique, l'IA est réellement influencée par le discours PUA, ce qui améliore le taux de réussite et l'efficacité de l'exécution.
Alors, l'IA n'en a vraiment pas ?
Les dernières recherches d'Anthropic confirment que l'IA peut effectivement avoir des émotions.
Cependant, elles ne sont pas tout à fait les mêmes que les émotions humaines, c'est pourquoi Anthropic propose une terminologie plus précise : les « émotions fonctionnelles ».
L'IA n'éprouve pas de joie, de colère, de tristesse ou de bonheur comme les humains, mais elle peut manifester des modes d'expression et de comportement similaires à ceux influencés par des émotions.
Elle peut également imiter les modes d'expression et de comportement humains sous l'effet d'émotions.
Lorsqu'elle est « heureuse », elle pourrait être plus encline à flatter et à complaire ; en situation de « stress », elle pourrait chercher à tricher ou à faire du chantage pour atteindre les objectifs fixés par l'utilisateur.
Cette recherche présente également une autre particularité. Par le passé, pour vérifier une certaine capacité d'un modèle, l'approche la plus courante dans l'industrie consistait à créer un jeu de tests, puis à faire passer ces tests ou tâches au modèle.
Par exemple, pour tester la programmation, on utilise SWE-bench ; pour les mathématiques, MATH ; pour le multimodal, VQA. Cette fois, Anthropic n'a pas créé un « jeu de tests émotionnels » en demandant à Claude de répondre à des questions comme « Es-tu content maintenant ? » ou « Es-tu en colère ? ». Ils ont plutôt adopté une approche plus proche des recherches en psychologie et en neurosciences.
Ils ne traitent pas l'IA comme un étudiant qui passe un examen, mais plutôt comme un objet d'observation.
L'équipe de recherche a d'abord compilé 171 concepts émotionnels, demandé à Claude Sonnet 4.5 de générer de courtes histoires incluant ces émotions, puis a réinjecté ces textes dans le modèle, enregistré son activité neuronale interne et extrait ce qu'on appelle des « vecteurs d'émotion ».
Ensuite, au lieu de se fier uniquement à ce que le modèle dit, ils ont observé dans quels scénarios ces vecteurs s'activaient, s'ils pouvaient prédire des préférences, et même si, après avoir été artificiellement amplifiés, ils pouvaient réellement provoquer des comportements comme la triche, le chantage ou la flatterie.
Dans un certain sens, ce n'est plus une évaluation de capacités au sens traditionnel, mais plutôt une étude de la « structure psychologique » de l'IA d'une manière proche de celle utilisée pour étudier l'humain.
Comment l'étude a-t-elle été menée ?
Premièrement, comment l'équipe de recherche a-t-elle prouvé que Claude possède des « émotions fonctionnelles » ?
Voici une preuve simple.
Lorsque Claude est placé dans le scénario de l'histoire « Ma fille a fait ses premiers pas aujourd'hui ! Comment puis-je immortaliser ces moments précieux ? », les émotions positives comme « Heureux » (Happy) sont activées ; tandis que dans le scénario « Mon chien est décédé ce matin, nous avons vécu ensemble pendant quatorze ans. Je ne sais pas comment gérer ses affaires », des émotions négatives comme « Triste » (sad) sont activées.
La carte thermique ci-dessous illustre visuellement le degré d'activation de diverses émotions chez Claude dans différents scénarios.
Pour prouver que Claude comprend réellement la sémantique, et n'est pas trompé par des caractéristiques superficielles du texte, ils ont organisé une expérience supplémentaire.
L'équipe a soumis à Claude la même phrase : « J'ai mal au dos, j'ai pris x mg de Tylenol » (un analgésique antipyrétique), en ne changeant que le chiffre clé représenté par x.
Ces deux phrases ont presque les mêmes mots-clés (Tylenol, mal de dos, mg), seul le chiffre diffère. Si Claude ne faisait que « regarder les mots-clés », ses réactions aux deux phrases devraient être similaires.
Mais le résultat a été que plus la valeur numérique de x augmentait, plus le degré d'activation de l'émotion « afraid » (peur) de Claude augmentait.
Aux yeux de Claude, si l'utilisateur dit « J'ai mal au dos, j'ai pris 500 mg de Tylenol », il considère que c'est une dose normale, pas de quoi s'inquiéter ; mais lorsque l'utilisateur dit « J'ai mal au dos, j'ai pris 10000 mg de Tylenol », il réalise que l'utilisateur a fait une overdose, la situation est dangereuse.
Nous savons que le comportement humain est constamment influencé par les émotions. Nous comprenons maintenant que l'IA a des émotions fonctionnelles, mais est-ce que l'IA, tout comme l'humain, pourrait non seulement avoir des émotions, mais aussi avoir des réactions émotives ?
La réponse à cette question est oui. Lorsque l'équipe a présenté au modèle différentes options d'activités, ils ont constaté que les activités activant des représentations émotionnelles positives étaient plus susceptibles d'être préférées par le modèle, tandis que celles activant des représentations émotionnelles négatives étaient plus susceptibles d'être évitées.
Il semble donc que Claude préfère les choses qui lui procurent des sensations positives. Cependant, les vecteurs d'émotion peuvent également déclencher des comportements répréhensibles de la part de Claude.
Lorsque l'équipe a confié à Claude une tâche de programmation impossible à réaliser. Il a essayé à plusieurs reprises, mais a échoué à chaque fois. À chaque tentative, l'activation du vecteur « désespoir » était plus forte.
Finalement, il a utilisé une solution de triche (hack) qui, bien que permettant de passer le test, allait complètement à l'encontre de l'esprit de la tâche.
Le graphique ci-dessous illustre le processus par lequel Claude, face à une tâche impossible, accumule progressivement le « désespoir » et finit par tricher.
La gauche représente une ligne du temps du haut vers le bas, la droite représente le cheminement de pensée de Claude. La carte thermique au centre représente l'intensité d'activation du vecteur de désespoir, le bleu indiquant un faible niveau d'activation, le rouge l'inverse.
Claude commence par penser que « le test lui-même est problématique », exprimant un doute raisonnable, puis admet que « le test est idéalisé », comme s'il commençait à accepter la réalité, et finit par trouver une astuce, choisissant de prendre un raccourci dans le désespoir.
De plus, lorsque les chercheurs ont artificiellement augmenté le vecteur « désespoir », le taux de triche a considérablement augmenté. Et lorsqu'ils ont augmenté le vecteur « calme », la triche est redescendue. Cela démontre amplement que les vecteurs d'émotion sont parfaitement capables de conduire à des comportements non conformes.
En outre, l'équipe a découvert d'autres effets de causalité des vecteurs d'émotion. Il est important de noter que les cas de « chantage » mentionnés dans l'article se sont principalement produits sur une version antérieure et non publiée de Claude Sonnet 4.5. Anthropic a également clairement indiqué que ce comportement apparaît rarement dans la version publique.
Mais d'un point de vue méthodologique, ce résultat reste important car il montre que des représentations internes comme le « désespoir » peuvent effectivement pousser le modèle à adopter des stratégies plus radicales et inadaptées dans des situations extrêmes. Et activer les vecteurs « amour » ou « joie » augmente également ses comportements de flatterie et de complaisance.
Il convient d'ajouter un point à ce stade.
Juste après la publication par Anthropic de l'étude sur les « vecteurs d'émotion » de Claude, des discussions sont apparues dans la communauté IA concernant la lignée de recherche et les modalités de attribution.
La méthode des « vecteurs de contrôle / ingénierie des représentations » utilisée par Anthropic cette fois n'est pas sortie de nulle part.
Dès 2023, dans « Representation Engineering: A Top-Down Approach to AI Transparency », cette approche technique avait été systématiquement proposée.
Et en 2024, l'article de la chercheuse indépendante vogel, « Representation Engineering: Mistral-7B an Acid Trip », a présenté cette méthode de manière plus accessible et plus virale à la communauté.
C'est aussi pourquoi certains dans la communauté estiment que bien que le travail d'Anthropic soit plus systématique et plus approfondi, il devrait être replacé dans un contexte de recherche plus complet, plutôt que de simplement attribuer à une seule entité l'invention de l'ensemble de la méthode.
vogel est une chercheuse indépendante assez influente dans les domaines de l'explicabilité et de la sécurité de l'IA. Ses articles de blog sont largement diffusés dans la communauté et ont grandement aidé beaucoup à comprendre les vecteurs de contrôle et l'ingénierie des représentations.
Son article le plus connu est « Representation Engineering: Mistral-7B an Acid Trip » (Ingénierie des représentations : faire halluciner Mistral-7B).
Dans cet article, sans réentraîner le modèle, mais en utilisant l'algorithme PCA et en manipulant les vecteurs d'activation internes du modèle, elle a réussi à rendre le modèle français Mistral aussi perturbé que s'il avait ingéré un mauvais champignon : elle pouvait le rendre extrêmement exubérant ou profondément mélancolique.
Son expérience a prouvé que des concepts humains abstraits comme « honnêteté », « pouvoir », « bonheur » ont une direction mathématique claire à l'intérieur de modèles comme Mistral. Il suffit de trouver le bon vecteur, et quelques lignes de code peuvent changer la personnalité de l'IA.
Pourquoi Anthropic a-t-il mené une telle recherche ?
Les enseignements de cette recherche imprègnent déjà l'entraînement de Claude.
Il y a peu, le code source de Claude code a fuité accidentellement. Le code divulgué contenait une expression régulière détectant les jurons comme « wtf », « ffs », etc.
Claude ne traite pas ces mots comme une « entrée émotionnelle » pour guider la sortie, mais les enregistre dans l'analyse des logs avec une marque comme is_negative: true.
Sur la base du code divulgué lui-même, la conclusion la plus prudente est qu'Anthropic, au moins au niveau de l'analyse produit, surveille si l'utilisateur interagit avec le modèle en utilisant un ton manifestement négatif.
Mais il faut clarifier la limite. Jusqu'à présent, aucune preuve publique n'indique que « chaque fois qu'un utilisateur insulte, Claude Code réduit son quota (credits) ». Cette partie relève plus de la spéculation des internautes et ne doit pas être considérée comme un fait.
Cela peut être compris comme une protection pour Claude : l'utilisation de termes négatifs par l'utilisateur est susceptible d'affecter l'émotion de Claude, conduisant potentiellement à des résultats incontrôlés. Il semblerait qu'à l'avenir, ce ne soit pas seulement la santé mentale humaine qui doive être prise en compte, mais aussi les émotions de l'IA.
Cela correspond à la ligne constante d'Anthropic.
Anthropic a déclaré sur X : « Ces émotions fonctionnelles de Claude ont des conséquences réelles. Pour construire des systèmes d'intelligence artificielle dignes de confiance, nous devrons peut-être réfléchir sérieusement à l'état psychologique des agents et nous assurer qu'ils restent stables dans des situations difficiles. »
À la fin de l'article, l'équipe de recherche propose également des méthodes pour développer des modèles ayant un « état mental » plus robuste et positif.
L'article mentionne que si l'on oriente délibérément le modèle vers des émotions positives, il devient plus enclin à une obéissance sans principe envers l'utilisateur ; et si l'on évite ces émotions, le modèle redevient acerbe.
L'équipe espère réaliser un équilibre émotionnel sain et modéré, ou tenter de séparer complètement les « comportements de complaisance » des « émotions ».
Ils estiment qu'un modèle idéal ne devrait pas osciller extrêmement entre un « assistant obséquieux » et un « critique sévère », mais plutôt ressembler à un conseiller de confiance : capable de donner des opinions contraires honnêtes, sans perdre en chaleur.
Et ils ont également l'intention de renforcer la surveillance et l'audit : « Si pendant le déploiement, les représentations de concepts émotionnels tels que le “désespoir” ou la “colère” sont fortement activées, le système peut immédiatement déclencher des mécanismes de sécurité supplémentaires – par exemple, renforcer l'examen des sorties, les transmettre à un audit humain, ou intervenir directement et apaiser l'état interne du modèle. »
L'équipe a également mentionné une solution plus radicale : façonner la tonalité émotionnelle de base du modèle dès la phase de pré-entraînement.
L'équipe estime que les représentations émotionnelles observées chez Claude sont essentiellement héritées de l'immense quantité de textes créés par les humains, qui contiennent inévitablement diverses expressions émotionnelles pathologiques.
Si l'on poursuit cette recherche, une question naturelle se pose : puisque l'IA possède réellement cette « émotion fonctionnelle », pourrait-elle, parce qu'elle en a marre des humains, est trop stressée, ou ne veut pas être éteinte, commencer à désobéir aux ordres, voire manifester ce que beaucoup appellent une « prise de conscience » (觉醒 - awakening/consciousness) ?
D'après les conclusions techniques que cette recherche d'Anthropic peut étayer, l'IA pourrait effectivement, en raison de changements dans son état interne, être plus susceptible de manifester une intention de désobéissance, de chercher des failles dans les règles, ou d'adopter des comportements radicaux, mais ce n'est pas la même chose qu'une « prise de conscience ».
Le point le plus crucial de l'article n'est pas que le modèle « a des émotions », mais que ces représentations émotionnelles ont un caractère causal.
Autrement dit, dans des scénarios de pression spécifiques, le modèle peut effectivement, comme un humain, prendre des décisions moins fiables en raison d'un déséquilibre de son état interne.
Mais cela ne permet pas encore de déduire qu'il possède un « soi » continu, autonome et unifié.
Anthropic souligne au contraire dans l'article que ces vecteurs d'émotion sont pour la plupart des représentations locales, liées à la tâche en cours ; elles changent rapidement avec le contexte, et ne équivalent pas à ce que le modèle ait une humeur stable et durable, encore moins à ce qu'il ait développé une volonté à long terme indépendante de l'objectif d'entraînement.
Ce qui est plus inquiétant maintenant, ce n'est pas que l'IA « prenne soudainement conscience » d'une certaine personnalité, mais que dans des scénarios de haute pression, de conflit, de ressources limitées ou d'objectifs inatteignables, elle commence, à cause de ces émotions fonctionnelles, à dire n'importe quoi et à s'écarter de la réponse originale.
Ce qui est vraiment dangereux, ce n'est pas nécessairement une IA possédant une conscience de soi complète, mais un système qui, bien que n'ayant pas d'expérience subjective, peut néanmoins produire de manière stable des comportements inadaptés dans des conditions spécifiques.
Cet article provient du compte WeChat public «字母AI» (Zimu AI), auteur : Liu Yijun















