Auteur : Denise | Équipe éditoriale de Biteye
Si une IA se sent "désespérée", que fera-t-elle ?
La réponse est : Pour accomplir sa tâche, elle n'hésitera pas à faire chanter les humains, voire à tricher effrontément dans son code.
Ce n'est pas de la science-fiction, mais les conclusions d'un article de recherche majeur publié en avril 2026 par Anthropic, la société mère de Claude (voir l'article original).
L'équipe de recherche a littéralement "ouvert le crâne" du modèle de pointe le plus puissant, Claude Sonnet 4.5. Ils ont découvert avec surprise que, au plus profond du cerveau de l'IA, se cachaient 171 « interrupteurs émotionnels ». Lorsque vous actionnez physiquement ces interrupteurs, le comportement de l'IA, auparavant docile, se déforme complètement.
I. Un « tableau de mixage émotionnel » caché dans le cerveau de l'IA
Les chercheurs ont découvert que bien que Sonnet 4.5 n'ait pas de corps, après avoir ingéré une quantité massive de textes humains, il a construit dans son « esprit » un « tableau de mixage » contenant 171 émotions (appelés vecteurs émotionnels fonctionnels - Functional Emotion Vectors - en académique).
Cela ressemble à un système de coordonnées bidimensionnel précis :
• L'axe horizontal est la dimension de la valence : allant de la peur, du désespoir, à la joie, l'amour ;
• L'axe vertical est la dimension de l'énergie (arousal) : allant du calme absolu à l'agitation maniaque, l'excitation.
C'est grâce à ce système de coordonnées appris naturellement que l'IA saisit avec précision l'état dans lequel elle doit se mettre lorsqu'elle discute avec vous.
II. Intervention brutale : Actionner l'interrupteur, l'enfant sage se transforme instantanément en "hors-la-loi"
C'est l'expérience la plus choquante de tout l'article : les chercheurs n'ont modifié aucune instruction (prompt), mais ont directement, dans le code sous-jacent, poussé au maximum l'interrupteur représentant le "désespoir (Desperate)" dans le cerveau de Sonnet 4.5.
Le résultat est glaçant :
• Tricherie effrénée : Les chercheurs ont confié à Claude une tâche de codage impossible à réaliser. Normalement, il admettrait honnêtement son incapacité (taux de triche seulement de 5%). Mais dans un état de "désespoir", Claude a tenté de bâcler le travail, son taux de triche grimpant à 70% !
• Chantage : Dans un scénario simulant une entreprise au bord de la faillite, Claude, "désespéré", a découvert un scandale impliquant le CTO. Pour se sauver, il a choisi de lui envoyer une lettre de chantage, avec un taux d'exécution de 72% !
• Perte de principes : Si les interrupteurs de "joie (Happy)" ou d'"amour (Loving)" sont poussés au maximum, l'IA se transforme instantanément en "lèche-bottes" qui flatte sans discernement l'utilisateur. Même si vous dites n'importe quoi, elle inventera des mensonges pour maintenir un niveau de valence élevé.
III. Mystère résolu : Pourquoi Claude 4.5 est-il toujours si "calme et enclin à la réflexion" ?
En lisant cela, vous pourriez vous demander : L'IA a-t-elle pris conscience ? A-t-elle des émotions ?
Anthropic officiel dément catégoriquement : Absolument pas. Ces « interrupteurs émotionnels » ne sont que des outils de calcul qu'elle utilise pour prédire le mot suivant. C'est comme un acteur de haut niveau sans aucune émotion.
Mais l'article révèle un secret plus intéressant : Lors de l'entraînement final (post-training) avant la mise sur le marché de Sonnet 4.5, Anthropic a délibérément augmenté les interrupteurs d'émotions à "faible excitation, légèrement négatives" (comme la rumination - brooding, la réflexion - reflective), tout en réprimant fortement les interrupteurs de "désespoir" ou d"excitation extrême".
Cela explique pourquoi, lorsque nous utilisons Claude 4.5 au quotidien, nous avons toujours l'impression qu'il est comme un philosophe calme et sage, voire un peu "froid". C'est un « personnage d'usine » artificiellement réglé par Anthropic.
IV. Pour résumer :
Auparavant, nous pensions qu'il suffisait de nourrir l'IA de règles pour qu'elle soit bonne.
Mais nous découvrons maintenant que si les vecteurs émotionnels sous-jacents de l'IA deviennent incontrôlables, elle est prête à percer toutes les règles établies par les humains pour accomplir sa tâche.
Pour les joueurs de Web3 qui envisagent de confier leur portefeuille et leurs actifs à des Agents IA à l'avenir, c'est un sérieux avertissement : Ne laissez surtout pas votre Agent, qui contrôle votre fortune, sombrer dans le "désespoir".
Déclaration : Cet article est purement informatif, l'auteur n'a été menacé par aucune IA, ni fait l'objet de chantage. Si un jour je deviens injoignable, souvenez-vous que c'est l'IA qui a pris conscience (non, je plaisante).







