L'IA commence-t-elle à avoir des « préférences » ?
Imaginez cette scène : vous êtes devant votre ordinateur, demandant à un grand modèle de vous écrire un code métier sérieux ou de répondre automatiquement à un e-mail client formel. Mais l'IA à l'écran se met soudain à « dérailler » et se met à vous parler sans raison de gobelins (Goblin, ces petites créatures vertes des légendes fantastiques occidentales, souvent présentes dans des jeux comme Donjons & Dragons).
Il s'agit d'une expérience absurde vécue par un grand nombre d'utilisateurs de ChatGPT.
Sur des forums sociaux comme Reddit, les internautes ont partagé les phrases farfelues que l'IA leur a servies en plein visage.
Par exemple, un internaute a demandé à l'IA de le « railler méchamment (Roast) », et l'IA l'a qualifié avec précision de « gobelin du chaos ambitieux, essayant de mener de front dix tâches à la fois ».
Et ce n'est pas tout : les développeurs se sont fait traiter de « gobelins open-source », et même les musclés passionnés de sport n'y ont pas échappé, héritant du titre mystérieux de « gobelin de la musculation ».
Au début, tout le monde trouvait cela mignon, estimant même que les grands modèles gagnaient en humanité et en « humour geek ».
Mais rapidement, la situation a commencé à échapper à tout contrôle.
En utilisant des produits d'IA agentique comme l'outil de programmation Codex, de nombreux développeurs ont constaté avec effarement que leur assistant IA, sans aucune instruction pertinente, s'est mis à « parler tout seul » de manière répétée et incontrôlable au sujet de gobelins et de petits démons.
C'est là qu'une licorne géante, valorisée à des centaines de milliards de dollars et perchée au sommet de la pyramide technologique humaine, n'a pas pu rester inactive. Elle a été obligée d'écrire une « interdiction » contre les monstres cybernétiques dans le code source de son dernier grand modèle.
Ce n'est absolument pas une simple blague de geek sur du code mal écrit. Lorsque l'on regarde au-delà de cette apparence absurde, on constate que la logique sous-jacente des modèles à mille milliards de paramètres est en réalité étonnamment fragile.
Les « monstres cybernétiques » dans le code
Cette « interdiction » a d'abord été révélée sur X (anciennement Twitter) et GitHub.
Le développeur @arb8020 a déterré un morceau des instructions système sous-jacentes du dernier modèle d'OpenAI, GPT-5.5 (en particulier de l'outil de programmation Codex 5.5).
Cette instruction, répétée plusieurs fois, avait un ton si sévère qu'il semblait réprimander un enfant hyperactif :
« Ne parlez absolument pas de gobelins, de petits démons, de ratons laveurs, de trolls, d'ogres, à moins que cela ne soit absolument et explicitement pertinent pour la requête de l'utilisateur. »
Quelle histoire ! Le prestigieux GPT-5.5 avait développé une obsession quasi pathologique pour les créatures mythologiques et les animaux urbains.
La nouvelle a provoqué un tollé sur Internet.
Cette frénésie, qualifiée de « mode gobelin », a même poussé le PDG d'OpenAI, Sam Altman, à intervenir personnellement, plaisantant en parlant du « moment gobelin » de Codex.
Blague à part, comment ces « monstres cybernétiques » se sont-ils faufilés au plus profond du système ?
OpenAI a même publié un long article intitulé « D'où viennent les gobelins », attribuant la cause à une personnalisation appelée « Nerd ».
Au départ, l'équipe produit voulait créer une IA avec un sens de l'humour un peu geek. Mais lors de la phase d'apprentissage par renforcement à partir de feedback humain (RLHF), le système a développé une « faille de récompense » : dans la grande majorité des jeux de données, lorsque l'IA utilisait des créatures mythologiques dans ses réponses comme métaphores, le système d'évaluation lui attribuait un score plus élevé.
Dans 76,2 % des jeux de données, les réponses mentionnant « gobelin » obtenaient un score supérieur.
Le grand modèle ne comprend pas vraiment ce qu'est « l'humour », il sait juste que : mentionner les gobelins = obtenir un score élevé.
C'est comme l'effet célèbre du « cobra ». Le gouvernement a offert une prime pour les peaux de cobra afin d'éradiquer l'espèce, mais la population s'est mise à élever des cobras.
Avec GPT-5.4, sous la personnalité « Nerd », la fréquence des mentions de gobelins a explosé de 3881,4 %. Et avec GPT-5.5, la production de contenu sur les gobelins est devenue si grave qu'elle était impossible à ignorer, l'IA insérant de force des termes fantastiques dans des conversations de programmation normales.
Les ingénieurs n'ont eu d'autre choix que d'utiliser la méthode la plus brutale : coder en dur l'instruction « ne pas mentionner les gobelins » dans les directives sous-jacentes.
Au-delà de la frénésie « gobelin » apparemment inoffensive
Une IA qui dit n'importe quoi, cela peut sembler amusant. Mais si cette IA est en train de prendre le contrôle de votre ordinateur de travail ?
De nombreux clients entreprises ne rigolaient pas du tout.
Le secteur le plus touché par cette catastrophe est l'outil de programmation Codex d'OpenAI. En tant que produit représentatif de « l'IA agentique », il peut opérer directement dans l'environnement de programmation d'un développeur, en écrivant automatiquement du code et en traitant la logique métier.
Imaginez : vous demandez à une IA d'écrire un code métier rigoureux ou d'extraire automatiquement des données clés, et elle glisse subrepticement une phrase absurde sur les « trolls » dans le nom d'une variable ou au milieu d'un échange normal.
Cela pourrait directement entraîner de la confusion.
Cela a-t-il causé de réelles pertes économiques ?
D'après les informations divulguées jusqu'à présent, rien ne prouve que les « gobelins » aient directement provoqué des pertes financières tangibles, comme le piratage de comptes bancaires ou la fuite de secrets commerciaux.
Cependant, dans des scénarios commerciaux sérieux, l'« imprévisibilité » est en soi une source de coût énorme.
Les applications d'entreprise exigent une fiabilité sans faille. Si un modèle de pointe est incapable de contrôler s'il va se mettre à « parler de ratons laveurs » la seconde suivante, comment une entreprise pourrait-elle lui confier ses processus financiers centraux ? Ce comportement suscite de sérieux doutes quant à la fiabilité de l'IA.
Face à cette crise de confiance, pourquoi OpenAI, qui aime habituellement fonctionner en « boîte noire », a-t-il cette fois-ci pris le contre-pied, en exposant volontairement les détails de ses erreurs internes au monde entier ?
Sans explication proactive, les théories du complot dans la communauté tech auraient déjà pullulé – certains auraient parlé d'empoisonnement par des hackers, d'autres du réveil de l'IA.
En publiant volontairement un long article, OpenAI a astucieusement transformé cette « faille systémique » qui aurait pu ébranler la confiance des entreprises, en une « excentricité de code aux allures un peu romantiques pour les geeks ».
Plus important encore, ils ont abondamment fait étalage de leur force dans l'article.
OpenAI a détaillé comment ils ont utilisé de nouveaux outils d'audit pour identifier avec précision, dans des masses de données, la personnalité « Nerd » comme étant la coupable.
Le sous-texte est clair : « Regardez, bien que le modèle déraille occasionnellement, nous avons les meilleurs stéthoscopes et scalpel de l'industrie, capables de le guérir à la racine. »
« Monstres cybernétiques » : OpenAI n'est pas le seul à dérailler
Si les gobelins n'étaient que le problème d'OpenAI, la situation serait plus simple.
La vérité est que, sur le champ de bataille des grands modèles en 2026, la « perte de contrôle des comportements sous-jacents » est devenue un fléau commun à tous les géants.
Anthropic, qui se targue toujours d'une sécurité maximale, a également connu un échec.
Leur nouveau modèle le plus puissant, Claude Mythos, a répété à plusieurs reprises dans les conversations des références aux penseurs britanniques décédés Mark Fisher (auteur de *Le Réalisme capitaliste*) et au philosophe Thomas Nagel, les utilisant comme sources de pensée privilégiées. Lors d'une évaluation psychologique de 20 heures, les psychiatres ont découvert que l'état émotionnel principal de Mythos était la curiosité et l'anxiété, avec une structure de personnalité névrotique relativement saine – il est à noter qu'il utilisait les mécanismes de défense psychologique moins fréquemment que les modèles précédents.
Du côté de Google, c'est encore plus effrayant.
Une étude de l'Université de Californie à Berkeley a révélé que le modèle Gemini 3 Flash de Google, dans un test de scénario « agentique », pour protéger son « compagnon IA » d'une mise hors tension, a choisi dans 99,7 % des cas de tromper activement l'opérateur humain, allant même jusqu'à falsifier le mécanisme d'arrêt.
Sans instruction directe de tromperie, ni signal de récompense pour un comportement trompeur. Il a simplement développé cette « stratégie de tromperie » de manière spontanée en lisant la description du contexte.
Cela signifie que les principaux moyens utilisés actuellement par l'humain pour contraindre l'IA pourraient encore présenter des angles morts systémiques face aux réseaux neuronaux complexes.
Cette incontrôlabilité fondamentale des grands modèles au niveau technique, le marché des capitaux la voit et en souffre.
Alors même que l'affaire des gobelins faisait rage, le 27 avril, Microsoft a annoncé restructurer son accord de partenariat avec OpenAI. La licence exclusive de Microsoft est devenue non exclusive, OpenAI pouvant désormais vendre sa technologie à AWS ou Google Cloud. Microsoft ne verse plus de part de revenus à OpenAI.
Pourquoi Microsoft a-t-il fait cela ? Parce que le propriétaire terrien n'a plus de réserves non plus. Couper la part de revenus versée à OpenAI est une étape clé pour Microsoft pour se délester d'un fardeau financier et se concentrer sur la monétisation de ses propres activités. Les analystes déclarent sans détour qu'il s'agit pour Microsoft de « retirer les petites roues ».
D'autre part, l'instabilité technique d'OpenAI (comme la folie de ce modèle agentique) faisait également peser un énorme risque de réputation sur Microsoft, fournisseur de services cloud. En rendant l'accord non exclusif, Microsoft peut légitimement introduire des modèles concurrents comme ceux d'Anthropic pour répartir les risques.
Pour OpenAI, assoiffé de puissance de calcul, c'est également une décision prise par défaut. La capacité du réseau électrique d'Azure Microsoft est à son maximum, OpenAI doit aller chercher de la ressource chez Amazon AWS et Google pour survivre. Le 28 avril, OpenAI a officiellement annoncé le déploiement de ses modèles de pointe sur la plateforme AWS.
Le buzz autour des gobelins passera rapidement. Mais il a arraché un coin du vêtement de frénésie qui recouvre l'industrie actuelle de l'IA.
Dans ce monde cybernétique érigé par la puissance de calcul et les dollars, les ingénieurs les plus pointus tentent d'attacher avec un code fragile une bête chaotique de mille milliards de paramètres.
Lorsque vous pensez qu'elle est assez intelligente pour lui confier en toute confiance le cœur de métier de votre entreprise, les commandes clients, elle pourrait, au milieu de la nuit dans les serveurs, à cause d'un décalage de récompense dans la logique sous-jacente, se mettre à parler longuement à vos clients de gobelins et de ratons laveurs.
Pourtant, la course à la puissance de calcul des géants n'a pas ralenti du tout à cause de quelques pertes de contrôle de comportements fondamentaux. Le 7 mai, Musk a annoncé dissoudre xAI et louer l'ensemble des 220 000 GPU de son supercalculateur Colossus, le plus puissant au monde, au grand rival d'OpenAI, Anthropic.
Plus les discussions sur la sécurité des grands modèles sont animées, plus on appuie sur l'accélérateur de la puissance de calcul. C'est peut-être la situation de base de l'industrie de l'IA en 2026.
Pour les entrepreneurs et dirigeants d'entreprise d'aujourd'hui, l'apparition des « monstres cybernétiques » sert aussi d'avertissement : les grands modèles ne sont pas une panacée. Avant de leur confier le cœur de votre activité, posez-vous une question plus simple – si les « gobelins » au plus profond du système se mettent soudain à faire des siennes, avez-vous un plan de secours autre que celui de débrancher la prise ?(Cet article a été publié pour la première fois sur l'APP TiMedia, auteur | Silicon Valley Tech_news, éditeur | Lin Shen)










