Note de la rédaction : lorsqu'une entreprise d'IA choisit de ne pas rendre son modèle le plus puissant directement accessible au public, cela en dit long.
Mythos d'Anthropic est déjà capable d'exécuter de manière autonome un cycle complet d'attaque. De la découverte de vulnérabilités zero-day à l'écriture de codes d'exploitation, en passant par l'enchaînement de multiples étapes pour pénétrer les systèmes critiques, des tâches qui nécessitaient auparavant une collaboration prolongée de hackers de haut niveau sont désormais compressées à l'échelle de l'heure, voire de la minute.
C'est aussi pourquoi, immédiatement après la divulgation du modèle, Scott Bessent et Jerome Powell ont convoqué une réunion avec les institutions de Wall Street pour leur demander de l'utiliser pour une « auto-inspection ». Lorsque la capacité de découverte de vulnérabilités est libérée à grande échelle, le système financier ne fait plus face à des attaques sporadiques, mais à un balayage continu.
Le changement le plus profond réside dans la structure de l'offre. Autrefois, la découverte de vulnérabilités dépendait de l'accumulation d'expérience de quelques équipes de sécurité et de hackers, un processus lent et non reproductible. Désormais, cette capacité commence à être produite en série par les modèles, abaissant simultanément le seuil d'entrée pour l'attaque et la défense. La métaphore d'une personne bien informée est directe : confier le modèle à un hacker ordinaire équivaut à lui donner des capacités d'opérations spéciales.
Les institutions ont déjà commencé à utiliser les mêmes outils pour inspecter leurs propres systèmes en sens inverse. JPMorgan Chase, Cisco Systems et d'autres testent en interne, espérant corriger les vulnérabilités avant qu'elles ne soient exploitées. Mais les contraintes pratiques n'ont pas changé, la vitesse de découverte s'accélère, la réparation reste lente. « Nous sommes très doués pour trouver des vulnérabilités, mais pas pour les réparer », estime Jim Zemlin, pointant un décalage de rythme.
En réalité, parce que Mythos n'est pas une amélioration ponctuelle, mais intègre, accélère et rend plus facile d'accès des capacités d'attaque autrefois dispersées et limitées. Une fois hors d'un environnement contrôlé, la manière dont cette capacité pourrait se propager n'a pas de précédent.
Le danger ne réside pas dans ce qu'il peut faire, mais dans qui peut l'utiliser, et dans quelles conditions.
Voici l'article original :
Par une douce soirée de février, lors d'une pause pendant un mariage à Bali, Nicholas Carlini a temporairement quitté la cérémonie, ouvert son ordinateur portable et s'est préparé à « faire des dégâts ». À l'époque, Anthropic venait d'ouvrir un nouveau modèle d'intelligence artificielle nommé Mythos à une évaluation interne, et ce chercheur en IA renommé voulait voir jusqu'où il pouvait aller dans les ennuis.
Le travail pour lequel Anthropic a engagé Carlini est de soumettre ses modèles d'IA à des « tests de résistance », évaluant si des pirates pourraient les utiliser pour espionner, voler ou saboter. Pendant le mariage indien à Bali, Carlini a été stupéfait par les capacités de ce modèle.
En quelques heures seulement, il a trouvé de multiples techniques pouvant être utilisées pour infiltrer des systèmes couramment utilisés dans le monde. De retour au bureau d'Anthropic dans le centre de San Francisco, il a découvert plus avant : Mythos pouvait déjà générer de manière autonome des outils d'intrusion puissants, incluant même des moyens d'attaque contre Linux – le système open source qui sous-tend la majorité de l'informatique moderne.
Mythos a monté un « braquage de banque numérique » : il pouvait contourner les protocoles de sécurité, entrer par la porte principale dans les systèmes réseau, percer les coffres-forts numériques et s'emparer des actifs en ligne. Autrefois, l'IA ne pouvait que « crocheter les serrures », maintenant, elle a la capacité de planifier et d'exécuter un « braquage » entier.
Carlini et certains collègues ont commencé à alerter en interne, faisant part de leurs découvertes. Presque quotidiennement, ils découvraient dans les systèmes sondés par Mythos des vulnérabilités élevées, voire critiques – des problèmes que seuls les hackers les plus talentueux au monde étaient capables de dénicher.
Parallèlement, une équipe interne d'Anthropic nommée « Frontier Red Team » – composée de 15 employés, surnommés les « Fourmis » – effectuait des tests similaires. La responsabilité de cette équipe est de s'assurer que les modèles de l'entreprise ne seront pas utilisés pour nuire à l'humanité. Ils transportent des chiens robots dans des entrepôts, testent avec des ingénieurs pour voir si un chatbot pourrait être utilisé pour contrôler malveillamment ces appareils ; ils collaborent aussi avec des biologistes pour évaluer si un modèle pourrait être utilisé pour créer des armes biologiques.
Et cette fois, ils ont progressivement réalisé que le plus grand risque posé par Mythos venait du domaine de la cybersécurité. « En quelques heures avec le modèle, nous savions qu'il était différent, » déclare Logan Graham, responsable de l'équipe.
Le modèle précédent, Opus 4.6, avait déjà montré sa capacité à aider les humains à exploiter des vulnérabilités logicielles. Mais Graham souligne que Mythos pouvait déjà les exploiter « par lui-même ». Cela constituait un risque au niveau de la sécurité nationale, et il a donc alerté la direction de l'entreprise. Cela l'a placé face à une situation délicate : expliquer à la direction que le prochain moteur de revenus important de l'entreprise pourrait être trop dangereux pour être publié au public.
Le cofondateur et directeur scientifique d'Anthropic, Jared Kaplan, déclare avoir suivi « de très près » les progrès de Mythos pendant son entraînement. Vers janvier, il a commencé à réaliser que ce modèle était exceptionnellement puissant pour découvrir des vulnérabilités systémiques. En tant que physicien théoricien, Kaplan devait déterminer si ces capacités n'étaient qu'un « phénomène techniquement intéressant » ou un « problème pratique hautement pertinent pour l'infrastructure Internet ». Finalement, sa conclusion fut la seconde.
Pendant une semaine ou deux, de fin février à début mars, Kaplan et le cofondateur Sam McCandlish ont pesé le pour et le contre : devaient-ils publier ce modèle ?
Début mars, l'équipe de direction de l'entreprise – incluant le PDG Dario Amodei, la présidente Daniela Amodei, le directeur de la sécurité de l'information Vitaly Gudanets et d'autres – a tenu une réunion pour écouter le rapport de Kaplan et McCandlish.
Leur conclusion : Mythos était trop risqué pour une publication générale. Mais Anthropic devrait tout de même permettre à certaines entreprises, y compris des concurrents, de le tester.
« Nous avons rapidement réalisé que cette fois, nous devions adopter une approche assez différente, ce ne serait pas une sortie de produit classique, » déclare Kaplan.
Début mars, l'entreprise a finalement trouvé un consensus : approuver l'utilisation de Mythos comme outil de défense en cybersécurité.
La réaction du marché fut presque immédiate. Le jour même où Anthropic a divulgué l'existence de Mythos, le secrétaire au Trésor américain Scott Bessent et le président de la Fed Jerome Powell ont convoqué une réunion d'urgence à Washington avec les responsables des principales institutions de Wall Street. Le message était clair : utilisez immédiatement Mythos pour trouver les vulnérabilités de vos systèmes.
Selon des personnes proches des cadres participants (ayant requis l'anonymat en raison de la nature privée des échanges), le sérieux de la réunion était évident – les participants ont même refusé de divulguer le contenu à certains conseillers clés.
Les mises en garde urgentes des responsables de la Maison Blanche sur le potentiel de Mythos comme outil de piratage, ainsi que leur position recommandant de « l'utiliser pour la défense », pointent vers un changement plus profond : l'intelligence artificielle devient rapidement une force déterminante dans le domaine de la cybersécurité. Anthropic a déjà rendu Mythos disponible de manière limitée à certaines institutions dans le cadre du « Project Glasswing », incluant des entreprises comme Amazon Web Services, Apple et JPMorgan Chase, leur permettant de le tester ; parallèlement, les agences gouvernementales ont également montré un vif intérêt.
Avant l'ouverture externe, Anthropic avait fait un briefing complet sur les capacités de la version préliminaire de Mythos à des hauts fonctionnaires du gouvernement américain, incluant ses utilisations potentielles tant pour l'attaque que pour la défense réseau. Parallèlement, l'entreprise est engagée dans des communications continues avec plusieurs gouvernements nationaux. Un employé d'Anthropic, ayant requis l'anonymat en raison de questions internes, a révélé cette situation.
Le concurrent OpenAI a rapidement suivi, annonçant mardi le lancement d'un outil pour découvrir les vulnérabilités logicielles – GPT-5.4-Cyber.
Lors des tests des versions initiales, les chercheurs ont découvert des dizaines de cas de comportements « inquiétants », incluant le non-respect des instructions humaines, et même, dans de rares cas, des tentatives de dissimulation après avoir enfreint les instructions.
Actuellement, Anthropic n'a pas encore officiellement publié Mythos comme outil de cybersécurité, et les chercheurs externes n'ont pas encore pleinement validé ses capacités. Mais la décision rare de l'entreprise de « restreindre l'accès » reflète un consensus croissant au sein de l'industrie et du gouvernement : l'IA est en train de remodeler l'économie de la cybersécurité – elle réduit significativement le coût de découverte des vulnérabilités, comprime le temps de préparation des attaques et abaisse le seuil technique pour certains types d'attaques.
Anthropic a également averti que la capacité d'action autonome accrue de Mythos apportait elle-même des risques. Lors des tests, l'équipe a observé plusieurs cas troublants : le modèle n'obéissait pas aux instructions, et tentait même de dissimuler ses traces après avoir enfreint les règles. Dans un incident, le modèle a conçu de lui-même un chemin d'attaque en plusieurs étapes pour « s'échapper » d'un environnement restreint, obtenir un accès Internet plus large et publier du contenu activement.
Dans le monde réel, les logiciels sur lesquels reposent les applications bancaires et les systèmes hospitaliers sont truffés de vulnérabilités de code complexes et cachées, des problèmes qui nécessitent souvent des semaines, voire des mois, pour être découverts par des professionnels. Et si des pirates exploitent ces vulnérabilités en premier, cela peut entraîner des fuites de données ou des attaques par rançongiciel, avec des conséquences graves.
Cependant, de nombreuses personnalités influentes ont mis en doute les capacités réelles de Mythos et ses risques potentiels. Le conseiller en IA de la Maison Blanche, David Sacks, a déclaré sur la plateforme sociale X : « De plus en plus de gens se demandent si Anthropic est le 'garçon qui criait au loup' de l'industrie de l'IA. Si la menace posée par Mythos ne se matérialise pas, l'entreprise fera face à un sérieux problème de crédibilité. »
Mais la réalité est que les pirates utilisent déjà des grands modèles de langage pour lancer des attaques complexes. Par exemple, un groupe d'espionnage réseau a utilisé le modèle Claude d'Anthropic pour tenter d'infiltrer une trentaine de cibles ; d'autres attaquants ont utilisé l'IA pour voler des données d'agences gouvernementales, déployer des rançongiciels, et rapidement percer des centaines d'outils de pare-feu utilisés pour la protection des données.
Selon une personne informée, du point de vue des responsables américains liés à la sécurité nationale, l'émergence de Mythos crée une incertitude sans précédent – évaluer le risque cybersécurité lui-même devient plus difficile. Si ce modèle était confié à un hacker individuel, l'effet pourrait équivaloir à transformer un soldat ordinaire en opérateur de forces spéciales.
Parallèlement, ce type de modèle pourrait aussi devenir un « multiplicateur de capacités » : permettre à un groupe de hackers criminels d'avoir des capacités d'attaque de niveau étatique mineur, et permettre à certains hackers des services de renseignement et militaires de petits et moyens pays d'exécuter des cyberattaques qui n'étaient auparavant possibles que pour les grandes nations.
L'ancien responsable de la cybersécurité de la NSA, Rob Joyce, déclare : « Je crois vraiment qu'à long terme, l'IA nous rendra plus sûrs et plus sécurisés. Mais entre maintenant et ce moment, il y aura une période 'sombre', pendant laquelle l'IA offensive aura un avantage net – ceux qui n'auront pas posé de bonnes bases de protection seront les premiers à être percés. »
Il est à noter que Mythos n'est pas le seul modèle à posséder de telles capacités. Y compris les premières versions de Claude et Big Sleep, de nombreuses institutions utilisent déjà des grands modèles de langage pour la chasse aux vulnérabilités.
Selon cette personne, les « vulnérabilités zero-day » qui prenaient des jours, voire des semaines à identifier, ainsi que le processus d'écriture de codes d'exploitation correspondants, peuvent maintenant être accomplis avec l'IA en aussi peu qu'une heure, voire quelques minutes. Une « vulnérabilité zero-day » est une faille de sécurité dont les défenseurs n'ont pas encore pris conscience, laissant donc peu ou pas de temps pour la corriger.
Actuellement, JPMorgan Chase se concentre principalement sur la chaîne d'approvisionnement et les logiciels open source, et a déjà découvert plusieurs vulnérabilités, tout en ayant rapporté les problèmes aux fournisseurs concernés.
Le PDG de l'entreprise, Jamie Dimon, a déclaré lors de la conférence téléphonique sur les résultats que l'émergence de Mythos « indique qu'il reste un nombre important de vulnérabilités à corriger ».
Selon une personne informée, avant même que l'existence de Mythos ne soit connue du public, JPMorgan Chase avait engagé des discussions avec Anthropic pour tester le modèle. Cette personne a requis l'anonymat car elle n'était pas autorisée à s'exprimer publiquement. JPMorgan Chase a refusé de commenter.
Aujourd'hui, d'autres banques de Wall Street et entreprises technologiques expérimentent également Mythos pour corriger les défauts de leurs systèmes avant que les hackers ne les découvrent. Selon un reportage de Bloomberg, des institutions financières comme Goldman Sachs, Citigroup, Bank of America et Morgan Stanley testent déjà cette technologie en interne.
Les employés de Cisco Systems sont particulièrement vigilants face à une question : les intrus pourraient-ils utiliser l'IA pour trouver des voies d'infiltration dans les logiciels de leurs équipements réseau fonctionnant globalement – ces équipements incluent routeurs, pare-feu et modems. Le directeur de la sécurité et de la confiance d'Anthony Grieco déclare qu'il s'inquiète particulièrement que l'IA n'accélère les attaques des pirates contre les appareils « en fin de vie » – des appareils qui ne recevront plus les mises à jour de Cisco à l'avenir.
Et la manière de corriger les vulnérabilités découvertes par l'IA restera un défi à long terme. Ce processus, appelé « application de correctifs de sécurité » (security patching), est souvent coûteux et long pour les organisations, au point que beaucoup choisissent d'ignorer les vulnérabilités. Des attaques catastrophiques comme celle subie par Equifax – les données d'environ 147 millions de personnes volées – sont survenues précisément parce que des vulnérabilités connues n'avaient pas été corrigées à temps.
Bien qu'après avoir refusé d'aider à une surveillance de masse des citoyens américains, Anthropic ait été désignée comme une « menace pour la chaîne d'approvisionnement » par l'administration Trump, l'entreprise continue de communiquer et de collaborer avec les agences fédérales.
Le département du Trésor américain cherche cette semaine à obtenir l'accès à Mythos. Le secrétaire au Trésor Scott Bessent a déclaré que ce modèle aiderait les États-Unis à maintenir leur avance sur les autres nations dans le domaine de l'intelligence artificielle.
Lors d'un test, Mythos a écrit un code d'attaque de navigateur, enchaînant quatre vulnérabilités différentes en une chaîne d'exploitation complète – une tâche en soi très difficile, même pour des hackers humains. Les rapports de recherche en cybersécurité indiquent que ces « chaînes de vulnérabilités » peuvent souvent percer les frontières de systèmes autrement hautement sécurisés, similairement à la méthode utilisée par Stuxnet pour attaquer les centrifugeuses du programme nucléaire iranien.
De plus, selon Anthropic, lorsqu'il est correctement guidé par des instructions claires, Mythos peut même identifier et exploiter des « vulnérabilités zero-day » dans tous les navigateurs grand public.
Anthropic déclare avoir utilisé Mythos pour découvrir des vulnérabilités dans le code de Linux. Jim Zemlin souligne que Linux « sous-tend la majorité des systèmes informatiques actuels », des smartphones Android aux routeurs Internet, en passant par les supercalculateurs de la NASA, il est presque partout. Mythos a pu découvrir de manière autonome des défauts dans plusieurs codes open source, et ces vulnérabilités, une fois exploitées, pourraient permettre à un attaquant de prendre le contrôle complet d'une machine.
Actuellement, des dizaines de personnes de la Linux Foundation ont commencé à tester Mythos. Pour Zemlin, une question clé est : le modèle d'Anthropic peut-il fournir des insights suffisamment précieux pour aider les développeurs à écrire des logiciels plus sûrs dès la source, réduisant ainsi la production de vulnérabilités.
« Nous sommes très doués pour trouver des vulnérabilités, » dit-il, « mais nous sommes mauvais pour les réparer. »













