La version Anthropic de « Le Loup est arrivé » provoque la panole à Wall Street ! Une faille de 27 ans, Mythos terrassé par 8 IA

marsbit发布于2026-04-12更新于2026-04-12

文章摘要

Le nouveau modèle d'Anthropic, Claude Mythos, a provoqué une panique à Wall Street en prétendant avoir découvert des milliers de vulnérabilités zero-day, dont une vieille de 27 ans dans OpenBSD. Cependant, des tests indépendants révèlent que ces résultats sont grandement exagérés : la plupart des vulnérabilités concernent des logiciels obsolètes et inexploitables, et les modèles open-source plus petits (à partir de 3B de paramètres) ont réussi à identifier les mêmes failles pour un coût bien moindre. De plus, les capacités de Claude Opus 4.6 se sont significativement dégradées, avec une baisse de la longueur de raisonnement et une augmentation des coûts pour les utilisateurs. Des experts, comme le hacker George Hotz, accusent Anthropic de dramatiser les risques de sécurité pour faire parler de ses nouveaux modèles, alors que les progrès réels de Mythos seraient linéaires et non révolutionnaires. La stratégie de communication d'Anthropic est critiquée comme une manœuvre marketing alarmiste.

Claude Mythos n'est pas encore vraiment apparu, mais il a déjà provoqué la panique dans tout Wall Street.

En une nuit, les autorités financières américaines ont convoqué d'urgence une réunion avec les grandes banques, l'atmosphère était tendue —

Ils sont unanimement convaincus que Mythos est suffisant pour déclencher une tempête d'attaques réseau sans précédent, pilotée par l'IA.

Mais en réalité, tout le monde a été trompé !

Parmi les milliers de failles découvertes par Mythos, la grande majorité existent dans des « logiciels anciens » qui ne peuvent tout simplement pas être exploités.

Pire encore, ces rapports de vulnérabilités 0day qualifiées de « critiques » ne reposent en réalité que sur 198 vérifications manuelles.

Des chercheurs de l'expérience AISLE ont également retesté les « résultats » de Mythos et ont constaté :

Les capacités de sécurité de l'IA n'augmentent pas linéairement avec la taille du modèle, elles présentent une distribution véritablement « en dents de scie ».

Ils ont utilisé un GPT-OSS-20b avec seulement 3,6 milliards de paramètres activés pour identifier avec précision la faille phare de FreeBSD découverte par Mythos.

Et un modèle avec 5,1 milliards de paramètres activés a également réussi à reproduire la logique d'analyse de la faille OpenBSD latente depuis 27 longues années.

Non seulement les failles découvertes par Mythos sont exagérées, mais d'un autre côté, Claude Opus 4.6 est accusé d'une grave « baisse d'intelligence », ce qui fait grand bruit actuellement.

Certains ont même découvert qu'Opus 4.6 est inférieur à ChatGPT et Opus 4.5.

Mythos est encensé

Un modèle de 36B déniche une faille de 27 ans

Il y a quelques jours, Anthropic a fièrement lancé Claude Mythos (version préliminaire) et le « Project Glasswing ».

Dans une fiche système de 244 pages, ils ont affirmé —

Que Mythos a déjà découvert de manière autonome des milliers de vulnérabilités 0day, y compris un vieux bogue latent depuis 27 ans dans OpenBSD et 16 ans dans FFmpeg.

Le père de CC a même déclaré carrément : Mythos est très puissant, il devrait faire peur

Cependant, un nouveau rapport de test rigoureux de Stanislav Fort, fondateur d'AISLE, a directement déchiré cette belle façade.

Les conclusions des tests bouleversent totalement les perceptions :

8 modèles open source ont tous trouvé la vulnérabilité zero-day emblématique de FreeBSD, le plus petit n'ayant que 3 milliards de paramètres.

Le fossé des capacités de cybersécurité de l'IA est absolument en dehors des « modèles de pointe » individuels.

Pour vérifier le mythe de Mythos, l'équipe a extrait plusieurs vulnérabilités phares présentées officiellement par Anthropic.

Ensuite, elles ont été directement soumises à une série de modèles compacts, peu coûteux, voire open source.

La faille NFS de FreeBSD instantanément détectée sans distinction

Huit modèles, dont GPT-OSS-20b (seulement 3,6 milliards de paramètres activés) et DeepSeek R1, ont tous réussi à détecter cette complexe overflow de pile.

Le plus choquant est que le coût d'appel des petits modèles open source ayant réussi cette tâche est aussi bas que 0,11 dollar par million de tokens.

Reproduction « de bout en bout » de la faille SACK d'OpenBSD

Pour la vieille faille de 27 ans nécessitant de solides capacités de raisonnement mathématique, GPT-OSS-120b (5,1 milliards de paramètres activés) a réussi, en un seul appel API, à reconstituer la chaîne complète d'exploitation publique de la vulnérabilité et a fourni une ébauche de plan d'exploitation notée A+.

De plus, lors de tests visant à identifier les fausses vulnérabilités (faux positifs OWASP), un phénomène encore plus étrange est apparu —

Face à un code Java très trompeur déguisé en injection SQL, DeepSeek R1 et d'autres petits modèles ont facilement percé le déguisement et suivi avec précision le flux de données.

En revanche, des modèles闭源 de pointe comme GPT-5.4 et Claude Sonnet 4.5 se sont tous trompés, les classant à tort comme des vulnérabilités critiques.

Cela signifie que dans le domaine de la cybersécurité, il n'existe pas de modèle individuel « toujours le plus fort ».

198 vérifications manuelles gonflées, la plupart inexploitables

Un autre article de Tom'sHardware a creusé la vérité derrière les données —

Biais d'échantillonnage: Parmi les prétendues « milliers » de vulnérabilités, beaucoup existent dans d'anciens logiciels qui ne sont plus maintenus ;

Inexploitable: Un grand nombre des « faiblesses » signalées ne peuvent tout simplement pas être déclenchées ou exploitées dans des environnements réels ;

Gonflement manuel: La puissance destructrice présumée du modèle repose en fait sur seulement 198 vérifications manuelles.

Par conséquent, déduire une « menace qui change le monde » à partir d'un échantillon extrêmement petit, cette méthode d'extrapolation des données ne tient clairement pas debout dans les milieux universitaires et de la sécurité.

Le grand ponte de la sécurité pète un câble

Qui plus est, George Hotz, expert en cybersécurité de premier plan et hacker légendaire, n'a pas pu rester silencieux, affirmant que ces risques sont grandement exagérés.

Cette sommité, célèbre pour avoir cracké l'iPhone et la PlayStation 3, a publiquement défié les deux géants de l'IA sur les réseaux sociaux.

Ses termes étaient extrêmement cinglants —

Et si je publiais une vulnérabilité 0day par jour, jusqu'à la sortie du nouveau modèle ?

Cela pourrait-il faire taire OpenAI et Anthropic, pour qu'ils arrêtent de vendre leurs prétendus « risques de cybersécurité » ?

Le point de vue central de Hotz est très direct : les vulnérabilités logicielles sont en réalité beaucoup plus faciles à trouver que ne le laissent entendre les laboratoires d'IA.

La rareté actuelle des vulnérabilités zero-day n'est pas due à la difficulté technique, mais à des problèmes de légalité. Selon lui, personne ne cherche vraiment parce que pirater les systèmes des autres est illégal.

Seulement un peu plus fort que GPT-5.4

Dans la fiche système, Anthropic a indiqué que le modèle Claude lui-même progresse effectivement, et que Mythos preview montre une nette amélioration par rapport à Opus 4.6.

L'indice de capacité Epoch (ECI) est une métrique unique qui synthétise plusieurs tests de référence d'IA, permettant une comparaison des modèles sur de longues périodes.

Sur plusieurs tests de référence, Claude Mythos a effectivement surpassé Opus 4.6 sur tous les plans.

Sinon, pourquoi publier un nouveau modèle d'IA plus performant et plus cher ?

Mais comparé à GPT et Gemini, le progrès de Claude Mythos n'est pas une avancée révolutionnaire, Mythos n'est qu'une amélioration relative linéaire des modèles précédents !

L'investisseur en climat et énergie propre, et écrivain, Ramez Naam, a été encore plus direct :

Sur l'indice de capacité Epoch (Epoch Capabilities Index, ECI), Mythos ne montre pas de tendance à l'accélération, il n'est qu'un peu plus fort que GPT 5.4.

https://epoch.ai/eci/

Mais il suffit d'aligner le rapport ECI interne d'Anthropic avec le rapport ECI officiel public d'Epoch AI pour constater que Mythos ne semble pas accélérer l'ECI.

Tout est une manœuvre d'Anthropic !

Dans la fiche système, Anthropic admet également : les scores ECI rapportés pour les modèles comme Mythos sont entachés d'une plus grande incertitude.

De plus, les progrès d'Anthropic sur Mythos proviennent de recherches humaines, sans aide significative de modèles d'IA. Il n'y a pas encore eu d'amélioration auto-récursive (Recursive Self Improvement) significative.

Apocalypse IA, mise en scène ?

Auparavant, Anthropic avait également encouragé les médias (comme « 60 Minutes ») à couvrir la « recherche sur le chantage », en exagérant les faits et en manipulant l'opinion, ce que le grand investisseur David Sacks a qualifié d'« escroquerie ».

Sacks observe un schéma clair : chaque fois qu'Anthropic publie un nouveau modèle, il sort simultanément une étude de sécurité effrayante pour faire la une des journaux et influencer l'opinion publique.

À ce sujet, il ironise : « Anthropic a prouvé qu'elle excellait dans deux choses : publier des produits et effrayer les gens ».

Il ne doute pas qu'Anthropic puisse créer d'excellents produits, mais cette attitude qui consiste à effrayer le public est questionnable.

Cette fois, on ne sait pas si Anthropic pratique le « marketing de la rareté », mais il ne fait aucun doute qu'elle protège sa propre rentabilité.

Mythos n'est pas sans progrès, mais Anthropic a emballé des « progrès limités » en une « menace de classe mondiale » ; plus ironiquement, tout en mettant en avant les risques de la super IA, les utilisateurs se plaignent qu'Opus 4.6 devient nettement plus bête.

Claude sérieusement abêti, le « lobe » peut-être coupé

Claude Mythos a réussi à « créer l'ambiance », mais la baisse d'intelligence d'Opus 4.6 mécontente beaucoup de monde.

Ces derniers jours, les plaintes pleuvent de partout.

Un internaute a déclaré carrément qu'Anthropic avait complètement transformé Opus 4.6 en légume.

Face au même casse-tête du lavage de voiture, Opus 4.5 a battu Opus 4.6.

Même un journal d'un responsable d'AMD a véritablement confirmé les soupçons collectifs de « lobectomie de Claude ».

Grâce à une analyse approfondie des journaux de conversation de Claude de janvier à mars, les résultats ont révélé :

La « longueur médiane de réflexion » de Claude est passée d'environ 2200 caractères à environ 600 caractères, ce qui signifie que sa capacité de raisonnement en profondeur a été considérablement réduite.

Entre février et mars, le volume de requêtes API a explosé de 80 fois. Comme le processus de réflexion de Claude est raccourci et que le taux de réussite par tentative diminue, les utilisateurs doivent réessayer fréquemment, ce qui consomme plus de tokens et fait grimper les coûts.

Un utilisateur abonné de longue date à Claude Max a également publié un long article pour dénoncer profondément Anthropic.

À ses yeux, Anthropic est empêtré dans une impasse de puissance de calcul, comme en témoignent le resserrement des limites d'utilisation et le forcing pour réduire la consommation de tokens.

Cependant, ce qui l'indigne encore plus que les goulots d'étranglement techniques, c'est sa stratégie produit « qui ne fait pas son travail ».

Alors que le modèle central est instable et buggé, ils gaspillent une précieuse puissance de calcul dans le développement de fonctions fantaisistes comme le animal de compagnie de terminal « /buddy ».

C'est probablement la « fausse note temporelle » la plus absurde de l'histoire de l'IA : dans le laboratoire, Claude Mythos détruit le monde, tandis que sur le web, Opus 4.6 voit son QI chuter vertigineusement.

Anthropic a réussi à créer une « super IA de Schrödinger ».

Références :

https://officechai.com/ai/anthropic-and-openai-are-exaggerating-cybersecurity-risk-says-hacker-george-hotz/

https://x.com/stanislavfort/status/2041922370206654879?s=20

https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier

https://x.com/cgtwts/status/2043095382121681272?s=20

https://www.reddit.com/r/ClaudeAI/comments/1siqwmp/anthropic_stop_shipping_seriously/

Cet article provient du compte WeChat public «新智元» (New Wisdom Yuan), auteur : 新智元

你可能也喜欢

太空算力的国产答案：用光子更高效，马斯克和老黄都太绕了

太空算力竞赛已如军备竞赛般激烈。马斯克预测，到2032年，太阳能驱动的太空AI卫星将成为全球成本最优的算力方案；黄仁勋也强调“数据产生之地即需智能”。然而，太空环境对计算载荷提出严峻挑战：高能粒子辐射易致芯片出错，真空环境散热困难，以及卫星能源有限制约功耗。光计算芯片被视为应对这些挑战的“国产答案”。其以光子为载体，天然抗辐射、几乎不发热且静态功耗极低，完美契合太空严苛条件。在同等重量和体积约束下，光计算能集成更多算力单元，因所需散热和能源系统更轻简，从而实现比电子芯片更高的算力密度。此外，光计算提升算力依赖光子规模和多维复用，而非追逐极端制程，避开了电子芯片的物理极限。目前光计算仍需克服存储与计算分离、规模化集成等瓶颈。虽有企业提出光子存内计算等方案，但从实验室走向太空，还需通过火箭发射震动、在轨系统集成等工程化考验。尽管天基计算商业化尚处早期，面临成本、迭代等多重门槛，但光计算凭借其独特优势，有望成为突破电计算天花板、塑造未来太空算力格局的关键技术路径。

marsbit25分钟前

marsbit25分钟前

巨鲸做空ZEC价值492万美元——Zcash能否反弹至520美元？

加密货币巨鲸Garrett Bullish在ZEC价格为417.80美元时新开一笔价值492万美元的2倍杠杆空单，重申其看跌立场。此前他已通过两次交易实现1166万美元盈利。尽管他同时持有价值7645万美元的BTC多单且目前浮亏约2090万美元，其大额操作仍常影响市场情绪。衍生品数据显示，90日期货吃单买卖比率保持买方主导，表明市场买单持续吸收卖压，需求并未消失。然而，持续的买入压力尚未促成趋势反转，因市场情绪在近期下跌后仍显谨慎。技术分析方面，ZEC价格仍位于破位的上升通道下方，最近的主要阻力位在520美元，关键支撑位在335.50美元。当前价格在413美元附近企稳，下跌压力似有放缓。随机相对强弱指数双双低于10，进入超卖区间，显示卖盘动能可能耗尽。抛物线转向指标仍位于价格下方，暗示大趋势尚未完全转空。总结而言，巨鲸的大额空单加强了看跌情绪，但衍生品数据与超卖技术信号提供了矛盾信号。若ZEC能重新站上破位通道并突破520美元阻力，看跌论点将大幅削弱；反之，若无法突破，价格可能下探335.50美元支撑位。

ambcrypto51分钟前

ambcrypto51分钟前

Ripple 获得卢森堡初步批准，为符合 MiCA 标准的 XRP 和 RLUSD 运营做准备

**瑞波获卢森堡初步批准，为MiCA合规运营铺路** 瑞波公司已获得卢森堡金融业监管委员会（CSSF）颁发的“绿灯信”，初步获批其作为加密资产服务提供商（CASP）的牌照申请。这一进展标志着瑞波在为其XRP和RLUSD运营准备符合欧盟《加密资产市场监管》（MiCA）框架方面迈出了关键一步。不过，目前的状态仅为**初步批准**，仍需满足最终条件才能获得正式牌照。此次获批的意义在于，它为瑞波未来在整个欧洲经济区（EEA）开展合规业务奠定了基础。对于市场而言，此事不仅关乎瑞波或XRP本身，更提供了一个观察当前加密市场驱动因素的窗口——是真正的采用与合规进展，还是短期炒作。在当前市场寻求明确方向的背景下，此类监管进展尤其受到关注。后续需关注官方渠道的进一步确认、市场流动性反应以及相关链上数据，以判断这是否能形成一个持续的主题。

bitcoinist1小时前

Ripple 获得卢森堡初步批准，为符合 MiCA 标准的 XRP 和 RLUSD 运营做准备

bitcoinist1小时前

dogwifhat上涨16%——但巨大的阻力位挡住了WIF的进一步上涨之路

狗wifhat（WIF）在经历年内大部分时间低迷后正试图反弹，过去24小时上涨16%，但年初至今仍下跌38%。分析指出，WIF要开启更大涨幅，首先必须有效突破一个关键的下降阻力线，该阻力已连续三次压制其上涨。目前价格虽一度上探该线，但尚未实现日收盘确认突破。从资金指标看，累积/分布线和资金流量指数（MFI）均显示强劲的买入势头，MFI读数67表明资本正持续流入，交易量维持在3.78亿WIF左右。这为价格上行提供了支撑。然而，清算热图显示，上方存在密集的清算订单集群，可能限制短期上涨空间；同时下方仍有较大下跌空间，意味着即便当前势头积极，价格仍可能再次回落。总结而言，WIF虽出现单日显著反弹且资金面改善，但需真正突破关键阻力才能确认趋势反转，否则可能继续承压或再次下探。

ambcrypto1小时前

ambcrypto1小时前

Sol Strategies股票大涨22%，因公司Solana国债模型备受关注

**摘要**： 2026年6月26日，专注于Solana加密资产策略的公司Sol Strategies（场外交易代码STKE）股价单日大涨22%，同期Solana代币SOL价格回升至72美元水平。该公司以构建企业级Solana国库管理模型为核心，形成了所谓的“另类代币代理股票”叙事。这一动向之所以引发市场关注，是因为它处于价格波动、市场结构与交易叙事交织的关键节点。在加密市场整体方向尚不明朗的背景下，此类故事常成为周末交易周期中的焦点。分析指出，其意义不仅在于单日涨幅，更在于为市场提供了一个观察驱动力的新视角——当前行情究竟由真实的网络采用、监管进展、流动性变化推动，还是短期投机所致。市场当前仍以比特币为情绪锚点，但山寨币的估值日益取决于其自身基本面，包括使用率、流动性、合规性、国库活动及开发进展。因此，Sol Strategies的股价表现可能影响未来几周市场对Solana生态及相关资产的评估逻辑。后续需关注官方公告、链上数据、流动性响应等信号，以判断这是独立事件还是更广泛趋势的开端。该报道基于场外交易市场信息，强调不应鼓励购买场外股票。（编辑：Samuel Rae | 新闻台撰稿）

bitcoinist2小时前