L'angoisse des investisseurs en IA en 2026 : Quand les modèles engloutissent tout, que reste-t-il comme avantage concurrentiel pour les startups ?

marsbitPublié le 2026-06-11Dernière mise à jour le 2026-06-11

Résumé

L'article aborde l'anxiété des investisseurs en IA face à la montée en puissance des modèles génératifs. L'auteure, Sarah Guo, contredit le désespoir qui voudrait que seuls les géants comme Anthropic et NVIDIA soient des investissements valables, car les modèles finiraient par "tout absorber". Elle explique que les benchmarks publics, souvent utilisés pour mesurer les progrès, ne capturent pas la valeur réelle. Les tâches facilement mesurables et standardisées deviennent effectivement des commodités, rapidement assimilées par les modèles de base. La vraie valeur et le véritable avantage concurrentiel ("la douve") résident ailleurs : dans le **terrain non entraînable**. Cela inclut : * **La justesse privée et difficile à obtenir** : La connaissance profonde des systèmes complexes, des données propriétaires et des processus internes d'une entreprise, qui ne peut être vérifiée que par une longue expérience opérationnelle. * **L'intégration et l'adoption** : Le travail laborieux d'intégration dans des environnements clients spécifiques (systèmes informatiques, flux de travail, exigences de conformité), qui prend du temps et repose sur la confiance. * **La responsabilité et l'autorité** : Le fait d'être la partie responsable, d'obtenir les licences nécessaires et de définir, de l'intérieur, ce qui constitue un "bon" résultat pour un domaine donné (comme la médecine ou le droit). Les entreprises qui réussiront ne seront pas de simples "couches fines" autour d'un modèle. Ce...

Auteur : Sarah Guo

Traduction : Shenchao TechFlow

Introduction de Shenchao : Lorsque les grands modèles commencent à surpasser les humains dans tous les classements, les investisseurs sombrent dans un désespoir : à part Anthropic et NVIDIA, où investir ? Cette investisseuse de premier plan de la Silicon Valley utilise des données et des exemples pour démontrer que le véritable avantage concurrentiel ne se trouve pas dans les classements — il est caché là où les repères quantitatifs ne peuvent pas le mesurer.

À mi-2026, la version investisseur de la folie de l'IA est un désespoir : Il n'y a plus rien dans quoi investir, nous devrions tout miser sur Anthropic et NVIDIA puis rentrer chez nous.

Je n'ai jamais ressenti cela. Je suis déjà convaincue que les modèles sont plus intelligents que moi de plusieurs sous-versions, je serais ravie d'acheter des actions d'Anthropic et NVIDIA au prix du marché, tous mes amis les plus brillants sont assez convaincus que l'auto-amélioration va bientôt réussir — mais je ne ressens toujours pas ce désespoir.

Ce désespoir n'est pas stupide. La logique est la suivante : si les modèles continuent de s'améliorer en tout, alors chaque entreprise construite dessus n'est qu'une fine couche d'emballage, en attente d'être absorbée, et la seule valeur qui survive est la puissance de calcul et l'accès à la frontière.

Prenons le logiciel, l'exemple favori des partisans du désespoir. À sa sortie en 2024, Devin ne résolvait que 13% des tâches des repères logiciels standards, il était largement ignoré. Un an et demi plus tard, les meilleurs agents atteignent des scores de plus de 80, et ils font du vrai travail chez Goldman Sachs et l'armée américaine. Presque tout le monde en a tiré la même mauvaise leçon : le modèle a dévoré le génie logiciel. Mais quand le modèle a englouti la partie la plus facilement mesurable du génie logiciel, nous redécouvrons ce que de nombreuses équipes savaient déjà — l'ingénierie a toujours résisté à la mesure, et la partie la plus facilement mesurable n'est peut-être pas la seule importante.

Mert Demirer du MIT et ses collaborateurs ont enfin donné des chiffres : sur plus de 100 000 développeurs, les derniers agents de codage ont augmenté la quantité de code produit d'environ 180 %, mais la quantité de code réellement publiée n'a augmenté que d'environ 30 %. Écrire du code est devenu moins cher. La partie restante doit toujours passer par des humains, et elle est importante. Bien sûr, l'impact net reste stupéfiant.

Un repère quantitatif est ce que vous pouvez mesurer, et ce que vous pouvez mesurer, c'est ce sur quoi vous pouvez entraîner. Par conséquent, les agents de codage ont mûri en premier : le compilateur est un vérificateur gratuit, la suite de tests est un vérificateur gratuit. Quand la réponse se vérifie elle-même gratuitement, vous pouvez la polir contre cette vérification jusqu'à la battre. Mais passer les tests ne vous a jamais dit si ce changement est le bon pour un codebase de dix ans avec trois raisons d'être de modules non documentés et un pipeline de déploiement tenu à bout de bras par un cron job que personne ne veut avouer avoir écrit.

Cette justesse ne se lit pas sur un classement, ni vraiment sur quoi que ce soit d'autre. Vous l'apprenez en faisant tourner le système assez longtemps dans le monde réel pour voir si ça marche, et des modèles plus intelligents ne font pas tourner le monde plus vite. Personne ne fait des tests unitaires sur quelque chose à l'échelle de Google et ne fait confiance au petit crochet vert ; vous y croyez parce que cela a résisté à des années de charge réelle. Une telle justesse n'est pas seulement privée, c'est une lente barrière défensive que le capital ne peut pas écraser. Même les optimistes admettent que l'horloge ne peut pas être avancée : Noam Brown, pionnier des modèles de raisonnement d'OpenAI, a récemment écrit que la seule méthode fiable pour évaluer un agent sur une durée d'un an est peut-être de... le faire fonctionner pendant un an.

Comme le dit Gabe Pereyra, la vraie automatisation n'est pas seulement que le modèle s'améliore. C'est le produit, le modèle, le flux de travail et l'entreprise qui bougent ensemble, et trois de ces quatre éléments bougent à la vitesse d'une organisation.

Faire bouger les gens est la partie que les repères n'atteignent pas : faire changer à un partenaire sceptique sa façon de traiter les affaires, maintenir l'équipe soudée pendant une reconstruction. C'est pourquoi quand nous recrutons un PDG, la capacité à gérer les gens compte au moins autant que les capacités analytiques, et des modèles plus intelligents ne changeront pas ce poids. Le feedback est flou, les délais sont de plusieurs années, la confiance appartient à une personne. Chaque entreprise que je connais a mis des modèles de codage de pointe à disposition de tous ses ingénieurs, mais aucune ne change son organisation d'ingénierie à une vitesse approchant celle-là. L'adoption a pris un trimestre — quel trimestre miraculeux de croissance des tokens ! — mais la reconstruction prend des années.

Ce qui est visible, c'est ce qui est en train de partir. Le travail de valeur est structurellement invisible : tout ce que vous pouvez mettre sur un classement, vous pouvez l'entraîner, donc tout ce qui est mesurable est déjà sur la voie de la commoditisation. Le processus prend du temps et n'est jamais complet, mais la direction ne s'inverse jamais. Pour le dire en termes monétaires avec mon ami Matt MacInnis chez Rippling : les tokens dépensés à répondre à des questions génériques ne valent presque rien, car le modèle de n'importe qui peut y répondre, et les tokens dépensés à raisonner sur les données de votre entreprise valent bien plus, car ils font ce que vous voulez vraiment, pas seulement ce qui semble plausible.

Le travail visible se fait manger par les deux bouts. Par le bas, la saturation des tâches : une fois qu'un travail peut être vérifié à bas coût, l'acheteur ne demande plus quel modèle l'a fait, mais combien il coûte, et le travail revient au modèle open source ou distillé le moins cher de la semaine. Partout où ils peuvent avoir un impact, les marges finissent par compter. Par le haut, les laboratoires essaient de faire en sorte que les modèles avalent leurs propres échafaudages. La recherche, le routage entre appels bon marché et chers, l'utilisation d'outils, même les stratégies de raisonnement — tout l'appareillage qui enveloppait le modèle est tiré dans les poids, jusqu'à ce que l'emballeur soit le modèle. C'est l'absorption de la frontière. La pression sur les marges coupe aussi dans l'autre sens : un agent généraliste doit être prêt à tout, c'est coûteux, et une application spécialisée peut ajuster un flux de travail jusqu'à ce qu'il tourne sur une petite fraction de dépense en tokens, et contrairement au laboratoire qui vend ces tokens, elle garde la différence.

Ainsi, nous pouvons nous poser deux questions pour tout type de travail. Sa justesse est-elle privée et coûteuse à établir, ce genre de vérité qui n'existe qu'à l'intérieur des données de quelqu'un ? Est-elle isolée, verrouillée dans des systèmes que vous ne pouvez pas pénétrer ? Comparez cela au degré de saturation de la tâche, et vous obtenez une matrice 2x2. Le travail saturé avec une réponse publique est un token de commodité, que possèdent les modèles open source. Le travail de frontière avec une réponse publique, là où se situent les repères de codage, est là où les labos gagnent, car quand l'évaluation est gratuite, la posséder ne coûte rien. Le prix est dans le dernier coin, celui qui n'est pas entraînable : le travail de frontière dont la justesse n'existe que dans le domaine privé. Vous pouvez le voir dans les clouds de raisonnement qui hébergent des pionniers nés de l'IA, où la grande majorité des tokens sont générés par des modèles sur mesure, pas par des modèles génériques open source.

Le mur pour entrer dans ce dernier coin est de hauteur variable. Le codebase jouet d'un développeur individuel est portable et standardisé, donc l'escalade est courte. Le système de production d'une banque n'est ni l'un ni l'autre, et vous n'obtenez pas les droits root en étant 2% plus intelligent sur SWE-Bench Verified.

La capacité a mangé beaucoup de choses, mais un meilleur modèle ne transforme pas les faits privés fondamentaux en faits publics. Il ne détient pas de licence, ne signe pas de responsabilité, ne possède pas les documents de l'entreprise, et ne peut pas être la partie poursuivie quand la réponse est fausse. L'intelligence n'est pas le goulot d'étranglement ici. La licence l'est, la responsabilité aussi. Vous pouvez imaginer un modèle beaucoup plus intelligent que n'importe qui, il doit quand même être autorisé à entrer, et quelqu'un doit quand même signer pour ce qu'il fait.

Cette porte a une serrure et un loquet. La serrure est l'environnement : vous ne pouvez vérifier si l'IA fait quelque chose d'utile qu'après avoir été approuvé à l'intérieur du système, après les audits de sécurité, l'intégration, le contrat par lequel vous signez les résultats. Le loquet est l'utilisateur. La plupart des médecins américains ouvrent OpenEvidence tous les jours aujourd'hui, et aucune quantité de puissance de calcul ne peut acheter cela. Un laboratoire pourrait entraîner un modèle médical parfait demain, et ne pourrait toujours pas entrer dans les habitudes du médecin, ou dans le processus décisionnel de l'UCSF, car la confiance se construit lentement, sur des relations, nécessite l'accord implicite de l'utilisateur, pas l'effacement de sa descente de gradient.

Cela aussi, c'est du travail. Une application gagne sa place dans le coin non entraînable en faisant le travail ingrat : organiser la réalité privée de l'entreprise pour que le modèle puisse agir dessus, donner au modèle des outils pour agir, travailler avec le client pour changer la réalité de ses employés. Une entreprise qui apporte la traduction est difficile à copier — et la traduction ne finit jamais. L'intégration et la maintenance durent aussi longtemps que les relations, gagnées par des équipes qui placent des ingénieurs spécialisés du domaine et des outils à côté du client.

Prenez un exemple : dans un grand cabinet d'avocats « white shoe », seulement la pratique de fusions-acquisitions exécute près d'un millier de transactions par an. Pour des raisons de confidentialité et beaucoup d'autres, vous ne pouvez pas laisser des centaines d'associés télécharger chacun des documents clients sur leur bureau et demander à un agent générique de les parcourir, et même si vous pouviez, ce que vous apprendriez serait fragmenté, une correction d'associé à la fois, sans voir comment coule l'ensemble de la transaction. Le signal important existe au niveau de la transaction, et une transaction a une forme : pour les M&A, c'est le NDA, le term sheet, la due diligence, le contrat d'achat, les documents annexes, la liste de clôture ; pour un litige de propriété intellectuelle, ce sont les motions, la découverte, l'art antérieur, plus de motions. Chaque domaine d'activité a le sien, et les avocats et les outils ne sont pas interchangeables entre les domaines. Et le problème réel que le cabinet résout se situe un niveau au-dessus de tout cela : exécuter chaque domaine d'activité en parallèle, comme les meilleurs partenaires dirigent des centaines de dossiers en même temps, tout en introduisant de nouveaux dossiers et en formant les associés. Transformer un tel cabinet n'est pas une tâche unique pour laquelle vous pouvez écrire une évaluation. Cela nécessite un opérateur pour faire une analyse de données, avec un objectif incroyablement flou, des feedbacks incomplets, des délais longs, dans un environnement qui ne reste pas immobile.

Malheureusement, la valeur invisible est aussi difficile à vendre, pour la même raison qu'elle est difficile à commoditiser : une entreprise ne peut pas juger de l'extérieur si l'IA va transformer ses opérations, tout comme le repère quantitatif ne peut pas le juger. Alors les entreprises les plus fortes arrêtent d'essayer de le prouver de l'extérieur et entrent à l'intérieur, en facturant les résultats. Sierra facture quand son agent résout un problème client, et ne facture pas quand il le passe à un humain, donc le prix devient l'évaluation, ce qui ne fonctionne que si Sierra possède la définition de « résolu ». Le Devin de Cognition fait le même mouvement dans le logiciel, offrant des « garanties de performance », que vous ne pouvez fournir que si vous êtes de confiance et à l'intérieur du système.

Même les tokens de service, que tout le monde aime appeler une couche purement de commodité, ne fonctionnent pas comme une commodité. Les meilleures entreprises natives de l'IA concentrent leur service sur un ou deux fournisseurs (Baseten ou Fireworks) parce que le coût par token se commoditise selon le plan, mais pas la fiabilité sous un trafic réel ni l'accès garanti à une puissance de calcul rare. L'endroit où vous servez est un choix différent de celui des modèles que vous utilisez. Le prix est la seule partie du raisonnement qui fonctionne comme une commodité.

Une objection souvent soulevée est que les laboratoires sont vos fournisseurs — pourquoi ne feraient-ils pas tourner leurs propres produits de première main à perte pour vous presser, ou ne révoqueraient-ils pas votre accès API et ne prendraient-ils pas eux-mêmes le marché ? C'est la version réelle du désespoir, et cela ne fonctionne que si la couche modèle est un jeu à un joueur. Manifestement, ce n'est pas le cas — cela ressemble plus à une course mortelle à trois joueurs et demi, avec une foule de joueurs internationaux à six mois d'entraînement de retard, et une ligue de développement cinq fois plus grande que l'année dernière. Les clients veulent de la concurrence entre fournisseurs, et les laboratoires veulent plus de part de marché que de voir mourir une application particulière.

Vous pouvez le voir sur les marchés où les labos s'affrontent directement. Dans le chat grand public, le meilleur modèle n'a jamais simplement gagné. ChatGPT a gardé son avance pendant des années de compétition réelle, et la part qu'il perd maintenant va vers Gemini, grâce à la puissance d'Android et de la recherche, pas à un meilleur modèle. Anthropic, que les marchés prédictifs (et l'ambiance d'internet) classent actuellement comme ayant le meilleur modèle, n'est quasiment pas un acteur dans le chat grand public, mais a construit son activité dans l'entreprise et le codage. Si un meilleur modèle ne peut pas prendre les utilisateurs de concurrents dans l'application la plus centrale, il ne passera pas à travers les dossiers d'hôpitaux ou la responsabilité des banques par intégration. Le choix du public aujourd'hui ne se fonde pas seulement sur le codage. Si la frontière reste encombrée, sa couche supérieure sera précieuse.

Si le travail ne peut pas être noté de l'extérieur, quelqu'un à l'intérieur doit décider de ce qui constitue même une bonne réponse, et cette décision est tout le jeu. Assez de ces décisions, écrites, deviennent un repère quantitatif. Harvey en a publié un pour le droit, Sierra pour les agents vocaux. Vous gagnez le droit de définir ce que « bon » signifie pour un domaine en devenant celui que ce domaine utilise déjà, et ces entreprises ont gagné ce droit par la lutte de l'adoption réelle.

L'évaluation qui décide de l'argent réel est privée et varie selon l'entreprise : cette entreprise, pour ce type d'affaire, acceptera quoi comme bon travail, et c'est loin d'être terminé, car la profondeur du droit rend tout test public insignifiant. OpenEvidence est en train de déterminer à quoi ressemble une réponse clinique sûre. Ce ne sont pas vraiment des mesures, c'est un jugement sur ce qui est vrai et bon, écrit jusqu'à ce que cela devienne la norme contre laquelle tous les autres sont mesurés, et le labo de base, aussi intelligent soit-il, ne peut pas l'écrire, car ce statut n'existe qu'à l'intérieur du domaine. Cette autorité tend à tomber là où elle se trouve déjà. Les avocats chevronnés écrivent le repère juridique. Définir une réponse clinique sûre revient aux médecins. Et « résolu » signifie ce que toute entreprise qui a déjà des clients dit que cela signifie.

La frontière d'absorption monte constamment, car nous apprenons constamment à mesurer plus de travail, et le mesurable est mangé. Le terrain non entraînable rétrécit sous les pieds de quiconque s'y tient, donc vous ne pouvez pas trouver un point défendable et vous reposer. Vous avancez constamment vers tout ce qui ne peut pas encore être noté, vous réassurez constamment. Sur une tâche étroite, avec vos données privées et votre propre évaluation, vous pouvez vous entraîner jusqu'à la frontière et battre le modèle générique là où cela compte, et ce modèle spécialisé fait partie de la barrière défensive. D'un autre côté, concurrencer sur le modèle générique est une guerre du capital, vous perdrez face à celui qui a le plus de puissance de calcul — c'est le piège pour les entreprises ayant un accès superficiel et des tâches visibles. Elle promet de survivre en entraînant au-delà de la frontière dans la gamme des tâches génériques, le jour où le gagnant semble le plus déterminé par la taille des data centers, et la fin n'est généralement pas un champion indépendant mais une vente à quelqu'un de riche en puissance de calcul.

Tout cela est de la défense. L'offensive est plus difficile : choisir quoi construire en premier. C'est ce que je cherche depuis un an, et je l'ai peut-être trouvé trois fois. Le modèle n'aide pas ici. Il fera ce que vous lui montrerez, mais ne peut pas vous dire ce qui vaut la peine d'être montré, vous ne pouvez pas mesurer cela, donc vous ne pouvez pas l'entraîner. C'est aussi pourquoi les entreprises existantes ne prendront pas tout : elles gardent le terrain qu'elles ont, la chose suivante vient de ceux qui découvrent une utilité avant nous tous. Peut-être que l'intention est un input plus rare que la puissance de calcul.

La thèse du désespoir a raison à moitié. Les fines couches d'emballage sont en effet absorbées, et beaucoup de choses qui ressemblent à des entreprises aujourd'hui ne sont que de l'emballage fin. Elle a tort sur ce qui reste. Le mécanisme est clair ; la destination ne l'est pas. Je parierais sur la direction : l'intelligence devient constamment moins chère, la valeur glisse constamment vers les quelques endroits que le modèle ne peut pas atteindre. L'intraînable, c'est la valeur qui a une histoire. Alors entrez dans l'un d'eux, faites la traduction ingrate, commencez à écrire ce que « bon » signifie là-bas, car quelqu'un le fera. Le score de repère le plus cité cette année est une carte d'un territoire qui va bientôt ne rien valoir, et un avis sur qui est sur le point de perdre le droit de dire ce qui compte comme bon.

Questions liées

QSelon l'article, quelle est l'origine du «désespoir» des investisseurs en IA vers 2026 ?

ALe désespoir provient de l'idée que si les modèles d'IA continuent de s'améliorer dans tous les domaines, les entreprises construites dessus ne seraient qu'une fine couche d'emballage, vouée à être absorbée. Seuls la puissance de calcul (comme NVIDIA) et les modèles de pointe (comme Anthropic) sembleraient avoir une valeur durable, laissant peu d'opportunités d'investissement ailleurs.

QD'après l'auteur, pourquoi les «benchmarks» (étalons de mesure) sont-ils un indicateur trompeur pour évaluer la valeur d'une entreprise IA ?

ALes benchmarks mesurent ce qui est facilement quantifiable, et ce qui est quantifiable peut être ciblé et optimisé par l'entraînement des modèles. Par conséquent, le travail qui peut être mesuré par un benchmark est en voie de commoditisation. La vraie valeur et la difficulté résident dans le travail «invisible» : la justesse privée, l'intégration dans des systèmes complexes, la confiance des utilisateurs et la transformation des processus organisationnels, qui ne peuvent pas être capturés par un simple score.

QQuel est le «coin non entraînant» (un-trainable corner) évoqué dans l'article, et pourquoi représente-t-il une opportunité ?

ALe «coin non entraînant» désigne le travail de pointe dont la justesse ne peut être établie que dans un domaine privé et est coûteux à construire. C'est l'endroit où la valeur résiste à la commoditisation parce que la vérité fondamentale (la justesse) est interne à une organisation, dépend de données privées, de relations de confiance, de contraintes légales et d'intégrations complexes. C'est là que les applications spécialisées peuvent créer des avantages durables, car les grands modèles génériques ne peuvent pas facilement y accéder ou reproduire cette valeur.

QComment l'article explique-t-il que des entreprises comme Harvey ou Sierra construisent leur «douve» (fossé concurrentiel) ?

ADes entreprises comme Harvey (droit) ou Sierra (agents conversationnels) construisent leur douve en s'intégrant profondément dans les flux de travail et les systèmes des clients. Elles gagnent le droit de définir ce qui constitue un «bon» résultat dans leur domaine spécifique (par exemple, une réponse clinique sûre, un problème client résolu). Cette autorité vient de l'adoption réelle et de la confiance gagnée auprès des utilisateurs finaux (avocats, médecins). En facturant sur les résultats et en garantissant la performance, elles déplacent l'évaluation du benchmark public vers une définition interne et privée de la valeur, ce qui est difficile à répliquer.

QQuelle est la principale conclusion ou le conseil de l'auteur aux investisseurs et aux entrepreneurs face à l'avancée des modèles d'IA ?

AL'auteur conseille de ne pas céder au désespoir. Au lieu de se concentrer sur les tâches génériques et mesurables (qui seront absorbées), il faut chercher la valeur dans les zones «non entraînables» : les problèmes complexes ancrés dans la réalité privée des organisations, nécessitant une intégration profonde, la construction de confiance et la transformation des processus. La clé est d'entrer dans un de ces domaines, de faire le travail ingrat de «traduction» entre l'IA et les besoins opérationnels, et de commencer à définir ce qui signifie «bien faire» dans cet espace, car c'est là que se construisent les douves durables.

Lectures associées

Derrière les « usines d’IA » de Musk et Huang, une « guerre silencieuse pour l’eau douce » a déjà commencé

Une nouvelle bataille invisible pour les ressources en eau douce se profile derrière les « usines à IA » d'Elon Musk et de Jensen Huang. Contrairement aux récits dominants sur la course aux puces et au calcul, un rapport de l'Université des Nations Unies révèle que l'IA consomme des quantités astronomiques d'eau pour le refroidissement des centres de données. D'ici 2030, l'infrastructure mondiale de l'IA pourrait consommer 9,3 billions de litres d'eau par an, soit les besoins de base annuels de 1,3 milliard de personnes. Cette consommation massive est principalement due aux systèmes de refroidissement par évaporation utilisés dans plus de 70% des centres de données. Pour refroidir les puces haute puissance, de l'eau est évaporée et perdue. Par exemple, l'entraînement de GPT-4 aurait consommé environ 600 millions de litres. Des conflits éclatent, comme à Memphis où le supercalculateur Colossus de xAI, construit en 122 jours, a provoqué une crise en puisant quotidiennement dans les réserves d'eau potable, forçant Musk à construire une usine de retraitement des eaux usées. Face aux critiques, les géants technologiques proposent des solutions comme le refroidissement en circuit fermé (sans évaporation), mais cela augmente la consommation électrique et déplace l'empreinte hydrique vers les centrales. Pour la Chine, la voie à suivre ne doit pas être la reproduction de ce modèle « monstrueux ». La stratégie « Computing from East to West » et le développement d'une intelligence hybride, combinant des puces légères en périphérie (pour les appareils domestiques, les robots) et le cloud, pourraient être la clé pour réduire drastiquement la consommation d'eau et d'énergie de l'IA.

marsbitIl y a 44 mins

Derrière les « usines d’IA » de Musk et Huang, une « guerre silencieuse pour l’eau douce » a déjà commencé

marsbitIl y a 44 mins

L'AGI n'est plus qu'à un pas de distance

En avril, Anthropic a dévoilé le modèle Mythos, capable d'identifier des milliers de vulnérabilités critiques, ce qui a secoué le secteur de la cybersécurité. Considéré trop dangereux pour être publié, il est resté confidentiel jusqu'à la mise en ligne récente de Fable 5, une version dotée de sécurités. La version non censurée, Mythos 5, n'est accessible qu'à environ 200 organismes strictement sélectionnés, comme la Maison Blanche. Les tests révèlent que Fable 5 surpasse largement ses concurrents (Claude Opus 4.8, GPT-5.5, Gemini 3.1 Pro) dans des benchmarks comme SWE-Bench Pro. Une démonstration avec Stripe a montré sa capacité à migrer 50 millions de lignes de code en un jour, démontrant une réelle « capacité d'agence à long terme ». Il ne s'agit plus d'un simple assistant réactif, mais d'un outil capable de planifier, d'exécuter et de corriger des tâches complexes de manière autonome. Selon les critères d'OpenAI, Fable 5 atteint le niveau 3 (Agent) et touche au niveau 4 (Innovateur). Le rythme des progrès laisse penser que le niveau 5 (Organisation, équivalent à l'AGI) pourrait être atteint d'ici 18 à 24 mois. Cette rapidité justifie les mesures de sécurité drastiques. Les rapports internes indiquent que Mythos 5 a atteint un niveau (CB-1) lui permettant théoriquement de guider la création d'armes biochimiques ou de générer des exploits pour des cyberattaques contre des infrastructures critiques. Pour le contenir, Anthropic a implémenté un mécanisme de « routage par rétrogradation silencieuse » (redirigeant les requêtes sensibles vers un modèle moins puissant) et une rétention obligatoire des données de 30 jours pour surveiller les abus. Anthropic facture Fable 5 à un prix élevé (10$/M de tokens en entrée, 50$/M en sortie), le rendant prohibitif pour les particuliers. Cette stratégie vise délibérément le marché B2B, où les entreprises sont prêtes à payer pour un gain de productivité radical et, surtout, pour une défense contre les cybermenaces avancées que seul un modèle comme Mythos 5 peut contrer. Ceci marque la fin de l'ère « gratuite » de l'IA grand public et consacre une division où la technologie la plus avancée devient un bien stratégique réservé aux applications commerciales et gouvernementales, accélérant potentiellement l'avènement des « entreprises à une personne » tout en posant des défis majeurs pour le marché du travail.

marsbitIl y a 57 mins

L'AGI n'est plus qu'à un pas de distance

marsbitIl y a 57 mins

Trading

Spot
Futures
活动图片