Auteur : Sarah Guo
Traduction : Shenchao TechFlow
Introduction de Shenchao : Lorsque les grands modèles commencent à surpasser les humains dans tous les classements, les investisseurs sombrent dans un désespoir : à part Anthropic et NVIDIA, où investir ? Cette investisseuse de premier plan de la Silicon Valley utilise des données et des exemples pour démontrer que le véritable avantage concurrentiel ne se trouve pas dans les classements — il est caché là où les repères quantitatifs ne peuvent pas le mesurer.
À mi-2026, la version investisseur de la folie de l'IA est un désespoir : Il n'y a plus rien dans quoi investir, nous devrions tout miser sur Anthropic et NVIDIA puis rentrer chez nous.
Je n'ai jamais ressenti cela. Je suis déjà convaincue que les modèles sont plus intelligents que moi de plusieurs sous-versions, je serais ravie d'acheter des actions d'Anthropic et NVIDIA au prix du marché, tous mes amis les plus brillants sont assez convaincus que l'auto-amélioration va bientôt réussir — mais je ne ressens toujours pas ce désespoir.
Ce désespoir n'est pas stupide. La logique est la suivante : si les modèles continuent de s'améliorer en tout, alors chaque entreprise construite dessus n'est qu'une fine couche d'emballage, en attente d'être absorbée, et la seule valeur qui survive est la puissance de calcul et l'accès à la frontière.
Prenons le logiciel, l'exemple favori des partisans du désespoir. À sa sortie en 2024, Devin ne résolvait que 13% des tâches des repères logiciels standards, il était largement ignoré. Un an et demi plus tard, les meilleurs agents atteignent des scores de plus de 80, et ils font du vrai travail chez Goldman Sachs et l'armée américaine. Presque tout le monde en a tiré la même mauvaise leçon : le modèle a dévoré le génie logiciel. Mais quand le modèle a englouti la partie la plus facilement mesurable du génie logiciel, nous redécouvrons ce que de nombreuses équipes savaient déjà — l'ingénierie a toujours résisté à la mesure, et la partie la plus facilement mesurable n'est peut-être pas la seule importante.
Mert Demirer du MIT et ses collaborateurs ont enfin donné des chiffres : sur plus de 100 000 développeurs, les derniers agents de codage ont augmenté la quantité de code produit d'environ 180 %, mais la quantité de code réellement publiée n'a augmenté que d'environ 30 %. Écrire du code est devenu moins cher. La partie restante doit toujours passer par des humains, et elle est importante. Bien sûr, l'impact net reste stupéfiant.
Un repère quantitatif est ce que vous pouvez mesurer, et ce que vous pouvez mesurer, c'est ce sur quoi vous pouvez entraîner. Par conséquent, les agents de codage ont mûri en premier : le compilateur est un vérificateur gratuit, la suite de tests est un vérificateur gratuit. Quand la réponse se vérifie elle-même gratuitement, vous pouvez la polir contre cette vérification jusqu'à la battre. Mais passer les tests ne vous a jamais dit si ce changement est le bon pour un codebase de dix ans avec trois raisons d'être de modules non documentés et un pipeline de déploiement tenu à bout de bras par un cron job que personne ne veut avouer avoir écrit.
Cette justesse ne se lit pas sur un classement, ni vraiment sur quoi que ce soit d'autre. Vous l'apprenez en faisant tourner le système assez longtemps dans le monde réel pour voir si ça marche, et des modèles plus intelligents ne font pas tourner le monde plus vite. Personne ne fait des tests unitaires sur quelque chose à l'échelle de Google et ne fait confiance au petit crochet vert ; vous y croyez parce que cela a résisté à des années de charge réelle. Une telle justesse n'est pas seulement privée, c'est une lente barrière défensive que le capital ne peut pas écraser. Même les optimistes admettent que l'horloge ne peut pas être avancée : Noam Brown, pionnier des modèles de raisonnement d'OpenAI, a récemment écrit que la seule méthode fiable pour évaluer un agent sur une durée d'un an est peut-être de... le faire fonctionner pendant un an.
Comme le dit Gabe Pereyra, la vraie automatisation n'est pas seulement que le modèle s'améliore. C'est le produit, le modèle, le flux de travail et l'entreprise qui bougent ensemble, et trois de ces quatre éléments bougent à la vitesse d'une organisation.
Faire bouger les gens est la partie que les repères n'atteignent pas : faire changer à un partenaire sceptique sa façon de traiter les affaires, maintenir l'équipe soudée pendant une reconstruction. C'est pourquoi quand nous recrutons un PDG, la capacité à gérer les gens compte au moins autant que les capacités analytiques, et des modèles plus intelligents ne changeront pas ce poids. Le feedback est flou, les délais sont de plusieurs années, la confiance appartient à une personne. Chaque entreprise que je connais a mis des modèles de codage de pointe à disposition de tous ses ingénieurs, mais aucune ne change son organisation d'ingénierie à une vitesse approchant celle-là. L'adoption a pris un trimestre — quel trimestre miraculeux de croissance des tokens ! — mais la reconstruction prend des années.
Ce qui est visible, c'est ce qui est en train de partir. Le travail de valeur est structurellement invisible : tout ce que vous pouvez mettre sur un classement, vous pouvez l'entraîner, donc tout ce qui est mesurable est déjà sur la voie de la commoditisation. Le processus prend du temps et n'est jamais complet, mais la direction ne s'inverse jamais. Pour le dire en termes monétaires avec mon ami Matt MacInnis chez Rippling : les tokens dépensés à répondre à des questions génériques ne valent presque rien, car le modèle de n'importe qui peut y répondre, et les tokens dépensés à raisonner sur les données de votre entreprise valent bien plus, car ils font ce que vous voulez vraiment, pas seulement ce qui semble plausible.
Le travail visible se fait manger par les deux bouts. Par le bas, la saturation des tâches : une fois qu'un travail peut être vérifié à bas coût, l'acheteur ne demande plus quel modèle l'a fait, mais combien il coûte, et le travail revient au modèle open source ou distillé le moins cher de la semaine. Partout où ils peuvent avoir un impact, les marges finissent par compter. Par le haut, les laboratoires essaient de faire en sorte que les modèles avalent leurs propres échafaudages. La recherche, le routage entre appels bon marché et chers, l'utilisation d'outils, même les stratégies de raisonnement — tout l'appareillage qui enveloppait le modèle est tiré dans les poids, jusqu'à ce que l'emballeur soit le modèle. C'est l'absorption de la frontière. La pression sur les marges coupe aussi dans l'autre sens : un agent généraliste doit être prêt à tout, c'est coûteux, et une application spécialisée peut ajuster un flux de travail jusqu'à ce qu'il tourne sur une petite fraction de dépense en tokens, et contrairement au laboratoire qui vend ces tokens, elle garde la différence.
Ainsi, nous pouvons nous poser deux questions pour tout type de travail. Sa justesse est-elle privée et coûteuse à établir, ce genre de vérité qui n'existe qu'à l'intérieur des données de quelqu'un ? Est-elle isolée, verrouillée dans des systèmes que vous ne pouvez pas pénétrer ? Comparez cela au degré de saturation de la tâche, et vous obtenez une matrice 2x2. Le travail saturé avec une réponse publique est un token de commodité, que possèdent les modèles open source. Le travail de frontière avec une réponse publique, là où se situent les repères de codage, est là où les labos gagnent, car quand l'évaluation est gratuite, la posséder ne coûte rien. Le prix est dans le dernier coin, celui qui n'est pas entraînable : le travail de frontière dont la justesse n'existe que dans le domaine privé. Vous pouvez le voir dans les clouds de raisonnement qui hébergent des pionniers nés de l'IA, où la grande majorité des tokens sont générés par des modèles sur mesure, pas par des modèles génériques open source.
Le mur pour entrer dans ce dernier coin est de hauteur variable. Le codebase jouet d'un développeur individuel est portable et standardisé, donc l'escalade est courte. Le système de production d'une banque n'est ni l'un ni l'autre, et vous n'obtenez pas les droits root en étant 2% plus intelligent sur SWE-Bench Verified.
La capacité a mangé beaucoup de choses, mais un meilleur modèle ne transforme pas les faits privés fondamentaux en faits publics. Il ne détient pas de licence, ne signe pas de responsabilité, ne possède pas les documents de l'entreprise, et ne peut pas être la partie poursuivie quand la réponse est fausse. L'intelligence n'est pas le goulot d'étranglement ici. La licence l'est, la responsabilité aussi. Vous pouvez imaginer un modèle beaucoup plus intelligent que n'importe qui, il doit quand même être autorisé à entrer, et quelqu'un doit quand même signer pour ce qu'il fait.
Cette porte a une serrure et un loquet. La serrure est l'environnement : vous ne pouvez vérifier si l'IA fait quelque chose d'utile qu'après avoir été approuvé à l'intérieur du système, après les audits de sécurité, l'intégration, le contrat par lequel vous signez les résultats. Le loquet est l'utilisateur. La plupart des médecins américains ouvrent OpenEvidence tous les jours aujourd'hui, et aucune quantité de puissance de calcul ne peut acheter cela. Un laboratoire pourrait entraîner un modèle médical parfait demain, et ne pourrait toujours pas entrer dans les habitudes du médecin, ou dans le processus décisionnel de l'UCSF, car la confiance se construit lentement, sur des relations, nécessite l'accord implicite de l'utilisateur, pas l'effacement de sa descente de gradient.
Cela aussi, c'est du travail. Une application gagne sa place dans le coin non entraînable en faisant le travail ingrat : organiser la réalité privée de l'entreprise pour que le modèle puisse agir dessus, donner au modèle des outils pour agir, travailler avec le client pour changer la réalité de ses employés. Une entreprise qui apporte la traduction est difficile à copier — et la traduction ne finit jamais. L'intégration et la maintenance durent aussi longtemps que les relations, gagnées par des équipes qui placent des ingénieurs spécialisés du domaine et des outils à côté du client.
Prenez un exemple : dans un grand cabinet d'avocats « white shoe », seulement la pratique de fusions-acquisitions exécute près d'un millier de transactions par an. Pour des raisons de confidentialité et beaucoup d'autres, vous ne pouvez pas laisser des centaines d'associés télécharger chacun des documents clients sur leur bureau et demander à un agent générique de les parcourir, et même si vous pouviez, ce que vous apprendriez serait fragmenté, une correction d'associé à la fois, sans voir comment coule l'ensemble de la transaction. Le signal important existe au niveau de la transaction, et une transaction a une forme : pour les M&A, c'est le NDA, le term sheet, la due diligence, le contrat d'achat, les documents annexes, la liste de clôture ; pour un litige de propriété intellectuelle, ce sont les motions, la découverte, l'art antérieur, plus de motions. Chaque domaine d'activité a le sien, et les avocats et les outils ne sont pas interchangeables entre les domaines. Et le problème réel que le cabinet résout se situe un niveau au-dessus de tout cela : exécuter chaque domaine d'activité en parallèle, comme les meilleurs partenaires dirigent des centaines de dossiers en même temps, tout en introduisant de nouveaux dossiers et en formant les associés. Transformer un tel cabinet n'est pas une tâche unique pour laquelle vous pouvez écrire une évaluation. Cela nécessite un opérateur pour faire une analyse de données, avec un objectif incroyablement flou, des feedbacks incomplets, des délais longs, dans un environnement qui ne reste pas immobile.
Malheureusement, la valeur invisible est aussi difficile à vendre, pour la même raison qu'elle est difficile à commoditiser : une entreprise ne peut pas juger de l'extérieur si l'IA va transformer ses opérations, tout comme le repère quantitatif ne peut pas le juger. Alors les entreprises les plus fortes arrêtent d'essayer de le prouver de l'extérieur et entrent à l'intérieur, en facturant les résultats. Sierra facture quand son agent résout un problème client, et ne facture pas quand il le passe à un humain, donc le prix devient l'évaluation, ce qui ne fonctionne que si Sierra possède la définition de « résolu ». Le Devin de Cognition fait le même mouvement dans le logiciel, offrant des « garanties de performance », que vous ne pouvez fournir que si vous êtes de confiance et à l'intérieur du système.
Même les tokens de service, que tout le monde aime appeler une couche purement de commodité, ne fonctionnent pas comme une commodité. Les meilleures entreprises natives de l'IA concentrent leur service sur un ou deux fournisseurs (Baseten ou Fireworks) parce que le coût par token se commoditise selon le plan, mais pas la fiabilité sous un trafic réel ni l'accès garanti à une puissance de calcul rare. L'endroit où vous servez est un choix différent de celui des modèles que vous utilisez. Le prix est la seule partie du raisonnement qui fonctionne comme une commodité.
Une objection souvent soulevée est que les laboratoires sont vos fournisseurs — pourquoi ne feraient-ils pas tourner leurs propres produits de première main à perte pour vous presser, ou ne révoqueraient-ils pas votre accès API et ne prendraient-ils pas eux-mêmes le marché ? C'est la version réelle du désespoir, et cela ne fonctionne que si la couche modèle est un jeu à un joueur. Manifestement, ce n'est pas le cas — cela ressemble plus à une course mortelle à trois joueurs et demi, avec une foule de joueurs internationaux à six mois d'entraînement de retard, et une ligue de développement cinq fois plus grande que l'année dernière. Les clients veulent de la concurrence entre fournisseurs, et les laboratoires veulent plus de part de marché que de voir mourir une application particulière.
Vous pouvez le voir sur les marchés où les labos s'affrontent directement. Dans le chat grand public, le meilleur modèle n'a jamais simplement gagné. ChatGPT a gardé son avance pendant des années de compétition réelle, et la part qu'il perd maintenant va vers Gemini, grâce à la puissance d'Android et de la recherche, pas à un meilleur modèle. Anthropic, que les marchés prédictifs (et l'ambiance d'internet) classent actuellement comme ayant le meilleur modèle, n'est quasiment pas un acteur dans le chat grand public, mais a construit son activité dans l'entreprise et le codage. Si un meilleur modèle ne peut pas prendre les utilisateurs de concurrents dans l'application la plus centrale, il ne passera pas à travers les dossiers d'hôpitaux ou la responsabilité des banques par intégration. Le choix du public aujourd'hui ne se fonde pas seulement sur le codage. Si la frontière reste encombrée, sa couche supérieure sera précieuse.
Si le travail ne peut pas être noté de l'extérieur, quelqu'un à l'intérieur doit décider de ce qui constitue même une bonne réponse, et cette décision est tout le jeu. Assez de ces décisions, écrites, deviennent un repère quantitatif. Harvey en a publié un pour le droit, Sierra pour les agents vocaux. Vous gagnez le droit de définir ce que « bon » signifie pour un domaine en devenant celui que ce domaine utilise déjà, et ces entreprises ont gagné ce droit par la lutte de l'adoption réelle.
L'évaluation qui décide de l'argent réel est privée et varie selon l'entreprise : cette entreprise, pour ce type d'affaire, acceptera quoi comme bon travail, et c'est loin d'être terminé, car la profondeur du droit rend tout test public insignifiant. OpenEvidence est en train de déterminer à quoi ressemble une réponse clinique sûre. Ce ne sont pas vraiment des mesures, c'est un jugement sur ce qui est vrai et bon, écrit jusqu'à ce que cela devienne la norme contre laquelle tous les autres sont mesurés, et le labo de base, aussi intelligent soit-il, ne peut pas l'écrire, car ce statut n'existe qu'à l'intérieur du domaine. Cette autorité tend à tomber là où elle se trouve déjà. Les avocats chevronnés écrivent le repère juridique. Définir une réponse clinique sûre revient aux médecins. Et « résolu » signifie ce que toute entreprise qui a déjà des clients dit que cela signifie.
La frontière d'absorption monte constamment, car nous apprenons constamment à mesurer plus de travail, et le mesurable est mangé. Le terrain non entraînable rétrécit sous les pieds de quiconque s'y tient, donc vous ne pouvez pas trouver un point défendable et vous reposer. Vous avancez constamment vers tout ce qui ne peut pas encore être noté, vous réassurez constamment. Sur une tâche étroite, avec vos données privées et votre propre évaluation, vous pouvez vous entraîner jusqu'à la frontière et battre le modèle générique là où cela compte, et ce modèle spécialisé fait partie de la barrière défensive. D'un autre côté, concurrencer sur le modèle générique est une guerre du capital, vous perdrez face à celui qui a le plus de puissance de calcul — c'est le piège pour les entreprises ayant un accès superficiel et des tâches visibles. Elle promet de survivre en entraînant au-delà de la frontière dans la gamme des tâches génériques, le jour où le gagnant semble le plus déterminé par la taille des data centers, et la fin n'est généralement pas un champion indépendant mais une vente à quelqu'un de riche en puissance de calcul.
Tout cela est de la défense. L'offensive est plus difficile : choisir quoi construire en premier. C'est ce que je cherche depuis un an, et je l'ai peut-être trouvé trois fois. Le modèle n'aide pas ici. Il fera ce que vous lui montrerez, mais ne peut pas vous dire ce qui vaut la peine d'être montré, vous ne pouvez pas mesurer cela, donc vous ne pouvez pas l'entraîner. C'est aussi pourquoi les entreprises existantes ne prendront pas tout : elles gardent le terrain qu'elles ont, la chose suivante vient de ceux qui découvrent une utilité avant nous tous. Peut-être que l'intention est un input plus rare que la puissance de calcul.
La thèse du désespoir a raison à moitié. Les fines couches d'emballage sont en effet absorbées, et beaucoup de choses qui ressemblent à des entreprises aujourd'hui ne sont que de l'emballage fin. Elle a tort sur ce qui reste. Le mécanisme est clair ; la destination ne l'est pas. Je parierais sur la direction : l'intelligence devient constamment moins chère, la valeur glisse constamment vers les quelques endroits que le modèle ne peut pas atteindre. L'intraînable, c'est la valeur qui a une histoire. Alors entrez dans l'un d'eux, faites la traduction ingrate, commencez à écrire ce que « bon » signifie là-bas, car quelqu'un le fera. Le score de repère le plus cité cette année est une carte d'un territoire qui va bientôt ne rien valoir, et un avis sur qui est sur le point de perdre le droit de dire ce qui compte comme bon.





