Anthropic 数据:Les appels d'Agent IA sont concentrés à près de 50 % dans l'ingénierie logicielle, ces 16 domaines verticaux restent des marchés vierges

marsbitPublié le 2026-02-24Dernière mise à jour le 2026-02-24

Résumé

Une étude d'Anthropic révèle que près de 50% des appels aux outils d'IA Agent concernent le génie logiciel, tandis que 16 autres secteurs verticaux (santé, droit, finance, éducation, etc.) représentent chacun moins de 5% de l'activité. Ceci indique un immense potentiel inexploité pour environ 300 futures licornes des IA verticales. Bien que les modèles comme Claude puissent exécuter des tâches nécessitant près de 5 heures de travail humain, la durée médiane d’une session n’est que de 42 minutes, révélant un "déficit de confiance" qui constitue une opportunité commerciale cruciale. La confiance évolue avec l'usage : les nouveaux utilisateurs approuvent automatiquement 20% des sessions, contre plus de 40% après 750 interactions. Les utilisateurs expérimentés adoptent une surveillance proactive plutôt qu’un contrôle préalable. Les créateurs devront intégrer des données propriétaires, concevoir des workflows spécialisés et gérer le changement organisationnel pour réussir dans ces niches. La régulation devrait favoriser la supervision humaine sans imposer une approbation systématique qui freinerait la productivité.

Auteur : Garry's List

Compilation : Deep Tide TechFlow

Guide Deep Tide : Anthropic a récemment publié l'étude la plus complète à ce jour sur l'utilisation réelle des Agents IA. Le chiffre clé est : l'ingénierie logicielle représente près de 50 % du volume d'appels aux outils d'Agent, tandis que 16 domaines verticaux comme la santé, le droit, l'éducation, etc., réunis, représentent moins de la moitié du reste, chaque domaine ayant une part inférieure à 5 %.

Ce n'est pas un signal de saturation du marché, mais une carte vers 300 licornes de l'IA verticale – ce qui est encore plus précieux, c'est une découverte contre-intuitive citée dans l'article : le modèle peut déjà travailler de manière autonome pendant près de 5 heures, mais les utilisateurs ne lui laissent en réalité travailler que 42 minutes. Ce "déficit de confiance" est en soi la prochaine opportunité produit.

Texte intégral :

L'ingénierie logicielle représente près de 50 % de tous les appels aux outils d'Agent IA. Des domaines verticaux comme la santé, le droit, la finance, etc., sont presque intacts, chacun en dessous de 5 %. Cela signifie que 300 licornes de l'IA verticale attendent d'être construites.

Si je devais créer une entreprise aujourd'hui, je fixerais la zone rouge du graphique en barres ci-dessus jusqu'à voir mon avenir.

Aaron Levie, fondateur de Box, a déclaré :

Ce graphique est un bon rappel de l'ampleur des opportunités actuelles dans le domaine des Agents IA.

Il y aura bien sûr de nombreuses opportunités d'Agents horizontaux, mais tout autant de flux de travail nécessitent une expertise sectorielle profonde pour vraiment aider les utilisateurs à automatiser les processus uniques de leur domaine vertical.

Le modèle est : construire un logiciel d'Agent intégrant des données propriétaires, capable de relier efficacement l'utilisateur et l'Agent pour traiter les flux de travail, tout en ayant une capacité approfondie d'ingénierie contextuelle spécifique au domaine, ainsi qu'une capacité à piloter la gestion du changement côté client.

De nombreux domaines présentent encore d'énormes lacunes.

L'ingénierie logicielle occupe la moitié de toutes les activités d'Agent IA. L'autre moitié est dispersée dans 16 domaines verticaux, aucun ne dépassant 9 %. La santé représente 1 %, le droit 0,9 %, l'éducation 1,8 %. Ce ne sont pas des marchés saturés, ce sont des marchés qui n'existent presque pas.

Anthropic vient de publier l'étude la plus complète à ce jour sur l'utilisation réelle des Agents IA. La découverte principale est : l'ingénierie logicielle représente 49,7 % du volume d'appels aux outils d'Agent sur son API. La conclusion principale enfouie derrière est : tout le reste est un marché vierge.

Retard de déploiement

Une donnée devrait exciter les entrepreneurs : les capacités du modèle dépassent de loin ce que les utilisateurs sont prêts à lui faire confiance.

L'évaluation des capacités de METR montre que Claude peut résoudre des tâches qui nécessiteraient près de cinq heures à un humain. Mais en utilisation réelle, la durée de session au 99,9e centile n'est que d'environ 42 minutes. Cet écart – entre ce que l'IA peut faire et ce que nous lui permettons de faire – est une énorme opportunité.

Figure : La durée d'entraînement la plus longue de Claude Code a presque doublé en trois mois. Cela améliore non seulement les capacités, mais aussi la confiance.

Source :x.com

D'octobre 2025 à janvier 2026, la durée de session unique au 99,9e centile a presque doublé, passant de moins de 25 minutes à plus de 45 minutes. La croissance a été régulière entre les versions du modèle. Ce n'est pas seulement que le modèle devient plus fort, c'est que les utilisateurs apprennent au fil des utilisations, étendant progressivement leur confiance envers l'Agent.

"D'août à décembre, le taux de réussite de Claude Code sur les tâches les plus difficiles des utilisateurs internes a doublé, tandis que le nombre d'interventions humaines par session est passé de 5,4 à 3,3."

La capacité est déjà là, le déploiement n'a pas suivi. Ce n'est pas un problème, c'est une opportunité produit.

Comment la confiance évolue

20 % des nouveaux utilisateurs approuvent automatiquement les actions de Claude Code. Au bout de 750 sessions, plus de 40 % des sessions fonctionnent en mode d'approbation automatique complète. Mais il y a une découverte contre-intuitive : les utilisateurs expérimentés interviennent plus, pas moins. Les nouveaux utilisateurs interviennent sur 5 % des tours, les anciens utilisateurs sur 9 %.

Figure : La confiance est une compétence qui s'accumule continuellement. Les nouveaux utilisateurs approuvent automatiquement 20 % des sessions. Au bout de 750 sessions, ce pourcentage dépasse 40 %.

Image : Anthropic

Source: x.com

Ce n'est pas contradictoire, mais un changement de stratégie de supervision. Les débutants approuvent progressivement avant l'action, les anciens utilisateurs autorisent d'abord, puis interviennent en cas de problème – ils sont passés de l'approbation préalable à la surveillance active.

Voici une découverte notable au niveau de la sécurité : sur les tâches complexes, Claude Code demande activement des clarifications plus de deux fois plus souvent que les interventions humaines actives. L'Agent marque une pause pour confirmer, au lieu de foncer tête baissée. C'est une caractéristique, pas un défaut.

"La révélation centrale de cette étude est : l'autonomie exercée par l'Agent en pratique est co-construite par le modèle, l'utilisateur et le produit. Claude marque une pause pour poser des questions en cas d'incertitude, limitant ainsi son indépendance. Les utilisateurs bâtissent la confiance en collaborant avec le modèle et ajustent leur stratégie de supervision en conséquence."

L'approche de Levie pour l'IA verticale

Aaron Levie a pointé l'énorme richesse et valeur attendant d'être débloquées : construire un logiciel d'Agent intégrant des données propriétaires, lui faisant vraiment résoudre des problèmes et des personnes réelles, le bourrant de contexte pour maximiser la production intelligente, et – c'est la partie que la plupart des entrepreneurs ignorent – piloter la gestion du changement côté client.

Ce dernier point est précisément pourquoi l'IA verticale est si difficile à reproduire. N'importe qui peut créer un wrapper d'API, mais peu peuvent vraiment naviguer les flux de travail spécifiques, les contraintes réglementaires et les résistances organisationnelles propres à la facturation médicale, la découverte légale ou l'approbation de permis de construire.

Le SaaS a multiplié sa taille par dix chaque décennie au cours des dernières décennies. Plus de 40 % des fonds de capital-risque des 20 dernières années ont été dirigés vers des entreprises SaaS. Cette industrie a donné naissance à plus de 170 licornes SaaS. La logique est simple : chacune de ces licornes a une version d'IA verticale qui attend d'apparaître. Et la version IA pourrait être dix fois plus grande, car elle remplace non seulement le logiciel, mais aussi les opérateurs.

La nature de la co-construction

La découverte principale d'Anthropic mérite l'attention sérieuse de toute personne participant à l'élaboration des politiques d'IA. L'autonomie n'est pas un attribut inhérent au modèle, mais est co-construite par le modèle, l'utilisateur et le produit. Les évaluations pré-déploiement ne peuvent pas capturer cela, vous devez le mesurer dans une utilisation réelle.

Anthropic a officiellement déclaré :

L'ingénierie logicielle représente environ 50 % du volume d'appels aux outils d'Agent sur notre API, mais nous voyons aussi émerger d'autres industries. Alors que les frontières entre risque et autonomie continuent de s'étendre, la surveillance post-déploiement devient cruciale. Nous encourageons les autres développeurs de modèles à étendre cette recherche.

Les chiffres au niveau de la sécurité sont rassurants : 73 % des appels d'outils ont un humain dans la boucle, et seulement 0,8 % des opérations sont irréversibles. Les scénarios de déploiement à plus haut risque – comme les fuites de clés API ou les transactions cryptographiques autonomes – sont surtout des évaluations de sécurité, et non des environnements de production réels.

"Les exigences réglementaires qui prescrivent des modes d'interaction spécifiques – par exemple exiger l'approbation humaine de chaque opération – ne font que créer des frictions, sans nécessairement apporter de gains de sécurité."

Les politiques imposant "d'approuver chaque opération" tuent les gains de productivité sans augmenter la sécurité. Un meilleur objectif est de s'assurer que les humains peuvent surveiller et intervenir, plutôt que de prescrire des flux de travail d'approbation spécifiques.

Où se cachent les licornes

La carte est déjà tracée. L'ingénierie logicielle est déjà prise en charge. La santé, le droit, la finance, l'éducation, le service client, la logistique – 16 domaines verticaux, chacun avec une part de marché à un chiffre – attendent que quelqu'un intègre véritablement l'expertise sectorielle dans l'Agent.

300 licornes SaaS sont nées auparavant, les 300 prochaines licornes de l'IA verticale sont sur le point d'apparaître. Les fondateurs qui choisissent un domaine vertical, intègrent l'expertise sectorielle dans l'Agent, et comprennent comment piloter la gestion du changement, posséderont le marché des logiciels d'entreprise de la prochaine décennie.

Le modèle peut déjà travailler cinq heures, les utilisateurs ne le laissent travailler que 42 minutes. C'est le signal : nous en sommes encore aux tout débuts, il reste énormément de choses à construire, et dans d'innombrables endroits qui n'ont pas encore vu ne serait-ce qu'une minute d'intelligence en action.

Questions liées

QQuel est le principal domaine d'activité des agents d'IA selon les données d'Anthropic, et quelle est sa part ?

ALe génie logiciel est le principal domaine d'activité, représentant près de 50 % de toutes les utilisations d'outils par les agents d'IA.

QCombien de domaines verticaux sont mentionnés comme étant des marchés encore largement inexploités (zones bleues) pour les agents d'IA ?

A16 domaines verticaux, dont la santé, le droit, la finance et l'éducation, sont mentionnés comme des marchés encore largement inexploités, chacun représentant moins de 5 % des appels d'outils.

QQuelle est la durée maximale pendant laquelle le modèle Claude peut fonctionner de manière autonome selon l'évaluation des capacités, et combien de temps les utilisateurs lui permettent-ils réellement de travailler en moyenne ?

ASelon l'évaluation des capacités, Claude peut résoudre des tâches nécessitant près de cinq heures de travail humain. Cependant, dans une utilisation réelle, la durée moyenne d'une session au 99,9e percentile n'est que d'environ 42 minutes.

QQuel pourcentage de nouvelles sessions d'utilisateurs sont automatiquement approuvées pour Claude Code, et comment ce pourcentage évolue-t-il avec l'expérience ?

A20 % des nouvelles sessions d'utilisateurs sont automatiquement approuvées. Après 750 sessions, ce pourcentage dépasse 40 %, car les utilisateurs expérimentés passent d'une approbation préalable à une surveillance active.

QQuel est le plus grand défi pour les startups qui souhaitent développer des agents d'IA verticaux, selon les observations d'Aaron Levie ?

ALe plus grand défi est de gérer le changement côté client, c'est-à-dire de naviguer dans les flux de travail spécifiques, les contraintes réglementaires et les résistances organisationnelles propres à chaque domaine vertical, comme la facturation médicale ou les découvertes juridiques.

Lectures associées

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

L’ingénieur post-entraînement d’OpenAI, Weng Jiayi, explore une nouvelle approche pour l’IA agentique appelée « Heuristic Learning » (HL). Contrairement aux méthodes d’apprentissage par renforcement profond qui améliorent les modèles via l’ajustement des paramètres du réseau neuronal, le HL utilise un agent de codage (comme Codex) pour écrire, exécuter, déboguer et modifier itérativement des stratégies sous forme de code logiciel explicite (règles, contrôleurs, etc.). Dans des expériences sur Atari Breakout, l’agent a développé une stratégie purement Python atteignant le score théorique maximal de 864 points. Testé sur 57 jeux Atari, le HL a montré une efficacité d’échantillonnage initiale élevée, rivalisant avec des algorithmes comme le PPO dans certains jeux, mais révélant des limites dans des tâches complexes nécessitant une planification à long terme (ex: Montezuma’s Revenge). Les avantages potentiels du HL incluent une meilleure interprétabilité, une auditabilité pour les systèmes critiques (robotique, autonome), et une intégration aux flux d’ingénierie logicielle existants pour l’apprentissage continu. Weng Jiayi envisage une synergie future où les réseaux neuronaux gèrent la perception et l’estimation d’état, le HL gère les règles, la sécurité et la mémoire, et un agent LLM supervise les retours et les améliorations. Cette approche suggère qu’avec des agents de codage suffisamment puissants, l’expérience pourrait être encapsulée dans du code maintenable plutôt que dans des poids de modèles opaques.

marsbitIl y a 38 mins

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

marsbitIl y a 38 mins

CoreWeave, que Duan Yongping a racheté à bas prix, est en train de devenir un champ de bataille acharné entre les haussiers et les baissiers

Le fournisseur de capacité de calcul cloud pour l'IA, CoreWeave, a vu son action chuter de 11,4% le 8 mai suite à la publication de résultats du premier trimestre 2025. Si les revenus ont plus que doublé pour atteindre 2,08 milliards de dollars, les pertes nettes se sont également aggravées, dépassant les 740 millions de dollars. Le principal déclencheur de la vente a été une prévision de revenus pour le T2 inférieure aux attentes du marché. L'action illustre une division extrême entre les optimistes et les pessimistes. Les arguments des haussiers reposent sur un carnet de commandes atteignant près de 100 milliards de dollars, une diversification de la clientèle (incluant désormais Anthropic et Meta) et un lien profond avec Nvidia, à la fois investisseur, client et fournisseur. Leur récent succès en matière de financement par dette à un coût relativement bas renforce également cette vision. Cependant, les baissiers soulignent la détérioration de la rentabilité : malgré une marge EBITDA ajustée élevée de 56%, la marge opérationnelle ajustée n'est que de 1%, écrasée par l'explosion des coûts d'infrastructure. La dette totale, d'environ 25 milliards de dollars, et les dépenses d'investissement massives (prévues entre 7 et 9 milliards de dollars au T2) alimentent les inquiétudes sur le modèle financier. Les ventes régulières d'actions par les initiés ajoutent à la méfiance. Cette polarisation est incarnée par l'investisseur chinois Duan Yongping, connu comme un disciple de Warren Buffett, qui a pris une position initiale modeste (0,12% de son portefeuille) dans CoreWeave au quatrième trimestre 2024, proche des plus bas de l'année. Son geste contraste avec les ventes d'initiés. Le prochain test crucial interviendra avec les résultats du T2. Si la marge opérationnelle ne se redresse pas comme promis par la direction, la crédibilité du récit optimiste à long terme de CoreWeave sera sérieusement mise à l'épreuve, transformant potentiellement cette divergence en un piège pour les investisseurs.

marsbitIl y a 50 mins

CoreWeave, que Duan Yongping a racheté à bas prix, est en train de devenir un champ de bataille acharné entre les haussiers et les baissiers

marsbitIl y a 50 mins

La première édition chinoise du "Burning Man Tech" fait ses débuts à Shanghai, muShanghai construit une "ville éphémère" mondiale pour les geeks

Du 10 mai au 6 juin 2026, muShanghai a lancé l'expérience "Pop-up City" à Shanghai, co-organisée par la communauté open-source internationale The Mu et le centre Alibaba de Hongqiao. Cet événement de 28 jours, surnommé le "Burning Man technologique" à la chinoise, a réuni des développeurs, chercheurs et entrepreneurs de plus de cinquante pays pour explorer de nouvelles possibilités de collaboration entre l'homme et la technologie à l'ère de l'IA. L'événement a attiré plus de 2000 candidatures, avec plus de 800 participants sélectionnés venant des États-Unis, d'Argentine, du Canada, du Japon, de France, d'Afrique du Sud, du Royaume-Uni, de Chine, etc. Parmi eux figuraient d'anciens ingénieurs d'OpenAI, des fondateurs de startups et des contributeurs clés d'OpenClaw. Le programme s'est articulé autour de quatre semaines thématiques avec près de 100 activités : Semaine IA (avec des intervenants de Kimi, Zhipu AI, Ant Bailing, etc.), Semaine Biotech, Semaine Robotique et Semaine Culturelle. Un "marché des innovateurs" en extérieur avait lieu chaque vendredi, encourageant le partage public des projets (Build in Public) pour une itération rapide. Le centre Alibaba de Hongqiao a servi de plateforme clé, offrant un soutien intégré aux talents internationaux. The Mu, communauté à l'origine de l'événement, a déjà mené des projets similaires en Argentine et à San Francisco. Cette initiative visait à créer une "ville parallèle" pour les geeks du monde entier, servant à la fois de vitrine pour l'écosystème d'innovation chinois et de pont pour une collaboration technologique mondiale.

marsbitIl y a 51 mins

La première édition chinoise du "Burning Man Tech" fait ses débuts à Shanghai, muShanghai construit une "ville éphémère" mondiale pour les geeks

marsbitIl y a 51 mins

Trading

Spot
Futures
活动图片