Partenaire de Dragonfly, Haseeb : Pourquoi les entreprises à la croissance la plus rapide à l'avenir pourraient toutes rester bloquées à 149 personnes

链捕手Publié le 2026-06-24Dernière mise à jour le 2026-06-24

Résumé

L'article explore l'impact économique des modèles de tarification des grands modèles de langage (LLM) comme ceux d'Anthropic. Il souligne un écart significatif : les startups et petites entreprises bénéficient d'abonnements forfaitaires peu chers (équivalant à une subvention, voire une taxe négative sur l'automatisation par IA), tandis que les grandes entreprises (plus de 150 utilisateurs) paient des coûts à l'usage avec une forte majoration, assimilable à une "taxe" de 75% sur la main-d'œuvre IA. Cette différence crée des incitations opposées. Les startups sont incitées à maximiser l'usage ("tokenmaxxing") pour automatiser autant que possible, avec un coût marginal nul. Les grandes entreprises, pénalisées par un coût marginal élevé, automatisent moins et conservent davantage de main-d'œuvre humaine. L'auteur compare cela à une politique fiscale non intentionnelle qui pourrait façonner l'économie. Il prédit deux conséquences : 1) Le remplacement des emplois se produira principalement par la défaite des grandes entreprises face aux startups agiles et automatisées, plutôt que par des licenciements massifs directs dans les grands groupes. 2) Un "effet de seuil" à 150 employés pourrait inciter les entreprises les plus dynamiques à rester en dessous de ce cap pour conserver l'avantage tarifaire, favorisant une gestion "AI-first" extrême et des structures minimalistes.

Auteur : Haseeb

Compilation : Jiahuan, ChainCatcher

@SemiAnalysis_ a récemment découvert un phénomène incroyable dans l'économie de l'abonnement à la programmation IA. Si vous utilisez l'abonnement au maximum, le montant que vous payez est en réalité 20 à 70 fois moins cher que l'achat de jetons via l'API.

Beaucoup de gens voient cela et disent : "Mon Dieu, regardez combien ces entreprises de grands modèles subventionnent sur les jetons, la bulle va sûrement éclater bientôt."

Cette réaction est erronée. Si les entreprises de grands modèles sont prêtes à offrir des forfaits aussi généreux, c'est naturellement parce que la plupart des utilisateurs atteignent rarement la limite supérieure. Ce produit est comme un abonnement de salle de sport : la limite est large parce que la grande majorité des gens ne l'utilisent tout simplement pas beaucoup.

Mais j'ai passé beaucoup de temps à réfléchir à cela, et il y a en effet quelque chose de bizarre ici.

Nous ne pouvons pas connaître leur marge bénéficiaire réelle sur les abonnements, mais selon les estimations de SemiAnalysis, avec un taux d'utilisation moyen de 20 %, le plan Max 5x d'Anthropic atteint tout juste le seuil de rentabilité. Un taux d'utilisation de 20 % pourrait même être surestimé, surtout dans les organisations où tout le monde (y compris les non-développeurs) a un compte d'abonnement mais ne l'utilise qu'occasionnellement. La plupart des institutions que je connais, y compris Dragonfly, distribuent généreusement des abonnements Claude Code et encouragent même le personnel non technique à essayer.

La raison est la suivante : lorsque vous dépassez 150 personnes, vous êtes forcé de quitter le mode d'abonnement appelé "Team". Vous devez passer à la version "Enterprise", tarifée à 20$ par poste de base, plus des frais d'API calculés sur la consommation réelle de jetons. Les entreprises ne peuvent payer que de manière linéaire selon le coût en jetons, et SemiAnalysis estime que la marge brute sur les jetons de l'API est d'environ 75%. Il s'agit d'une énorme augmentation de prix qui se déclenche soudainement lorsque vous atteignez 150 personnes.

Donc, si vous êtes une petite entreprise ou une startup (ou un particulier), votre perception des dépenses en IA est faussée. Votre tarification des jetons est en fait très avantageuse, et Anthropic pourrait maintenir une marge très faible, voire négative, sur vous.

Vous vous demandez peut-être pourquoi Microsoft et Uber s'alarment tant des dépenses en jetons et parlent tant de "réduction des jetons" (token-mining). La raison est là. Leur coût structurel par jeton est beaucoup plus élevé que celui des startups et des particuliers.

Mais Anthropic s'en moque ! Pour une entreprise B2B, extraire la valeur maximale des petites entreprises ou des particuliers n'a pas beaucoup de sens. Regardez des entreprises comme Datadog ou Cloudflare, 80% à 90% de leurs revenus proviennent de gros contrats (revenu annuel récurrent supérieur à 100 000$). Faire zéro profit sur la clientèle de longue traîne n'est qu'un coût d'acquisition de clients.

C'est une mentalité de vente B2B classique.

Mais il existe une autre façon d'aborder la même situation : sous l'angle de la politique fiscale.

Parce que si les jetons remplacent la main-d'œuvre, alors la marge brute qu'OpenAI et Anthropic perçoivent sur les jetons est en réalité une taxe sur la main-d'œuvre IA.

Regarder la tarification des jetons de cette manière conduit à deux conséquences principales.

La tarification des jetons en tant que politique fiscale

Supposons que les marges bénéficiaires décrites dans l'article de SemiAnalysis soient correctes : les abonnements atteignent le seuil de rentabilité, la marge brute de l'API pour les grandes entreprises est de 75%. La première réaction est de l'appeler une taxe de 75% sur la main-d'œuvre IA pour les grandes organisations, et de 0% pour les startups.

Une analyse fiscale standard dirait que cela dissuade les grandes entreprises d'utiliser la main-d'œuvre IA en interne, incitant marginalement les entreprises à réduire l'automatisation et à conserver davantage de main-d'œuvre humaine. (Évidemment, cela encourage également l'utilisation de modèles plus petits ou open-source, mais l'effet net est que les deux sont encouragés. Souvenez-vous, nous parlons ici de la marge.)

Cependant, ce qui détermine le plus fortement les comportements n'est pas le taux moyen. En politique fiscale, ce n'est jamais le cas. Ce qui nous intéresse vraiment, c'est le taux marginal.

Pour une startup qui utilise un abonnement forfaitaire, le prix marginal du prochain jeton est de zéro jusqu'à ce qu'elle atteigne la limite. Et un prix marginal de zéro est la plus grande distorsion qu'une politique puisse créer.

Pour les startups, le modèle d'abonnement est essentiellement une subvention à l'innovation. L'incitation la plus écrasante est de réfléchir à la manière de dépenser tout son budget de jetons de la manière la plus efficace possible. Cela signifie exécuter des boucles Ralph, faire défiler des écrans remplis de sessions Claude Code, planifier des hordes d'agents intelligents pour travailler ensemble.

Avant d'atteindre la limite, l'exploration est gratuite. Les startups sont donc en compétition pour presser la dernière goutte de valeur de leur abonnement, cherchant à surpasser leurs concurrents par la production. Paradoxalement, plus elles utilisent, plus le prix moyen par jeton baisse. Chaque startup veut être celle qui fait perdre le plus d'argent à Anthropic sur l'abonnement.

Les grandes entreprises font face à des incitations opposées. Si vous dépassez les 150 postes, chaque jeton supplémentaire dans l'exploration est facturé au prix plein majoré (avec une majoration de 75% !), donc plus elles explorent la frontière, plus la pénalité augmente linéairement.

Les grandes entreprises automatiseront toujours les tâches évidentes et en gros volumes, mais l'automatisation marginale, expérimentale et risquée ne sera jamais découverte parce que le coût de découverte est trop élevé. Cette structure fiscale les incite finalement à conserver plus de personnel et à maintenir leur structure organisationnelle globale existante.

C'est exactement le contraire du Japon. En raison du déclin démographique, le Japon fait face à une énorme pénurie de main-d'œuvre. Historiquement, cela signifiait que le Japon recherchait une automatisation élevée, car le coût élevé de la main-d'œuvre incitait à l'automatisation. C'est pourquoi il y a des robots dans les restaurants, usines, hôtels et hôpitaux japonais.

Mais curieusement, les grandes entreprises se retrouvent dans un dilemme opposé à celui du Japon : si elles doivent payer une taxe très élevée pour utiliser l'IA, cela affaiblit en fait l'incitation à automatiser et renforce la motivation à conserver leurs employés existants (cela est d'autant plus visible si les salaires stagnent pendant ce temps).

Alors, dans ce modèle, où va le remplacement de la main-d'œuvre ?

Tout le monde regarde les grandes entreprises, attendant une vague de licenciements liés à l'IA. Mais avec une taxe de 75%, remplacer trop agressivement ses propres employés par de l'IA pourrait ne pas du tout être rentable, le budget en jetons exploserait simplement.

Mais cela ne signifie pas que le remplacement ne se produira pas. Il se manifestera simplement sous une forme différente.

Lorsque les grandes entreprises perdent des parts de marché au profit de startups natives IA dont le coût total de main-d'œuvre est très bas, la baisse de leurs revenus et de leur cours en bourse déclenchera des licenciements. Mais les emplois qui ont disparu ne réapparaîtront jamais dans les startups gagnantes. L'effet net de réduction est le même, ce déficit d'emplois est simplement transféré à une autre partie de l'économie avec un taux d'imposition plus faible.

C'est aussi pourquoi le "AI-washing" (présenter des licenciements ordinaires comme une nouvelle efficacité grâce à l'IA) pourrait ne pas être un phénomène temporaire. Le AI-washing, c'est lorsqu'une entreprise attribue les licenciements à l'efficacité de l'IA, alors qu'elle dissimule en fait simplement une faiblesse commerciale ordinaire.

Beaucoup pensent que ce n'est qu'une mode passagère dans le cycle actuel de battage médiatique autour de l'IA. Cependant, bien que tout le monde s'attende à voir de véritables licenciements liés à l'IA dans les grandes entreprises, à des "remplacements de postes" par l'IA, cela pourrait ne jamais se produire à grande échelle.

Le remplacement de la main-d'œuvre pourrait se dérouler d'une autre manière : les startups battent les grandes entreprises, les grandes entreprises dissimulent leur déclin sous couvert de l'IA jusqu'à leur faillite, et les startups ne recréent jamais ces anciens emplois. Le remplacement des emplois se produira toujours, mais pas là où tout le monde regarde.

C'est la première conséquence de ce modèle. Mais il y a une seconde conséquence, plus étrange.

La falaise des 150 personnes

Un seuil réglementaire ("Notch") est une limite qui induit un changement brutal de comportement. Par exemple : le seuil des 30 heures par semaine pour un emploi à temps plein a généré une multitude d'emplois programmés à exactement 29 heures par semaine.

Il est bien connu que la France a des réglementations du travail extrêmement strictes qui s'appliquent aux entreprises dès qu'elles atteignent 50 employés (comité d'entreprise, partage obligatoire des bénéfices, protection contre les licenciements), les petites entreprises étant exemptées. Cela donne aux employeurs une énorme motivation pour maintenir coûte que coûte leur taille en dessous de 50 personnes.

Extrait de : Garicano, Luis, Claire Lelarge et John Van Reenen, 2016, "Distorsions de la taille des entreprises et distribution de la productivité : Évidence de la France".

Étendons cette analogie à l'IA. Les entreprises de grands modèles ont placé un seuil fiscal qui pénalise les entreprises dépassant 150 postes. Cela signifie que vous devez rester petit pour conserver ce magnifique prix d'abonnement subventionné, qui impose une taxe d'environ 0% (voire négative) sur les jetons, contre 75%.

Cela pourrait donner naissance à une toute nouvelle philosophie de gestion d'entreprise. Les startups deviendront de plus en plus obsédées par la résolution de tout avec des agents, avec des équipes plus petites, des licenciements plus fréquents, plus d'externalisation, épuisant tous les moyens possibles pour que le nombre d'interventions humaines nécessaires soit aussi faible que possible.

Ce n'est pas parce que c'est le degré "optimal" d'automatisation, mais parce que les incitations les y poussent. Si le nombre magique est 149, alors chaque poste est crucial, vous ne pouvez vous permettre de gaspiller une seule personne en dehors des fonctions essentielles de l'entreprise.

Cette fracture pourrait être considérée par les personnes du genre Harvard Business School comme une "nouvelle génération de gestion prioritaire à l'IA". Mais en réalité, si on la comprend bien, ce n'est qu'une réponse rationnelle aux plans de tarification des entreprises.

Cela peut sembler exagéré. Mais vous pouvez déjà voir des différences de comportement entre les organisations. Parlez aux développeurs des grandes entreprises, ils comptent méticuleusement leurs jetons, de plus en plus anxieux à l'idée que la direction réduise le budget en jetons. Pendant ce temps, les développeurs des startups s'efforcent de maximiser leur utilisation ("tokenmaxxing"), lançant des hordes d'agents du jour au lendemain et regardant les journaux le matin. Je prévois que cette tendance s'accélérera.

Personne n'a délibérément conçu tout cela. Aucun comité n'a décidé de subventionner l'innovation pour les startups et de taxer les entreprises établies. Tout cela découle directement des stratégies de tarification d'entreprise traditionnelles qui ont fait leurs preuves.

Mais la fiscalité a toujours été ainsi : un tas de règles accessoires finissent par déterminer quelles entreprises peuvent être créées et comment ces entreprises se déforment pour minimiser leur charge fiscale.

Vous pourriez objecter que c'est temporaire, que les entreprises de grands modèles finiront par facturer à l'usage pour tout le monde. Github Copilot a déjà effectué cette transition. Peut-être, mais peut-être pas. Mais avant que la tarification ne revienne à la normale, les entreprises de 149 personnes et cette nouvelle gestion prioritaire à l'IA auront peut-être déjà explosé, avalé de grandes parts de marché et écrit le scénario pour la prochaine génération de startups.

La politique fiscale est cruciale. L'ensemble du concept d'"économie des petits boulots" (gig economy) n'existe que grâce à la limite légale entre les statuts W-2 (salarié) et 1099 (travailleur indépendant). Alors que de plus en plus de main-d'œuvre est grignotée par l'IA, la tarification des jetons pourrait devenir la politique fiscale la plus influente de la prochaine décennie. Pourtant, personne ne votera jamais pour cela.

(Ne soyez pas surpris si, lors du prochain cycle, les entreprises à la croissance la plus rapide se retrouvent toutes bloquées de manière visible à 149 postes.)

Questions liées

QQuel est l'argument principal de Haseeb concernant les modèles de tarification des entreprises d'IA comme Anthropic ?

AL'argument principal est que les entreprises d'IA comme Anthropic appliquent un modèle de tarification à deux vitesses : une offre d'abonnement forfaitaire et subventionnée pour les petites entreprises (

QPourquoi Haseeb compare-t-il la tarification des tokens à une politique fiscale ? Quelles en sont les conséquences selon lui ?

AHaseeb fait cette comparaison car le prix des tokens détermine le coût de remplacement du travail humain par l'IA. Une marge élevée (75%) sur les tokens pour les grandes entreprises agit comme une "taxe" sur la main-d'œuvre IA, décourageant l'automatisation marginale et expérimentale. Inversement, le coût marginal nul pour les startups (

QQu'est-ce que le "seuil des 150 personnes" et pourquoi pourrait-il devenir un point de rupture critique pour les entreprises ?

ALe "seuil des 150 personnes" est la limite imposée par des entreprises comme Anthropic pour basculer du tarif d'abonnement "Team" (subventionné) au tarif "Entreprise" (à la consommation avec forte marge). Ce seuil crée un "point de rupture réglementaire" (regulatory notch). Pour éviter une augmentation massive des coûts d'IA, les entreprises auront une incitation rationnelle à rester en dessous de 149 employés/places, en automatisant et externalisant au maximum. Cela pourrait conduire à une nouvelle philosophie de gestion "IA-first" où les entreprises se déforment délibérément pour rester petites et conserver leur avantage tarifaire.

QSelon l'article, comment le comportement des développeurs diffère-t-il entre les grandes entreprises et les startups face à l'utilisation de l'IA ?

ALe comportement est radicalement différent en raison des incitations opposées. Dans les grandes entreprises, les développeurs sont contraints à une comptabilité stricte des tokens, soucieux de ne pas dépasser les budgets et sous pression pour réduire la consommation (token-mining). Dans les startups bénéficiant d'un abonnement forfaitaire, les développeurs cherchent au contraire à maximiser l'utilisation (tokenmaxxing), lançant sans compter des essais, des boucles et des essaims d'agents IA pour extraire toute la valeur de leur abonnement, le coût marginal étant nul jusqu'à la limite.

QQue signifie le terme "AI-washing" dans le contexte de cet article, et pourquoi l'auteur pense-t-il que ce phénomène pourrait persister ?

ADans cet article, "AI-washing" désigne la pratique d'une grande entreprise qui attribue des licenciements ordinaires (dus à des difficultés commerciales) à une amélioration de l'efficacité grâce à l'IA, pour paraître plus innovante ou justifier des coupes. L'auteur pense que ce phénomène pourrait persister car, avec une "taxe" de 75% sur les tokens, il n'est souvent pas rentable pour une grande entreprise de remplacer massivement ses employés par de l'IA. Le vrai remplacement se produit lorsque les startups, subventionnées, leur prennent des parts de marché. Les grandes entreprises pourraient donc continuer à utiliser le prétexte de l'IA pour masquer un déclin structurel, tandis que les emplois perdus ne réapparaîtront jamais dans les nouvelles entreprises gagnantes.

Lectures associées

Jingdong et Mira Murati, ancienne CTO d'Open AI, misent sur la même piste de l'IA

Imaginez un scénario où un système d’IA perçoit et réagit en temps réel aux événements du monde physique sans attendre de demande explicite. C’est la promesse du modèle JoyAI-VL-Interaction, récemment rendu open source par JD.com. Il s’agit du premier modèle d’interaction visio-linguistique en temps réel entièrement open source, capable d’analyser un flux vidéo continu pour décider quand intervenir, quand rester silencieux ou quand déléguer une tâche complexe à un autre modèle. Contrairement aux assistants classiques fonctionnant en "tour par tour" (question-réponse), cette approche permet à l’IA d’être proactive dans des situations où l’utilisateur n’a pas le temps ou la capacité de formuler une requête : aide aux personnes âgées, assistance aux malvoyants, commentaire sportif automatique, surveillance industrielle ou robotique. JD.com n’est pas seul à explorer cette voie : Mira Murati, ancienne CTO d’OpenAI, et son laboratoire Thinking Machines Lab promeuvent une vision similaire des "modèles d’interaction". La particularité de JD.com est de placer la vision (plutôt que la voix) au cœur de la prise de décision, et de s’appuyer sur ses vastes données issues de scénarios réels (logistique, vente au détail, santé) pour entraîner le modèle. Le modèle, léger (8B paramètres) et conçu pour être déployé sur du matériel accessible (comme une carte graphique RTX 3090), est accompagné de son système d’inférence, de jeux de données et d’une documentation technique complets. JD.com ouvre ainsi la voie à une adoption large par les développeurs, visant à faire de l’IA proactive un élément central de l’intégration du numérique dans le monde physique.

marsbitIl y a 13 mins

Jingdong et Mira Murati, ancienne CTO d'Open AI, misent sur la même piste de l'IA

marsbitIl y a 13 mins

Google commence à vendre ses TPU, les géants cherchent à produire des "jetons à bas prix" avec des puces IA

Google commence désormais à vendre directement ses puces TPU (Tensor Processing Unit) et ses solutions matérielles de calcul IA aux centres de données tiers et aux clients. Ces puces, conçues spécifiquement pour les opérations mathématiques de tenseurs et de matrices, sont au cœur du fonctionnement des grands modèles d'IA. Auparavant, les TPU n'étaient accessibles que via la location dans les centres de données cloud de Google. Cette stratégie permet à Google de proposer une alternative à l'écosystème NVIDIA (GPU, CUDA), non pas en se positionnant sur la puissance brute, mais sur l'efficacité et la réduction des coûts, notamment pour l'inférence des modèles. L'objectif est de produire des "tokens" à moindre coût, un facteur clé pour démocratiser l'utilisation de l'IA à grande échelle. Google, à l'instar des grands fournisseurs de cloud comme Huawei Cloud et Alibaba Cloud, ne vend pas seulement du matériel. Il propose un écosystème complet intégrant puces, clusters, logiciels et services, transformant la puissance de calcul en une "productivité" directement utilisable. Cela reflète une évolution du marché : la compétition ne porte plus seulement sur la puissance des puces, mais sur la capacité à offrir une "meilleure puissance de calcul" – c'est-à-dire la solution la plus efficace et la plus économique pour des besoins variés. Ainsi, le marché de l'infrastructure IA évolue d'une "guerre des puces" vers une "guerre des systèmes". Si NVIDIA conserve sa position dominante pour l'entraînement des modèles et son écosystème mature, la montée en puissance de ces alternatives centrées sur le coût et l'efficacité opérationnelle redessine le paysage concurrentiel.

marsbitIl y a 17 mins

Google commence à vendre ses TPU, les géants cherchent à produire des "jetons à bas prix" avec des puces IA

marsbitIl y a 17 mins

Analyse de rapport : Le secteur des semi-conducteurs a bondi de 155 %, Bernstein estime que NVDA et AVGO sont "absurdement bon marché"

Résumé : Le cabinet Bernstein a publié son analyse trimestrielle du secteur des semi-conducteurs. Le point central est que l'IA est désormais le principal moteur de croissance, portant l'indice SOX à une hausse de 155% sur un an. La hausse est jugée fondamentalement saine. Bernstein souligne une divergence forte au sein du secteur. Malgré des valorisations globalement élevées pour le secteur (P/E de 34,1x), l'analyste estime que les leaders clés de la chaîne d'approvisionnement en IA, NVIDIA (NVDA) et Broadcom (AVGO), sont "absurdement bon marché". Cela s'explique par leurs perspectives de croissance à long terme (p.ex. Blackwell pour NVDA) et leurs positions dominantes. Les deux sociétés sont notées « Surperformance ». Le cabinet a amélioré sa recommandation sur AMD à "Surperformance", citant des opportunités à la fois dans l'IA/GPU et dans les CPU. En revanche, il reste prudent sur Qualcomm (QCOM, "Égalité avec le marché"), en raison des pressions sur le marché des smartphones. Les équipementiers semi-conducteurs restent favorisés. Pour les semi-conducteurs analogiques, la valorisation est jugée élevée malgré la reprise. Bernstein met en garde contre deux risques principaux : un niveau de participation historiquement élevé des investisseurs dans le secteur et une montée des niveaux d'inventaire qui pourrait peser sur les prix si la demande faiblissait. L'analyse conclut qu'en dépit de la solide demande d'IA, la sélectivité est désormais cruciale.

marsbitIl y a 1 h

Analyse de rapport : Le secteur des semi-conducteurs a bondi de 155 %, Bernstein estime que NVDA et AVGO sont "absurdement bon marché"

marsbitIl y a 1 h

Entretien long avec le PDG d'Anthropic : Quand l'IA devient une super-arme, comment trouver l'équilibre entre commerce et sécurité ?

Dario Amodei, PDG d'Anthropic, discute de l'équilibre entre innovation commerciale et responsabilité sécuritaire dans le développement de l'IA. Il évoque son départ d'OpenAI dû à des divergences de valeurs et un manque de confiance, et défend la stratégie d'Anthropic axée sur les applications entreprises pour aligner modèle économique et éthique. Il aborde les risques sociétaux, notamment la suppression potentielle de nombreux emplois de cols blancs, tout en proposant des solutions pour une transition positive. Amodei insiste sur la nécessité d'une coopération entre acteurs de confiance pour établir des normes de sécurité élevées, citant sa collaboration avec Google. Concernant la sécurité nationale, il justifie les contrats avec le Département de la Défense américain par la nécessité de contrer des adversaires, mais en fixant des limites strictes contre la surveillance de masse ou les armes autonomes. Il explique également la non-publication du modèle "Mythos", jugé trop puissant et risqué, en attendant des mécanismes de défense adaptés. Enfin, il rejette l'idée d'un "moment" singulier d'auto-amélioration de l'IA, décrivant plutôt une accélération exponentielle graduelle. Il conclut sur la nécessité d'une gouvernance équilibrée, évitant à la fois le contrôle exclusif par des entreprises privées ou par les gouvernements.

marsbitIl y a 1 h

Entretien long avec le PDG d'Anthropic : Quand l'IA devient une super-arme, comment trouver l'équilibre entre commerce et sécurité ?

marsbitIl y a 1 h

Trading

Spot
Futures
活动图片