Par | Usine des Modèles du Monde
Claude est-il devenu moins intelligent ?
Récemment, Stella Laurenzo, Directrice Senior du groupe AI chez AMD, a critiqué Anthropic.
Elle a utilisé les journaux de production réels de son équipe pour effectuer une analyse rétrospective de 17 871 blocs de réflexion dans 6 852 fichiers de session, totalisant 234 760 appels d'outils.
Les données montrent que Claude a commencé à présenter une dégradation significative de son comportement à partir de la mi-février.
La médiane de la réflexion de Claude est passée de 2200 caractères à seulement 600 caractères, une baisse de 67% à 73% ;
Le nombre de lectures des fichiers avant édition est passé de 6,6 fois à seulement 2 fois, et un tiers des modifications étaient même effectuées sans lire le fichier du tout.
Stella a souligné dans son analyse qu'en raison de la baisse des capacités de raisonnement, le modèle a progressivement cessé de lire complètement le code avant de le modifier.
Elle a écrit : "Lorsque la réflexion est superficielle, le modèle adopte par défaut l'opération la moins coûteuse".
Ce n'est pas un cas isolé, dès le mois de mars, le mécontentement des développeurs avait commencé à exploser.
Sur X, un utilisateur a écrit : "Je pensais être devenu fou ces dernières semaines avec Claude. Il semble plus lent, plus paresseux, comme s'il ne réfléchissait pas avant de répondre, et le résultat est que je n'ai pas d'hallucinations".
Sur Reddit, un utilisateur s'est plaint : "Claude semble moins conscient, comme s'il avait subi une lobotomie. En plus d'être devenu plus bête, il commence aussi à effectuer des opérations extrêmes sans demander...".
D'autres ont exprimé que c'était une trahison flagrante d'Anthropic envers ses utilisateurs : "Ils ont simplement rendu le problème invisible pour nous tous les utilisateurs, comme s'ils pensaient 'si vous ne pouvez pas le mesurer, nous ne vous le montrerons pas'... C'est le résultat des laboratoires d'IA qui optimisent les profits plutôt que la qualité de la production".
Des plaintes des utilisateurs aux preuves données par les données, le comportement de réduction d'intelligence de Claude est pratiquement confirmé.
Et la réponse officielle d'Anthropic a également reconnu que la profondeur de réflexion et l'effort (effort) étaient continuellement ajustés.
Si cela est délibéré de la part d'Anthropic, cela signifie-t-il qu'à l'avenir, les capacités du modèle pourraient "rétrécir" à notre insu ?
Ou bien, les capacités du modèle le plus puissant ne seront plus offertes équitablement à tous ?
La réduction d'intelligence de Claude est "délibérée"
Claude Opus 4.6 et son mode dédié au codage Claude Code, lors de leur lancement en janvier 2026, étaient considérés par les développeurs comme le summum du codage.
Sa profondeur de réflexion était impressionnante, sa priorité (research-first - recherche d'abord), le traitement des contextes longs était stable, et la refactorisation multi-fichiers était presque imbattable.
L'équipe interne d'AMD l'a même utilisé pour fusionner et mettre en ligne 190 000 lignes de code legacy en un week-end, boostant directement la productivité.
Cependant, le tournant s'est produit début février.
Anthropic a discrètement lancé la fonctionnalité "adaptive thinking" (pensée adaptative), décrite officiellement comme "permettant au modèle d'ajuster intelligemment la profondeur de sa réflexion en fonction de la complexité de la tâche".
En apparence, c'est convivial pour l'utilisateur, mais en réalité, cela a activé un interrupteur global de rationnement.
Début mars, la valeur d'effort (effort) par défaut du modèle a été discrètement abaissée à "medium", tandis que le résumé du processus de réflexion était rapidement masqué, empêchant les utilisateurs de voir d'un coup d'œil à quel point le modèle avait réfléchi.
À la même période, Anthropic a publié 14 petites mises à jour successives, mais a subi 5 pannes à grande échelle, montrant que la pression sur la puissance de calcul et la charge atteignait ses limites.
Les retours des développeurs ont commencé à exploser, certains remarquant que les performances étaient particulièrement mauvaises aux heures de pointe (après-midi heure de l'Est), soupçonnant un rationnement dynamique dû à la charge.
Ce n'est qu'en avril que la directrice AI d'AMD est entrée personnellement en scène, confirmant la situation avec des données et déclenchant complètement la controverse.
À ce stade, Boris Cherny, responsable de Claude Code chez Anthropic, a dû publier une réponse officielle.
Il a déclaré que "l'adaptive thinking" affectait l'affichage de la pensée (thinking), et non le raisonnement sous-jacent, et a insisté sur le fait qu'il s'agissait d'une "optimisation délibérée" et non d'un bug. Il a suggéré aux utilisateurs de régler manuellement l'effort sur "high" pour améliorer les résultats.
Le sous-entendu d'Anthropic est clair : la réduction d'intelligence n'est pas un bug, c'est une optimisation produit que nous avons spécifiquement mise en place, il vous suffit de ajuster les paramètres vous-mêmes.
Cette réponse a instantanément attisé une colère encore plus grande.
Le point clé est que, de la mi-février à début avril, Anthropic n'a jamais annoncé à l'avance aucun changement majeur.
Un grand nombre d'utilisateurs payants, sans en avoir la moindre idée, ont payé un abonnement inchangé tandis que le modèle était discrètement rationné.
Ainsi, la réduction d'intelligence de Claude n'est pas due à un modèle "déréglé", mais à une action plus discrète et plus commerciale de la part d'Anthropic :
En réduisant la profondeur de réflexion par défaut, ils échangent contre une vitesse plus rapide, une charge réduite et des coûts GPU inférieurs.
Stratification des capacités des modèles
Derrière cette tempête de réduction d'intelligence se cache un phénomène alarmant :
Les capacités des modèles commencent déjà à être stratifiées.
Le calculs de Stella sont clairs : selon la tarification à la demande (on-demand) d'AWS Bedrock, le coût réel d'inférence de son équipe en mars était d'environ 42 121 dollars, alors que les frais d'abonnement mensuels réels à Claude Code payés le même mois n'étaient que de 400 dollars.
Cet écart montre au moins que, dans des scénarios d'utilisation extrêmement intensive, il existe un énorme fossé entre la tarification par abonnement et la consommation réelle de puissance de calcul.
Il est fort probable qu'Anthropic ait acquis des parts de marché en brûlant du capital, mais ces subventions ont des limites.
Lorsque la consommation d'inférence des utilisateurs intensifs atteint un certain seuil, la durabilité du modèle commercial commence à vaciller.
Boris Cherny, dans sa réponse, a révélé un signal clé : Anthropic teste l'activation par défaut du mode "high effort" pour les utilisateurs Teams et Enterprise.
En d'autres termes, un raisonnement plus puissant est en train d'être configuré comme une ressource plus coûteuse et stratifiée, ce n'est plus une capacité obtenue par défaut de manière égale pour tous.
Cela signifie que le modèle commercial des grands modèles va se diviser davantage.
Aujourd'hui, 80 % des revenus d'Anthropic proviennent des services aux entreprises et des appels d'API, les clients B2B à forte fidélité sont le véritable pilier.
Les actions actuelles d'Anthropic visent toutes à ramener l'utilisation par les entreprises vers sa propre plateforme de première partie.
Pour les clients B2B à haute valeur, Anthropic va probablement accélérer le lancement de versions entreprise plus puissantes, offrant les capacités complètes du modèle aux clients entreprises qui en paient le coût réel.
Quant aux utilisateurs grand public (C端) payant un abonnement mensuel, ils devront se contenter de la version à intelligence réduite "suffisante", satisfaisant des besoins allégés comme le chat, la rédaction de textes, la complétion de code, mais ne touchant jamais au seuil de coût critique.
Quant à la zone intermédiaire, ces développeurs indépendants et petites équipes qui ont besoin de raisonnements complexes mais ne peuvent pas supporter les tarifs entreprises, deviendront le groupe le plus squeezé.
Un utilisateur sur X a confirmé dans un post :
"Les performances de l'API entreprise de Claude sont bien meilleures que l'abonnement Pro/Max. En testant avec le même framework de test, le comportement de la version entreprise et de Pro/Max est simplement différent. Mais cela signifie aussi devoir dépenser maintenant 4 à 12k dollars par mois, selon le nombre de threads que je exécute simultanément".
En d'autres termes, le futur chemin de commercialisation des grands modèles sera probablement priorité B2B, réduction des coûts C端.
Qui paiera pour la réduction d'intelligence ?
L'événement de réduction d'intelligence de Claude n'est pas un cas isolé, mais le reflet de l'ensemble du secteur de l'IA entrant dans la seconde mi-temps de la commercialisation.
Que ce soit OpenAI avec ses réductions silencieuses et multiples de la série GPT, ou Google avec sa limitation de débit discrète pour Gemini, tous répètent le même scénario :
D'abord attirer les utilisateurs avec des hautes performances, puis contrôler les coûts via un rationnement logiciel.
Le résultat inévitable est que le secteur B2B peut acheter des modèles plus puissants à un prix élevé, avec des garanties SLA en plus, tandis que le grand public (C端) reçoit des modèles distillés, à faible effort.
La vitesse à laquelle les modèles grand public (C端) deviennent plus intelligents a déjà nettement pris du retard sur le secteur B2B.
Plus grave encore, cette différenciation est implicite.
Anthropic et autres fabricants réduisent le budget d'inférence d'une manière difficile à détecter, sans que l'utilisateur moyen ne reçoive aucune notification.
Ce choix peut peut-être soulager la pression des coûts de calcul à court terme, mais le prix à long terme est la perte de confiance dans la marque.
Lorsque "Claude réduit discrètement son intelligence" deviendra une conviction commune parmi les utilisateurs, Anthropic perdra non seulement quelques utilisateurs intensifs, mais aussi la confiance de tout l'écosystème dans le récit de l'IA universelle et transparente.
Plus宏观地看 (De manière plus宏观 - macro), l'événement Claude est le reflet du passage de l'industrie de l'IA d'une croissance sauvage à une culture intensive.
La période de subvention est terminée, les coûts réels commencent à apparaître, qui va assumer ces coûts ?
Est-ce en compressant l'expérience grand public (C端) et en augmentant les tarifs entreprises, ou en attendant une révolution logicielle/matérielle apportant une percée en efficacité, tout cela déterminera le paysage des applications d'IA pour les cinq prochaines années.
La tendance future est déjà visible, l'IA n'est plus le mythe universel de plus en plus intelligent, mais évolue vers une stratification élitiste.






