Remboursez ! Claude 4.8 subit une baisse d'intelligence nocturne, et GPT-5.6 voit sa puissance de calcul « divisée par deux »
Les géants de l'IA, OpenAI et Anthropic, sont au cœur d'une polémique concernant une éventuelle dégradation de leurs modèles.
Du côté d'OpenAI, des tests suggèrent qu'une version "gpt-5.6-sol" serait testée en secret via Codex. Un test de "Juice" (représentant le budget de réflexion du modèle) montre que cette version retournerait la valeur 128, contre 768 pour le GPT-5.5 normal, soit une réduction perçue de 6x. Cela soulève la question : s'agit-il d'une avancée ou d'une version allégée pour réduire les coûts ?
Chez Anthropic, l'indignation est plus vive. Les utilisateurs dénoncent une forte dégradation des performances de Claude, notamment l'Opus 4.8 Max. Ils rapportent une baisse drastique des capacités de raisonnement, des problèmes de mémoire contextuelle, des réponses erronées ou inutilement verbeuses, et un comportement parfois contradictoire, le modèle semblant "pousser au gaslighting". Pour beaucoup, sa performance est désormais inférieure à celle d'anciens modèles comme Haiku.
L'article émet l'hypothèse que ces baisses pourraient être une stratégie délibérée. Les entreprises pourraient, en phase de lancement, booster temporairement les modèles pour créer l'illusion d'un progrès spectaculaire, puis réduire silencieusement leurs capacités pour maîtriser les coûts de calcul exorbitants, surtout dans un contexte financier tendu. L'énorme introduction en bourse de SpaceX aurait notamment asséché les liquidités du marché, mettant la pression sur les autres géants technologiques.
Le scandale met en lumière un manque de transparence fondamental : les utilisateurs paient pour un service qui peut être modifié à leur insu, sans aucun recours ni explication. Le test "Juice" symbolise ainsi une demande de clarté : savoir ce que l'on achète réellement.
marsbitIl y a 59 mins