Économisez 300 millions de Tokens par semaine : Le guide de mise en cache du code Claude par un ingénieur d'Anthropic

marsbitPublié le 2026-05-24Dernière mise à jour le 2026-05-24

Résumé

Claude Code utilise un mécanisme de cache pour réduire considérablement le coût des tokens. Les tokens mis en cache ne coûtent que 10% du prix des tokens d'entrée normaux. L'auteur a ainsi économisé 3 milliards de tokens en une semaine, dont 91 millions en un seul jour, grâce à la réutilisation du contexte. Le cache fonctionne par correspondance de préfixe et est organisé en trois couches : système (instructions globales), projet (CLAUDE.md, règles) et conversation (historique). Pour le forfait Claude Code, la durée de vie du cache (TTL) est d'une heure. Les actions qui réinitialisent le cache incluent le changement de modèle et l'activation du mode "Opus plan". Pour optimiser l'utilisation : - Ne laissez pas une session inactive plus d'une heure. - Lors d'un changement de tâche, effectuez une transition claire (session handoff) plutôt que de reprendre une ancienne conversation. - Évitez de basculer fréquemment entre les modèles. - Pour les grands documents, utilisez la fonctionnalité Projects plutôt que de les coller dans le chat. En surveillant le taux de réutilisation du cache (cache read), les utilisateurs peuvent prolonger efficacement leurs sessions et réduire leurs coûts, un objectif aligné avec les intérêts d'Anthropic en matière d'efficacité des services.

Note de la rédaction : Beaucoup de personnes utilisant Claude Code ont l'impression que les Tokens sont consommés trop vite et que les longues sessions épuisent facilement le quota. Mais du point de vue d'un ingénieur d'Anthropic, ce qui impacte réellement le coût, ce n'est pas tant la quantité de code écrite, mais plutôt la réutilisation continue du contexte déjà traité.

L'essentiel de cet article est d'expliquer comment économiser des Tokens via un mécanisme de cache. L'auteur a réutilisé plus de 300 millions de Tokens en une semaine grâce au cache, avec un pic quotidien de 91 millions. Le coût d'un Token en cache n'étant que de 10% de celui d'un Token d'entrée classique, 91 millions de Tokens en cache équivalent en facturation à environ 9 millions de Tokens normaux. Si les longues sessions de Claude Code semblent plus "économes", ce n'est pas parce que le modèle travaille gratuitement, mais parce qu'une grande partie du contexte répétitif est réutilisée avec succès.

La clé du "Prompt caching" est de "ne pas interrompre le cache". Claude Code met en cache de manière hiérarchique l'invite système, les définitions d'outils, CLAUDE.md, les règles du projet et l'historique de la conversation ; tant que le préfixe des requêtes suivantes reste cohérent, Claude peut lire directement depuis le cache au lieu de retraiter tout le contexte. Anthropic surveille également en interne le taux de réutilisation du cache de prompts, car cela affecte non seulement le quota utilisateur, mais aussi directement le coût du service de modèle et son efficacité opérationnelle.

Pour l'utilisateur lambda, il n'est pas nécessaire de comprendre tous les détails techniques, mais plutôt d'adopter quelques bonnes pratiques clés : ne pas laisser une session inactive plus d'une heure ; effectuer un transfert de session propre lors d'un changement de tâche ; éviter de changer fréquemment de modèle ; et privilégier l'ajout de grands documents dans les "Projects" plutôt que de les coller à plusieurs reprises dans la conversation.

Cet article ne se contente pas de donner une astuce pour économiser des Tokens, il propose plutôt une méthode d'utilisation de Claude Code plus proche de la pensée ingénieur : considérer le contexte comme un actif à gérer, permettant une réutilisation continue du cache et évitant aux longues sessions de refaire des calculs redondants.

Voici l'article original :

J'ai économisé 300 millions de Tokens cette semaine, dont 91 millions en une seule journée, soit plus de 300 millions sur la semaine.

Je n'ai modifié aucun paramètre. C'est simplement le "prompt caching" qui fonctionne normalement en arrière-plan.

Mais une fois que j'ai vraiment compris ce qu'est le cache et comment éviter de l'"interrompre", avec le même quota d'utilisation, mes sessions ont pu durer plus longtemps. Voici donc un guide d'introduction 80/20 sur le prompt caching de Claude Code, sans entrer dans les détails profonds de l'API.

TL;DR

Le coût d'un Token en cache est seulement 10% de celui d'un Token d'entrée normal. 91 millions de Tokens en cache équivalent en facturation à environ 9 millions de Tokens.

Le TTL (durée de vie) du cache pour l'abonnement Claude Code est de 1 heure ; par défaut 5 minutes pour l'API ; et toujours 5 minutes pour les Sub-agents.

Le cache est divisé en trois couches : système, projet, conversation.

Changer de modèle en cours de conversation détruit le cache, y compris l'activation du mode "opus plan".

Comment le cache est-il facturé exactement ?

Chaque Token mis en cache coûte 10% du prix d'un Token d'entrée normal.

Ainsi, lorsque mon tableau de bord montre qu'un jour donné, 91 millions de Tokens ont été servis depuis le cache, la facturation réelle équivaut environ au traitement de 9 millions de Tokens. C'est pourquoi, comparé à une utilisation sans cache, l'utilisation prolongée de Claude Code donne l'impression que les sessions s'allongent presque "gratuitement".

Deux chiffres dans le tableau de bord méritent une attention particulière :

Cache create (Création de cache) : Coût ponctuel généré lors de l'écriture du contenu dans le cache. Il commence à porter ses fruits lors du tour de conversation suivant.
Cache read (Lecture du cache) : Tokens que Claude réutilise depuis le cache, comme votre CLAUDE.md, les définitions d'outils, les messages précédents, etc. C'est 10 fois moins cher que de les retraiter comme nouvelle entrée.

Si votre chiffre "Cache read" est élevé, cela signifie que vous utilisez efficacement le cache ; s'il est bas, vous payez à plusieurs reprises pour le même contexte.

Thariq d'Anthropic a fait une remarque qui m'a marqué : "Nous surveillons en fait le taux d'utilisation du prompt cache. S'il devient trop bas, cela déclenche une alerte, voire un incident de niveau SEV."

Il a également écrit un excellent article sur X. Lorsque le taux d'utilisation du cache est élevé, quatre choses se produisent simultanément : Claude Code semble plus rapide, le coût du service d'Anthropic diminue, votre quota d'abonnement semble plus durable, et les longues sessions de codage deviennent plus réalistes.

Mais si le taux d'utilisation est faible, tout le monde y perd.

Ainsi, l'intérêt des deux parties est aligné : Anthropic souhaite que votre taux d'utilisation du cache soit élevé, et vous aussi. Ce qui vous freine réellement, ce sont quelques habitudes anodines en apparence, mais qui réinitialisent silencieusement le cache.

Comment le cache se développe-t-il à chaque tour de conversation ?

Le cache repose sur le "prefix matching" ou "correspondance de préfixe".

Sans entrer dans des détails techniques trop profonds, il suffit de comprendre ceci : tant que le contenu précédant une certaine position est exactement le même que celui déjà mis en cache, Claude peut réutiliser ces Tokens du cache.

Une session complètement nouvelle se déroule à peu près ainsi :

D'après la documentation de Claude Code, une session entièrement nouvelle s'exécute typiquement ainsi :

Premier tour de conversation : Pas encore de cache. L'invite système, le contexte de votre projet (comme CLAUDE.md, la mémoire, les règles), ainsi que votre premier message sont tous retraités et écrits dans le cache.

Deuxième tour de conversation : Tout le contenu du premier tour est maintenant en cache. Claude n'a qu'à traiter votre nouvelle réponse et le message suivant. Le coût de ce tour est bien plus bas.

Troisième tour de conversation : Même logique. Les tours de conversation précédents restent dans le cache, seul le dernier échange doit être retraité.

Le cache lui-même peut être divisé en trois couches :

D'après l'article de Thariq sur X :

Couche système (System layer) : Inclut les instructions de base, les définitions d'outils (read, write, bash, grep, glob) et le style de sortie. Cette couche est mise en cache globalement.

Couche projet (Project layer) : Inclut CLAUDE.md, la mémoire, les règles du projet. Cette couche est mise en cache par projet.

Couche conversation (Conversation) : Inclut les réponses et les messages, et s'étend à chaque tour de conversation.

Si, en cours de session, un élément de la couche système ou projet change, tout doit être remis en cache depuis le début. C'est l'opération la plus "coûteuse". Imaginez : vous en êtes au 16e message, vous modifiez soudain l'invite système, ou vous faites une pause d'une heure, alors tous les Tokens depuis le premier message devront être retraités.

La confusion entre 1 heure et 5 minutes

C'est le point le plus facilement mal compris.

Abonnement Claude Code : TTL par défaut de 1 heure.

API Claude : TTL par défaut de 5 minutes. Vous pouvez payer plus pour le porter à 1 heure.
Sub-agent (quel que soit le plan) : Toujours 5 minutes.

Chat web Claude.ai : Pas de documentation officielle claire. Probablement identique à l'abonnement, mais je n'ai pas pu le confirmer.

Il y a quelques mois, beaucoup se plaignaient que le quota Claude s'épuisait trop vite. Certains pensaient qu'Anthropic avait discrètement réduit le TTL de 1 heure à 5 minutes sans avertir les utilisateurs. Mais ce n'était pas le cas, le TTL de Claude Code reste de 1 heure.

Le problème vient du fait que la documentation de Claude Code et celle de l'API sont séparées, et qu'il s'agit de choses complètement différentes, ce qui a créé pas mal de confusion.

Si vous exécutez massivement des workflows de Sub-agents, ou utilisez directement l'API, le chiffre de 5 minutes est important. Mais pour 95% des utilisateurs de Claude Code, ce qu'il faut vraiment retenir, c'est cette fenêtre d'1 heure.

Trois habitudes pour couvrir 95% des utilisateurs

Voici ce que je trouve vraiment utile dans l'usage quotidien.

Ne pas faire de pause trop longue

Si vous êtes inactif depuis plus d'une heure, le contenu précédent a essentiellement expiré du cache. Votre prochain message reconstruira le cache. Dans ce cas, plutôt que de reprendre une ancienne session "refroidie", il est souvent plus économique de faire une transition claire, puis de démarrer une nouvelle session.

Lors d'un changement de tâche, recommencez directement

/compact ou /clear détruisent déjà le cache, donc autant profiter de ce moment pour vraiment réinitialiser.

J'ai créé une compétence "session handoff" (transfert de session) pour remplacer /compact. Elle résume ce que nous avons accompli, les décisions en suspens, les fichiers les plus importants, et par où reprendre. Ensuite, j'exécute /clear, je colle ce résumé, et je peux continuer comme si rien ne s'était interrompu.

La commande compact peut parfois être lente. Alors que cette compétence handoff se termine généralement en moins d'une minute.

Dans le chat Claude, placez les grands documents dans Projects

Le mécanisme de cache sur Claude.ai n'est pas officiellement très détaillé, mais il est évident que les Projects sont optimisés différemment des fils de conversation normaux. Donc, si vous devez coller de gros documents, mieux vaut les placer dans un Project plutôt que de les insérer directement dans la conversation.

Quelles actions détruisent silencieusement le cache ?

Certaines choses réinitialisent complètement le cache sans avertissement évident.

Changer de modèle : Parce que le cache dépend de la correspondance de préfixe, et chaque modèle a son propre cache. Dès que vous changez de modèle, la prochaine requête relira l'historique complet sans aucun accès au cache.

Mode "Opus plan" : Ce paramètre utilise Opus pour la phase de planification et Sonnet pour l'exécution. Je l'ai recommandé dans certaines vidéos d'optimisation de tokens, pour une bonne raison. Mais il faut comprendre que chaque activation de "plan" est essentiellement un changement de modèle, ce qui signifie reconstruire le cache. À long terme, cela aide toujours à prolonger le quota de session, mais vous devez savoir ce qui se passe en arrière-plan.

Modifier CLAUDE.md en cours de session est possible : Cette modification ne prend pas effet immédiatement, mais seulement au prochain redémarrage. Ainsi, le cache actuellement en cours n'est pas affecté.

Mon tableau de bord gratuit des Tokens

Les captures d'écran que j'ai montrées précédemment proviennent d'un tableau de bord de tokens.

C'est un dépôt GitHub très simple. Vous donnez le lien à Claude Code, vous lui demandez de le déployer en local sur localhost, et il lira l'historique de toutes vos sessions passées au lieu de démarrer les statistiques à zéro. Vous verrez immédiatement les données quotidiennes d'input, output, cache create et cache read.

Une mise en garde cependant : ce tableau de bord comptabilise les données de Token sur votre appareil local. Si vous passez d'un ordinateur de bureau à un ordinateur portable, les chiffres ne seront pas exactement les mêmes. Chaque appareil a sa propre vue statistique.

Conclusion

Le Prompt caching est un sujet qui peut être approfondi. L'article de Thariq est plus complet que celui-ci, si vous voulez une vue d'ensemble, cela vaut la peine de le lire.

Mais vous n'avez pas besoin de comprendre tous les détails pour en bénéficier. Il vous suffit de maîtriser l'essentiel 80/20 : un Token en cache coûte 10 fois moins cher qu'un Token normal ; le TTL de Claude Code est d'1 heure ; changer de modèle détruit le cache ; faire des transitions claires entre les tâches est souvent plus économique que de tenter de réutiliser une ancienne session devenue "obsolète".

Questions liées

QQu'est-ce que le prompt caching dans Claude Code et comment permet-il d'économiser des Tokens ?

ALe prompt caching est un mécanisme de mise en cache qui permet à Claude Code de réutiliser les contextes déjà traités, comme les instructions système, les définitions d'outils, le fichier CLAUDE.md et l'historique de conversation. En réutilisant ces éléments, le coût est réduit à 10 % de celui d'un Token d'entrée standard, ce qui permet d'économiser considérablement des Tokens sur les sessions longues.

QQuelles sont les trois couches de cache mentionnées dans l'article ?

ALes trois couches de cache sont : 1. La couche système (System layer) : comprend les instructions de base, les définitions d'outils et le style de sortie. 2. La couche projet (Project layer) : inclut CLAUDE.md, la mémoire et les règles du projet. 3. La couche conversation (Conversation layer) : contient les réponses et les messages, qui s'accumulent au fil des échanges.

QQuelle est la durée de vie (TTL) du cache pour Claude Code en version abonnement ?

APour la version abonnement de Claude Code, la durée de vie (TTL) du cache est de 1 heure. Cela signifie que le cache est conservé pendant une heure d'inactivité avant d'expirer.

QQuelles actions peuvent interrompre ou réinitialiser le cache ?

ALes actions suivantes peuvent interrompre ou réinitialiser le cache : - Changer de modèle (par exemple, passer de Sonnet à Opus). - Activer le mode "Opus plan", qui alterne entre les modèles. - Laisser une session inactive pendant plus d'une heure (pour Claude Code). - Utiliser des commandes comme /compact ou /clear.

QQuels conseils pratiques l'article donne-t-il pour optimiser l'utilisation du cache ?

ALes conseils pratiques incluent : 1. Ne pas laisser une session inactive pendant plus d'une heure. 2. Lors d'un changement de tâche, effectuer une transition claire (session handoff) plutôt que de reprendre une ancienne session. 3. Éviter de changer fréquemment de modèle. 4. Pour les documents volumineux, les placer dans un projet (Projects) plutôt que de les coller directement dans une conversation.

Lectures associées

Entretien avec Raoul Pal, maître de la macroéconomie : Le point de singularité économique approche, ne descendez pas prématurément au cours des quatre prochaines années

L'investisseur macro Raoul Pal, fondateur de Real Vision, expose sa vision d'un « point de singularité économique » approchant, alimenté par la course effrénée à l'IA entre les États-Unis et la Chine. Il explique que cette dynamique, combinée à une expansion monétaire continue, soutient les marchés actions. Pour les crypto-monnaies, Pal reste extrêmement optimiste : malgré la volatilité actuelle (qu'il qualifie de simple correction dans un marché haussier), il considère que les porteurs de crypto occupent une position privilégiée. Son raisonnement s'appuie sur trois piliers. Premièrement, l'avènement des agents économiques IA, qui posséderont leurs propres portefeuilles numériques, promet une adoption massive et une utilité infinie pour les blockchains. Deuxièmement, la dépréciation persistante des monnaies fiduciaires renforce la thèse de Bitcoin comme réserve de valeur. Troisièmement, l'ensemble du système financier migre vers des infrastructures blockchain pour leur efficacité. Pal conseille une stratégie d'achat et de conservation à long terme, soulignant que les traders actifs échouent généralement face à cette approche passive. Il identifie les couches de base (Layer 1) comme les investissements clés, citant Ethereum, Solana et Sui pour leur densité économique et leurs performances techniques. Il voit également un grand potentiel à long terme pour les NFT en tant qu'« actifs trophées » dans une économie numérique florissante. En conclusion, avec une régulation qui se clarifie, une croissance explosive des stablecoins et un contexte macroéconomique favorable (liquidités abondantes), Pal estime à 70% la probabilité d'un scénario extrêmement haussier pour les crypto-monnaies d'ici 2026-2027. Son message central : dans la course vers la singularité, il ne faut pas vendre mais accumuler des actifs numériques durant les quatre prochaines années.

链捕手Il y a 29 mins

Entretien avec Raoul Pal, maître de la macroéconomie : Le point de singularité économique approche, ne descendez pas prématurément au cours des quatre prochaines années

链捕手Il y a 29 mins

Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

Récemment, Meta a proposé MobileMoE, une nouvelle architecture de modèle MoE (Mixture of Experts) optimisée pour fonctionner efficacement sur les smartphones. Cette approche remplace les couches denses traditionnelles des grands modèles de langage (LLM) par des couches MoE, permettant de réduire considérablement la quantité de calculs nécessaires à l'inférence tout en conservant des performances élevées. Les résultats montrent que MobileMoE atteint des scores similaires, voire supérieurs, aux modèles denses de référence sur 14 tests fondamentaux, tout en utilisant seulement 1/2 à 1/4 des opérations de calcul. Après quantification en INT4, le modèle conserve sa compétitivité. Lors de déploiements sur des appareils commerciaux comme l'iPhone 16 Pro, MobileMoE accélère l'inférence jusqu'à 3,8 fois lors de la phase d'entrée et jusqu'à 3,4 fois lors de la génération de tokens, tout en réduisant l'empreinte mémoire. L'étude établit de nouvelles frontières de Pareto pour les LLM sur appareils mobiles, offrant un meilleur compromis entre précision et coût de calcul. Les performances sont particulièrement notables sur les tâches de code et de mathématiques. Les auteurs soulignent que des progrès futurs pourraient passer par l'amélioration de l'alignement via des techniques comme le fine-tuning, le distillation et l'extension multimodale.

marsbitIl y a 33 mins

Faire tourner un MoE sur smartphone ? Meta propose MobileMoE, avec une accélération de 3,8x sur iPhone 16 Pro

marsbitIl y a 33 mins

Le rebond faible du Bitcoin ne masque pas la tendance à la correction, le signal de sommet HYPE alerte des risques à court terme | Analyse invitée

**Résumé :** L'article analyse la structure technique actuelle du Bitcoin (BTC) et du token HYPE, soulignant un affaiblissement de la tendance à court terme et identifiant des signaux de risque. **Bitcoin (BTC) :** La structure journalière montre que le BTC a rompu la médiane d'un canal haussier établi depuis février 2026 et évolue désormais dans un canal baissier à court terme. Un rebond faible est en cours vers la résistance clé de 75 000 - 76 000 dollars (région de la borne inférieure du "centre E" sur le graphique 4H). Cependant, la structure globale restant faible, il est probable que le mouvement baissier reprenne après ce rebond, avec des supports à surveiller vers 69 500 - 70 500 dollars, puis 65 000 dollars. **Stratégies BTC :** * *Moyen terme :* Surveiller un éventuel rejet autour de 75 000-76 000 $ pour initier des positions courtes (≤30% du capital), avec un objectif de renforcement si le support du canal haussier est franchi. * *Court terme :* Deux scénarios sont envisagés : 1) Vendre à la résistance 75k-76k$ (stop-loss >77k$), ou 2) Vendre sur une cassure du support 69.5k-70.5k$ (stop-loss >72k$). **HYPE :** Sur le graphique 4H, la hausse depuis mi-mai a formé une structure en sept segments avec un "centre de hausse". Un signal d'avertissement de sommet a été déclenché au point 47, accompagné d'une possible divergence baissière de momentum. Si le prix ne parvient pas à tenir la zone de support 62.5 - 64.75 dollars, cela confirmerait un sommet à plus grande échelle, avec un objectif de correction vers 54 - 56.3 dollars. **Stratégie HYPE (Court terme) :** Privilégier une approche "acheter sur les supports" plutôt que de poursuivre les hausses. Une opportunité d'achat léger (≤30%) pourrait se présenter si le prix se stabilise dans la zone 62.5-64.75 $. Une cassure de cette zone indiquerait une correction plus profonde. **Rétrospective :** La stratégie de vente à court terme de la semaine précédente sur BTC, basée sur des signaux de modèle propriétaires, a été exécutée avec succès pour un gain d'environ 5.07%. **Avertissement :** Le marché évolue rapidement. Ces analyses, issues de méthodes techniques personnelles, ne constituent pas un conseil en investissement. Investir comporte des risques.

marsbitIl y a 49 mins

Le rebond faible du Bitcoin ne masque pas la tendance à la correction, le signal de sommet HYPE alerte des risques à court terme | Analyse invitée

marsbitIl y a 49 mins

Trading

Spot
Futures

Articles tendance

Comment acheter PEOPLE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter ConstitutionDAO (PEOPLE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément ConstitutionDAO (PEOPLE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos ConstitutionDAO (PEOPLE)Après avoir acheté vos ConstitutionDAO (PEOPLE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des ConstitutionDAO (PEOPLE)Tradez facilement ConstitutionDAO (PEOPLE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

544 vues totalesPublié le 2024.12.12Mis à jour le 2025.03.21

Comment acheter PEOPLE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de PEOPLE (PEOPLE) sont présentées ci-dessous.

活动图片