Économisez 300 millions de Tokens par semaine : Le guide de mise en cache du code Claude par un ingénieur d'Anthropic

marsbitPublié le 2026-05-24Dernière mise à jour le 2026-05-24

Résumé

Claude Code utilise un mécanisme de cache pour réduire considérablement le coût des tokens. Les tokens mis en cache ne coûtent que 10% du prix des tokens d'entrée normaux. L'auteur a ainsi économisé 3 milliards de tokens en une semaine, dont 91 millions en un seul jour, grâce à la réutilisation du contexte. Le cache fonctionne par correspondance de préfixe et est organisé en trois couches : système (instructions globales), projet (CLAUDE.md, règles) et conversation (historique). Pour le forfait Claude Code, la durée de vie du cache (TTL) est d'une heure. Les actions qui réinitialisent le cache incluent le changement de modèle et l'activation du mode "Opus plan". Pour optimiser l'utilisation : - Ne laissez pas une session inactive plus d'une heure. - Lors d'un changement de tâche, effectuez une transition claire (session handoff) plutôt que de reprendre une ancienne conversation. - Évitez de basculer fréquemment entre les modèles. - Pour les grands documents, utilisez la fonctionnalité Projects plutôt que de les coller dans le chat. En surveillant le taux de réutilisation du cache (cache read), les utilisateurs peuvent prolonger efficacement leurs sessions et réduire leurs coûts, un objectif aligné avec les intérêts d'Anthropic en matière d'efficacité des services.

Note de la rédaction : Beaucoup de personnes utilisant Claude Code ont l'impression que les Tokens sont consommés trop vite et que les longues sessions épuisent facilement le quota. Mais du point de vue d'un ingénieur d'Anthropic, ce qui impacte réellement le coût, ce n'est pas tant la quantité de code écrite, mais plutôt la réutilisation continue du contexte déjà traité.

L'essentiel de cet article est d'expliquer comment économiser des Tokens via un mécanisme de cache. L'auteur a réutilisé plus de 300 millions de Tokens en une semaine grâce au cache, avec un pic quotidien de 91 millions. Le coût d'un Token en cache n'étant que de 10% de celui d'un Token d'entrée classique, 91 millions de Tokens en cache équivalent en facturation à environ 9 millions de Tokens normaux. Si les longues sessions de Claude Code semblent plus "économes", ce n'est pas parce que le modèle travaille gratuitement, mais parce qu'une grande partie du contexte répétitif est réutilisée avec succès.

La clé du "Prompt caching" est de "ne pas interrompre le cache". Claude Code met en cache de manière hiérarchique l'invite système, les définitions d'outils, CLAUDE.md, les règles du projet et l'historique de la conversation ; tant que le préfixe des requêtes suivantes reste cohérent, Claude peut lire directement depuis le cache au lieu de retraiter tout le contexte. Anthropic surveille également en interne le taux de réutilisation du cache de prompts, car cela affecte non seulement le quota utilisateur, mais aussi directement le coût du service de modèle et son efficacité opérationnelle.

Pour l'utilisateur lambda, il n'est pas nécessaire de comprendre tous les détails techniques, mais plutôt d'adopter quelques bonnes pratiques clés : ne pas laisser une session inactive plus d'une heure ; effectuer un transfert de session propre lors d'un changement de tâche ; éviter de changer fréquemment de modèle ; et privilégier l'ajout de grands documents dans les "Projects" plutôt que de les coller à plusieurs reprises dans la conversation.

Cet article ne se contente pas de donner une astuce pour économiser des Tokens, il propose plutôt une méthode d'utilisation de Claude Code plus proche de la pensée ingénieur : considérer le contexte comme un actif à gérer, permettant une réutilisation continue du cache et évitant aux longues sessions de refaire des calculs redondants.

Voici l'article original :

J'ai économisé 300 millions de Tokens cette semaine, dont 91 millions en une seule journée, soit plus de 300 millions sur la semaine.

Je n'ai modifié aucun paramètre. C'est simplement le "prompt caching" qui fonctionne normalement en arrière-plan.

Mais une fois que j'ai vraiment compris ce qu'est le cache et comment éviter de l'"interrompre", avec le même quota d'utilisation, mes sessions ont pu durer plus longtemps. Voici donc un guide d'introduction 80/20 sur le prompt caching de Claude Code, sans entrer dans les détails profonds de l'API.

TL;DR

Le coût d'un Token en cache est seulement 10% de celui d'un Token d'entrée normal. 91 millions de Tokens en cache équivalent en facturation à environ 9 millions de Tokens.

Le TTL (durée de vie) du cache pour l'abonnement Claude Code est de 1 heure ; par défaut 5 minutes pour l'API ; et toujours 5 minutes pour les Sub-agents.

Le cache est divisé en trois couches : système, projet, conversation.

Changer de modèle en cours de conversation détruit le cache, y compris l'activation du mode "opus plan".

Comment le cache est-il facturé exactement ?

Chaque Token mis en cache coûte 10% du prix d'un Token d'entrée normal.

Ainsi, lorsque mon tableau de bord montre qu'un jour donné, 91 millions de Tokens ont été servis depuis le cache, la facturation réelle équivaut environ au traitement de 9 millions de Tokens. C'est pourquoi, comparé à une utilisation sans cache, l'utilisation prolongée de Claude Code donne l'impression que les sessions s'allongent presque "gratuitement".

Deux chiffres dans le tableau de bord méritent une attention particulière :

Cache create (Création de cache) : Coût ponctuel généré lors de l'écriture du contenu dans le cache. Il commence à porter ses fruits lors du tour de conversation suivant.
Cache read (Lecture du cache) : Tokens que Claude réutilise depuis le cache, comme votre CLAUDE.md, les définitions d'outils, les messages précédents, etc. C'est 10 fois moins cher que de les retraiter comme nouvelle entrée.

Si votre chiffre "Cache read" est élevé, cela signifie que vous utilisez efficacement le cache ; s'il est bas, vous payez à plusieurs reprises pour le même contexte.

Thariq d'Anthropic a fait une remarque qui m'a marqué : "Nous surveillons en fait le taux d'utilisation du prompt cache. S'il devient trop bas, cela déclenche une alerte, voire un incident de niveau SEV."

Il a également écrit un excellent article sur X. Lorsque le taux d'utilisation du cache est élevé, quatre choses se produisent simultanément : Claude Code semble plus rapide, le coût du service d'Anthropic diminue, votre quota d'abonnement semble plus durable, et les longues sessions de codage deviennent plus réalistes.

Mais si le taux d'utilisation est faible, tout le monde y perd.

Ainsi, l'intérêt des deux parties est aligné : Anthropic souhaite que votre taux d'utilisation du cache soit élevé, et vous aussi. Ce qui vous freine réellement, ce sont quelques habitudes anodines en apparence, mais qui réinitialisent silencieusement le cache.

Comment le cache se développe-t-il à chaque tour de conversation ?

Le cache repose sur le "prefix matching" ou "correspondance de préfixe".

Sans entrer dans des détails techniques trop profonds, il suffit de comprendre ceci : tant que le contenu précédant une certaine position est exactement le même que celui déjà mis en cache, Claude peut réutiliser ces Tokens du cache.

Une session complètement nouvelle se déroule à peu près ainsi :

D'après la documentation de Claude Code, une session entièrement nouvelle s'exécute typiquement ainsi :

Premier tour de conversation : Pas encore de cache. L'invite système, le contexte de votre projet (comme CLAUDE.md, la mémoire, les règles), ainsi que votre premier message sont tous retraités et écrits dans le cache.

Deuxième tour de conversation : Tout le contenu du premier tour est maintenant en cache. Claude n'a qu'à traiter votre nouvelle réponse et le message suivant. Le coût de ce tour est bien plus bas.

Troisième tour de conversation : Même logique. Les tours de conversation précédents restent dans le cache, seul le dernier échange doit être retraité.

Le cache lui-même peut être divisé en trois couches :

D'après l'article de Thariq sur X :

Couche système (System layer) : Inclut les instructions de base, les définitions d'outils (read, write, bash, grep, glob) et le style de sortie. Cette couche est mise en cache globalement.

Couche projet (Project layer) : Inclut CLAUDE.md, la mémoire, les règles du projet. Cette couche est mise en cache par projet.

Couche conversation (Conversation) : Inclut les réponses et les messages, et s'étend à chaque tour de conversation.

Si, en cours de session, un élément de la couche système ou projet change, tout doit être remis en cache depuis le début. C'est l'opération la plus "coûteuse". Imaginez : vous en êtes au 16e message, vous modifiez soudain l'invite système, ou vous faites une pause d'une heure, alors tous les Tokens depuis le premier message devront être retraités.

La confusion entre 1 heure et 5 minutes

C'est le point le plus facilement mal compris.

Abonnement Claude Code : TTL par défaut de 1 heure.

API Claude : TTL par défaut de 5 minutes. Vous pouvez payer plus pour le porter à 1 heure.
Sub-agent (quel que soit le plan) : Toujours 5 minutes.

Chat web Claude.ai : Pas de documentation officielle claire. Probablement identique à l'abonnement, mais je n'ai pas pu le confirmer.

Il y a quelques mois, beaucoup se plaignaient que le quota Claude s'épuisait trop vite. Certains pensaient qu'Anthropic avait discrètement réduit le TTL de 1 heure à 5 minutes sans avertir les utilisateurs. Mais ce n'était pas le cas, le TTL de Claude Code reste de 1 heure.

Le problème vient du fait que la documentation de Claude Code et celle de l'API sont séparées, et qu'il s'agit de choses complètement différentes, ce qui a créé pas mal de confusion.

Si vous exécutez massivement des workflows de Sub-agents, ou utilisez directement l'API, le chiffre de 5 minutes est important. Mais pour 95% des utilisateurs de Claude Code, ce qu'il faut vraiment retenir, c'est cette fenêtre d'1 heure.

Trois habitudes pour couvrir 95% des utilisateurs

Voici ce que je trouve vraiment utile dans l'usage quotidien.

Ne pas faire de pause trop longue

Si vous êtes inactif depuis plus d'une heure, le contenu précédent a essentiellement expiré du cache. Votre prochain message reconstruira le cache. Dans ce cas, plutôt que de reprendre une ancienne session "refroidie", il est souvent plus économique de faire une transition claire, puis de démarrer une nouvelle session.

Lors d'un changement de tâche, recommencez directement

/compact ou /clear détruisent déjà le cache, donc autant profiter de ce moment pour vraiment réinitialiser.

J'ai créé une compétence "session handoff" (transfert de session) pour remplacer /compact. Elle résume ce que nous avons accompli, les décisions en suspens, les fichiers les plus importants, et par où reprendre. Ensuite, j'exécute /clear, je colle ce résumé, et je peux continuer comme si rien ne s'était interrompu.

La commande compact peut parfois être lente. Alors que cette compétence handoff se termine généralement en moins d'une minute.

Dans le chat Claude, placez les grands documents dans Projects

Le mécanisme de cache sur Claude.ai n'est pas officiellement très détaillé, mais il est évident que les Projects sont optimisés différemment des fils de conversation normaux. Donc, si vous devez coller de gros documents, mieux vaut les placer dans un Project plutôt que de les insérer directement dans la conversation.

Quelles actions détruisent silencieusement le cache ?

Certaines choses réinitialisent complètement le cache sans avertissement évident.

Changer de modèle : Parce que le cache dépend de la correspondance de préfixe, et chaque modèle a son propre cache. Dès que vous changez de modèle, la prochaine requête relira l'historique complet sans aucun accès au cache.

Mode "Opus plan" : Ce paramètre utilise Opus pour la phase de planification et Sonnet pour l'exécution. Je l'ai recommandé dans certaines vidéos d'optimisation de tokens, pour une bonne raison. Mais il faut comprendre que chaque activation de "plan" est essentiellement un changement de modèle, ce qui signifie reconstruire le cache. À long terme, cela aide toujours à prolonger le quota de session, mais vous devez savoir ce qui se passe en arrière-plan.

Modifier CLAUDE.md en cours de session est possible : Cette modification ne prend pas effet immédiatement, mais seulement au prochain redémarrage. Ainsi, le cache actuellement en cours n'est pas affecté.

Mon tableau de bord gratuit des Tokens

Les captures d'écran que j'ai montrées précédemment proviennent d'un tableau de bord de tokens.

C'est un dépôt GitHub très simple. Vous donnez le lien à Claude Code, vous lui demandez de le déployer en local sur localhost, et il lira l'historique de toutes vos sessions passées au lieu de démarrer les statistiques à zéro. Vous verrez immédiatement les données quotidiennes d'input, output, cache create et cache read.

Une mise en garde cependant : ce tableau de bord comptabilise les données de Token sur votre appareil local. Si vous passez d'un ordinateur de bureau à un ordinateur portable, les chiffres ne seront pas exactement les mêmes. Chaque appareil a sa propre vue statistique.

Conclusion

Le Prompt caching est un sujet qui peut être approfondi. L'article de Thariq est plus complet que celui-ci, si vous voulez une vue d'ensemble, cela vaut la peine de le lire.

Mais vous n'avez pas besoin de comprendre tous les détails pour en bénéficier. Il vous suffit de maîtriser l'essentiel 80/20 : un Token en cache coûte 10 fois moins cher qu'un Token normal ; le TTL de Claude Code est d'1 heure ; changer de modèle détruit le cache ; faire des transitions claires entre les tâches est souvent plus économique que de tenter de réutiliser une ancienne session devenue "obsolète".

Questions liées

QQu'est-ce que le prompt caching dans Claude Code et comment permet-il d'économiser des Tokens ?

ALe prompt caching est un mécanisme de mise en cache qui permet à Claude Code de réutiliser les contextes déjà traités, comme les instructions système, les définitions d'outils, le fichier CLAUDE.md et l'historique de conversation. En réutilisant ces éléments, le coût est réduit à 10 % de celui d'un Token d'entrée standard, ce qui permet d'économiser considérablement des Tokens sur les sessions longues.

QQuelles sont les trois couches de cache mentionnées dans l'article ?

ALes trois couches de cache sont : 1. La couche système (System layer) : comprend les instructions de base, les définitions d'outils et le style de sortie. 2. La couche projet (Project layer) : inclut CLAUDE.md, la mémoire et les règles du projet. 3. La couche conversation (Conversation layer) : contient les réponses et les messages, qui s'accumulent au fil des échanges.

QQuelle est la durée de vie (TTL) du cache pour Claude Code en version abonnement ?

APour la version abonnement de Claude Code, la durée de vie (TTL) du cache est de 1 heure. Cela signifie que le cache est conservé pendant une heure d'inactivité avant d'expirer.

QQuelles actions peuvent interrompre ou réinitialiser le cache ?

ALes actions suivantes peuvent interrompre ou réinitialiser le cache : - Changer de modèle (par exemple, passer de Sonnet à Opus). - Activer le mode "Opus plan", qui alterne entre les modèles. - Laisser une session inactive pendant plus d'une heure (pour Claude Code). - Utiliser des commandes comme /compact ou /clear.

QQuels conseils pratiques l'article donne-t-il pour optimiser l'utilisation du cache ?

ALes conseils pratiques incluent : 1. Ne pas laisser une session inactive pendant plus d'une heure. 2. Lors d'un changement de tâche, effectuer une transition claire (session handoff) plutôt que de reprendre une ancienne session. 3. Éviter de changer fréquemment de modèle. 4. Pour les documents volumineux, les placer dans un projet (Projects) plutôt que de les coller directement dans une conversation.

Lectures associées

Pouls du marché du BTC : Semaine 22

Bitcoin a enregistré une baisse sur la semaine dernière, passant de 79 000 $ à un creux local près de 74 000 $ avant de rebondir vers 77 000 $. La dynamique des prix a reculé de 21,7 %, reflétant une activité plus modérée et une pression de vente accrue. Cependant, les indicateurs CVD Spot et Perpetual ont fortement augmenté, suggérant un allégement de la pression vendeuse et un sentiment de marché plus équilibré. Le volume Spot et l'intérêt ouvert sur les futures ont diminué, indiquant un appétit spéculatif réduit. Des signes de regain d'appétit pour le risque émergent, avec une forte hausse des paiements de financement des positions longues. Sur les marchés d'options, le Skew à 25 Delta a légèrement augmenté, signalant une demande accrue de protection contre les baisses. Dans le secteur TradFi, la MVRV des ETF spot américains et leurs flux nets se sont améliorés, bien que leur volume de transactions ait chuté, traduisant un ralentissement de l'activité spéculative. L'activité du réseau (adresses actives, volume des transferts) a légèrement diminué, évoquant une phase de consolidation. Les mesures de liquidité indiquent un profil plus stable et une conviction accrue des investisseurs. Les mesures de rentabilité signalent une augmentation potentielle du stress du marché, avec un déclin significatif du ratio de profit non réalisé net et une augmentation de la réalisation des pertes par rapport aux prises de bénéfices. En résumé, le marché montre des signes de modération et de consolidation, caractérisés par une activité réduite, un sentiment prudent et un mélange d'appétit pour le risque. Cette image nuancée souligne l'importance d'une surveillance continue.

insights.glassnodeIl y a 9 mins

Pouls du marché du BTC : Semaine 22

insights.glassnodeIl y a 9 mins

Top 5 Des Actifs Crypto Toujours En Dessous De 0,05 $ Avec Une Solidité Financière Avérée — Ozak AI N°1 À 7 Millions De $

Les crypto-monnaies à prix élevés affichent des rendements plus faibles, poussant les investisseurs à rechercher des actifs numériques peu coûteux mais à fort potentiel de croissance. Parmi eux, cinq crypto-actifs, tous sous les 0,05 USD et bénéficiant d'un financement solide, se distinguent selon l'analyste : Ozak AI (OZK), BitTorrent (BTT), Siacoin (SC), VeChain (VET) et Kaspa (KAS). Ozak AI (OZK), leader de la liste, est en phase de prévente à 0,01 USD et a déjà levé plus de 7 millions de dollars. Sa technologie fusionne l'IA et la blockchain pour créer des outils d'analyse prédictive en temps réel, fonctionnant sur une infrastructure décentralisée (DePIN). Des partenariats stratégiques, notamment avec Zeni et Spheron, renforcent son écosystème. Les quatre autres actifs présentent également des fondamentaux robustes : BitTorrent (0,00000039 USD) pour sa large adoption ; Siacoin (0,00142 USD), l'un des plus anciens projets de stockage décentralisé ; VeChain (0,010 USD) pour ses cas d'usage en supply chain ; et Kaspa (0,046 USD) pour son protocole Proof-of-Work rapide et sa communauté active. En conclusion, la force de financement de ces actifs sous 0,05 USD indique une capacité à soutenir leur développement à long terme. Ozak AI, avec son avance technologique et sa dynamique de prévente, établit un nouveau standard dans cette catégorie, le positionnant comme le premier de cette sélection.

TheNewsCryptoIl y a 52 mins

Top 5 Des Actifs Crypto Toujours En Dessous De 0,05 $ Avec Une Solidité Financière Avérée — Ozak AI N°1 À 7 Millions De $

TheNewsCryptoIl y a 52 mins

La route de DeepSeek vers 10 000 milliards de dollars : utiliser l'open source pour débloquer un écosystème matériel de mille milliards de dollars

**Résumé : La stratégie ambitieuse de DeepSeek visant 10 000 milliards de dollars** DeepSeek ne chercherait pas seulement à créer des modèles d'IA performants, mais à transformer radicalement l'écosystème matériel de l'IA grâce à une série d'innovations architecturales. L'objectif ultime serait de construire une infrastructure AI à moindre coût, permettant ainsi l'émergence d'un nouvel écosystème matériel viable en Chine et au-delà. Sa feuille de route technique, incluant des innovations comme le MoE, MLA, DSA, CSA, Engram et TileLang, est systématiquement axée sur un objectif : réduire la dépendance aux composants critiques et coûteux (comme le HBM, les puces de pointe, CUDA) et optimiser l'utilisation des ressources disponibles. Par exemple, ses techniques de compression du KV Cache réduisent drastiquement les besoins en mémoire HBM, favorisant l'utilisation de stockages moins chers comme les SSD NAND ou la LPDDR. Ces innovations bénéficieraient directement aux fabricants chinois de mémoire (comme YMTC, CXMT) et aux fabricants de GPU/ASIC locaux, en rendant leurs produits plus compétitifs pour exécuter des charges de travail d'IA avancées. En parallèle, des projets comme TileLang visent à affaiblir le "fossé" de CUDA en permettant une portabilité du code sur différentes architectures matérielles. En résumé, la stratégie de DeepSeek semble être un jeu à long terme : plutôt que de monétiser directement des applications, il s'agirait de devenir un catalyseur essentiel pour un écosystème matériel alternatif de 10 000 milliards de dollars, tout en captant une partie de cette valeur pour atteindre une évaluation d'un billion de dollars. Son approche open-source diffuse ses innovations et accélère cette transformation de l'infrastructure mondiale de l'IA.

marsbitIl y a 1 h

La route de DeepSeek vers 10 000 milliards de dollars : utiliser l'open source pour débloquer un écosystème matériel de mille milliards de dollars

marsbitIl y a 1 h

Les avocats de FTX paient 54 millions de dollars pour régler les litiges concernant leurs services rendus à la plateforme – Détails

Dans un développement notable, le cabinet d'avocats américain Fenwick & West a accepté de payer 54 millions de dollars pour régler des allégations liées à ses services juridiques fournis à la plateforme de crypto-monnaie FTX, aujourd'hui défunte. Le règlement proposé, déposé devant un tribunal fédéral de Miami, résout les accusations de clients de FTX qui soutenaient que le cabinet avait facilité les malversations liées à l'une des plus grandes fraudes financières de l'histoire des États-Unis. Fenwick & West, qui était le principal conseiller externe de FTX, rejette toute connaissance des activités frauduleuses et affirme avoir effectué son travail avec intégrité. Ce règlement de 54 millions de dollars est le plus important dans une seconde vague de résolutions d'actions collectives liées à FTX. D'autres accords incluent des paiements de l'ancien auditeur Prager Metis et de l'ancien joueur des Miami Heat, Udonis Haslem. FTX s'est effondré en novembre 2022 après la révélation de la diversion de fonds clients vers sa société sœur, Alameda Research. Son fondateur, Sam Bankman-Fried, a été condamné à 25 ans de prison. Le processus de redressement de FTX se poursuit, avec des distributions visant à rembourser les créanciers, certaines catégories de clients ayant déjà recouvré la quasi-totalité de leurs fonds.

bitcoinistIl y a 2 h

Les avocats de FTX paient 54 millions de dollars pour régler les litiges concernant leurs services rendus à la plateforme – Détails

bitcoinistIl y a 2 h

Trading

Spot
Futures

Articles tendance

Comment acheter PEOPLE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter ConstitutionDAO (PEOPLE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément ConstitutionDAO (PEOPLE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos ConstitutionDAO (PEOPLE)Après avoir acheté vos ConstitutionDAO (PEOPLE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des ConstitutionDAO (PEOPLE)Tradez facilement ConstitutionDAO (PEOPLE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

538 vues totalesPublié le 2024.12.12Mis à jour le 2025.03.21

Comment acheter PEOPLE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de PEOPLE (PEOPLE) sont présentées ci-dessous.

活动图片