Auteur : xiyu
Vous voulez utiliser Claude Opus 4.6 sans exploser votre facture à la fin du mois ? Ce guide vous aide à réduire vos coûts de 60 à 85 %.
I. Où partent les tokens ?
Vous pensez que les tokens ne sont que "ce que vous dites + la réponse de l'IA" ? En réalité, c'est bien plus.
Coûts cachés de chaque conversation :
-
System Prompt (~3000-5000 tokens) : Instructions principales d'OpenClaw, non modifiable
-
Injection de fichiers de contexte (~3000-14000 tokens) : AGENTS.md, SOUL.md, MEMORY.md, etc., inclus à chaque conversation – c'est la plus grande dépense invisible
-
Historique des messages : De plus en plus long
-
Votre saisie + Sortie de l'IA : C'est seulement ce que vous pensiez être le "tout"
Un simple "Quel temps fait-il aujourd'hui ?" consomme en réalité 8000 à 15000 tokens en entrée. Calculé avec Opus, le seul contexte coûte 0,12 $ à 0,22 $.
Cron est pire : Chaque déclenchement = Nouvelle conversation = Réinjection de tout le contexte. Un cron qui s'exécute toutes les 15 minutes, 96 fois par jour, coûte 10 $ à 20 $ par jour avec Opus.
Heartbeat est similaire : Essentiellement aussi un appel de conversation, plus l'intervalle est court, plus ça coûte cher.
II. Hiérarchie des modèles : Sonnet pour le quotidien, Opus pour le crucial
Première grande astuce d'économie, effet très puissant. Le prix de Sonnet est environ 1/5 de celui d'Opus, suffisant pour 80 % des tâches quotidiennes.
markdown
Indication :
Aidez-moi à changer le modèle par défaut d'OpenClaw pour Claude Sonnet,
et à n'utiliser Opus que pour l'analyse approfondie ou la création.
Besoins spécifiques :
1) Modèle par défaut défini sur Sonnet
2) Les tâches cron utilisent Sonnet par défaut
3) Seules les tâches de type écriture ou analyse approfondie spécifient Opus
Scénarios pour Opus : Rédaction de textes longs, code complexe, raisonnement en plusieurs étapes, tâches créatives
Scénarios pour Sonnet : Discussion quotidienne, questions-réponses simples, vérifications cron, heartbeat, opérations sur fichiers, traduction
Testé : Après le changement, coût mensuel réduit de 65 %, expérience presque inchangée.
III. Minceur du contexte : Coupez les gros consommateurs de Tokens invisibles
Le "bruit de fond" de chaque appel peut être de 3000 à 14000 tokens. Simplifier les fichiers injectés est l'optimisation au meilleur rapport qualité-prix.
markdown
Indication :
Aidez-moi à simplifier les fichiers de contexte d'OpenClaw pour économiser des tokens.
Inclut : 1) AGENTS.md supprimer les parties inutiles (règles de chat groupé, TTS, fonctions non utilisées), compresser à 800 tokens maximum
2) SOUL.md simplifié en points clés concis, 300-500 tokens
3) MEMORY.md nettoyer les informations expirées, contrôler à 2000 tokens maximum
4) Vérifier la configuration workspaceFiles, supprimer les fichiers d'injection inutiles
Règle empirique : Pour 1000 tokens d'injection en moins, basé sur 100 appels Opus par jour, économie mensuelle d'environ 45 $.
IV. Optimisation Cron : Le tueur de coûts le plus caché
markdown
Indication : Aidez-moi à optimiser les tâches cron d'OpenClaw pour économiser des tokens.
Veuillez :
1) Lister toutes les tâches cron avec leur fréquence et modèle
2) Rétrograder toutes les tâches non créatives vers Sonnet
3) Fusionner les tâches de la même plage horaire (ex: plusieurs vérifications en une)
4) Réduire les fréquences inutilement élevées (vérification système de 10 à 30 minutes, vérification de version de 3 fois/jour à 1 fois/jour)
5) Configurer la livraison (delivery) pour une notification à la demande, pas de message si normal
Principe clé : Plus fréquent n'est pas toujours mieux, la plupart des besoins "en temps réel" sont de faux besoins. Fusionner 5 vérifications indépendantes en 1 appel économise 75 % des coûts d'injection de contexte.
V. Optimisation Heartbeat
markdown
Indication : Aidez-moi à optimiser la configuration heartbeat d'OpenClaw :
1) Intervalle de temps de travail défini sur 45-60 minutes
2) Période silencieuse de 23:00 à 08:00
3) Simplifier HEARTBEAT.md au minimum de lignes
4) Fusionner les tâches de vérification dispersées dans heartbeat pour une exécution groupée
VI. Recherche Précise : Utilisez qmd pour économiser 90 % des Tokens d'Entrée
Lorsque l'agent recherche des informations, il "lit le texte intégral" par défaut – un fichier de 500 lignes fait 3000-5000 tokens, mais il n'a besoin que de 10 lignes. 90 % des tokens d'entrée sont gaspillés.
qmd est un outil de recherche sémantique local, il crée un index de texte intégral + vectoriel, permettant à l'agent de localiser précisément des paragraphes au lieu de lire tout le fichier. Calcul entièrement local, coût API zéro.
À utiliser avec mq (Mini Query) : Prévisualiser la structure du répertoire, extraction précise de paragraphes, recherche par mot-clé – ne lire que les 10-30 lignes nécessaires à chaque fois.
markdown
Indication :
Aidez-moi à configurer la recherche de base de connaissances qmd pour économiser des tokens.
Adresse Github : https://github.com/tobi/qmd
Besoins :
1) Installer qmd
2) Créer un index pour le répertoire de travail
3) Ajouter des règles de recherche dans AGENTS.md, forcer l'agent à utiliser prioritairement la recherche qmd/mq plutôt que de lire directement le texte intégral
4) Configurer la mise à jour périodique de l'index
Effet testé : Chaque recherche d'information passe de 15000 tokens à 1500 tokens, réduction de 90 %.
Différence avec memorySearch : memorySearch gère les "souvenirs" (MEMORY.md), qmd gère la "recherche d'information" (base de connaissances personnalisée), sans interaction.
VII. Choix de Memory Search
markdown
Indication : Aidez-moi à configurer le memorySearch d'OpenClaw.
Si mes fichiers de mémoire sont peu nombreux (quelques dizaines de md),
recommandez-vous l'embedding local ou Voyage AI ?
Veuillez expliquer les différences de coût et de qualité de recherche.
Conclusion simple : Peu de fichiers de mémoire, utilisez l'embedding local (coût zéro), besoins multilingues élevés ou nombreux fichiers, utilisez Voyage AI (2 milliards de tokens gratuits par compte).
VIII. Liste de configuration ultime
markdown
Indication :
Aidez-moi à optimiser en une fois la configuration d'OpenClaw pour économiser un maximum de tokens, en exécutant la liste suivante :
Modèle par défaut changé pour Sonnet, ne conserver Opus que pour les tâches de création/analyse
Simplifier AGENTS.md / SOUL.md / MEMORY.md
Rétrograder toutes les tâches cron vers Sonnet + Fusionner + Réduire la fréquence
Intervalle Heartbeat à 45 minutes + Silence nocturne
Configurer la recherche précise qmd pour remplacer la lecture intégrale
workspaceFiles ne conserve que les fichiers nécessaires
Fichiers de mémoire simplifiés périodiquement, MEMORY.md contrôlé à 2000 tokens maximum
Configurez une fois, bénéficiez à long terme :
1. Hiérarchie des modèles — Sonnet quotidien, Opus crucial, économie de 60-80 %
2. Minceur du contexte — Fichiers simplifiés + recherche précise qmd, économie de 30-90 % des tokens d'entrée
3. Réduction des appels — Fusion des cron, allongement du heartbeat, activation de la période silencieuse
Sonnet 4 est déjà très puissant, aucune différence ressentie dans l'usage quotidien. Passez à Opus seulement quand c'est vraiment nécessaire.
Basé sur l'expérience pratique d'un système multi-agent, les données sont des estimations anonymisées.






