Autor: xiyu
¿Quieres usar Claude Opus 4.6 pero sin que la factura a fin de mes sea desorbitada? Esto te ayudará a reducir entre un 60-85% el coste.
1. ¿En qué se gastan los tokens?
¿Pensabas que los tokens eran solo "lo que dices + lo que responde la IA"? En realidad, es mucho más.
El coste oculto de cada conversación:
-
System Prompt (~3000-5000 tokens): La instrucción central de OpenClaw, no se puede modificar.
-
Inyección de archivos de contexto (~3000-14000 tokens): AGENTS.md, SOUL.md, MEMORY.md, etc., se incluyen en cada conversación: este es el mayor gasto oculto.
-
Historial de mensajes: Se vuelve más largo cuanto más se habla.
-
Tu entrada + Salida de la IA: Esto es lo que tú creías que era "todo".
Un simple "¿Qué tiempo hace hoy?" consume en realidad entre 8000 y 15000 tokens de entrada. Calculado con Opus, solo el contexto cuesta entre $0.12 y $0.22.
Cron es peor: Cada activación = Conversación completamente nueva = Reinyección de todo el contexto. Un cron que se ejecuta cada 15 minutos, 96 veces al día, con Opus cuesta entre $10 y $20 al día.
Heartbeat es similar: En esencia también es una llamada de conversación, cuanto más corto sea el intervalo, más dinero quema.
2. Estratificación de modelos: Sonnet para lo diario, Opus para lo clave
El primer gran truco para ahorrar, y el más efectivo. El precio de Sonnet es aproximadamente 1/5 del de Opus, y es suficiente para el 80% de las tareas diarias.
markdown
Prompt:
Por favor, ayúdame a cambiar el modelo predeterminado de OpenClaw a Claude Sonnet,
usando Opus solo cuando se necesite análisis profundo o creación.
Necesito concretamente:
1) Establecer Sonnet como modelo predeterminado
2) Que las tareas cron usen Sonnet por defecto
3) Especificar Opus solo para tareas de escritura y análisis profundo
Escenarios para Opus: Escritura de textos largos, código complejo, razonamiento de múltiples pasos, tareas creativas.
Escenarios para Sonnet: Charla casual diaria, preguntas y respuestas simples, comprobaciones cron, heartbeat, operaciones con archivos, traducción.
Pruebas reales: Tras el cambio, el coste mensual se redujo un 65%, y la experiencia apenas varió.
3. Reducción del contexto: Elimina los grandes consumidores ocultos de Tokens
El "ruido de fondo" de cada llamada puede ser de 3000-14000 tokens. Optimizar los archivos inyectados es la mejora con mejor relación coste-beneficio.
markdown
Prompt:
Ayúdame a simplificar los archivos de contexto de OpenClaw para ahorrar tokens.
Incluye concretamente: 1) Eliminar partes innecesarias de AGENTS.md (reglas de chat grupal, TTS, funciones no usadas), comprimirlo a menos de 800 tokens.
2) Simplificar SOUL.md a puntos clave concisos, 300-500 tokens.
3) Limpiar información obsoleta en MEMORY.md, mantenerlo en menos de 2000 tokens.
4) Revisar la configuración de workspaceFiles, eliminar archivos de inyección innecesarios.
Regla general: Por cada 1000 tokens de inyección reducidos, calculando 100 llamadas diarias a Opus, se ahorran unos $45 al mes.
4. Optimización de Cron: El asesino de costes más oculto
markdown
Prompt: Ayúdame a optimizar las tareas cron de OpenClaw para ahorrar tokens.
Por favor:
1) Lista todas las tareas cron, su frecuencia y modelo.
2) Degrada todas las tareas no creativas a Sonnet.
3) Combina tareas en el mismo intervalo de tiempo (ej., combinar múltiples comprobaciones en una).
4) Reduce frecuencias altas innecesarias (cambiar comprobaciones del sistema de 10 a 30 minutos, comprobaciones de versión de 3 veces/día a 1 vez/día).
5) Configura la entrega (delivery) para notificar bajo demanda, sin enviar mensajes cuando todo esté normal.
Principio clave: Más frecuente no es siempre mejor, la mayoría de las necesidades de "tiempo real" son falsas. Combinar 5 comprobaciones independientes en 1 llamada ahorra un 75% en costes de inyección de contexto.
5. Optimización de Heartbeat
markdown
Prompt: Ayúdame a optimizar la configuración del heartbeat de OpenClaw:
1) Establece el intervalo de tiempo de trabajo a 45-60 minutos.
2) Configura un periodo de silencio de 23:00-08:00 durante la noche.
3) Simplifica HEARTBEAT.md al mínimo número de líneas.
4) Combina tareas de comprobación dispersas en el heartbeat para ejecutarlas por lotes.
6. Búsqueda Precisa: Usa qmd para ahorrar un 90% de Input Token
Cuando el agente busca información, por defecto "lee el texto completo" — un archivo de 500 líneas son 3000-5000 tokens, pero solo necesita 10 líneas. Se desperdician el 90% de los tokens de entrada.
qmd es una herramienta local de búsqueda semántica, crea un índice de texto completo + vectores, permitiendo al agente localizar párrafos precisos en lugar de leer el archivo completo. Todos los cálculos son locales, coste cero de API.
Se usa junto con mq (Mini Query): previsualizar estructura de directorios, extracción precisa de párrafos, búsqueda por palabras clave — leyendo solo las 10-30 líneas necesarias cada vez.
markdown
Prompt:
Ayúdame a configurar la búsqueda en la base de conocimientos con qmd para ahorrar tokens.
Dirección de Github: https://github.com/tobi/qmd
Necesito:
1) Instalar qmd.
2) Crear un índice para el directorio de trabajo.
3) Añadir reglas de recuperación en AGENTS.md, forzando al agente a usar优先 qmd/mq para buscar en lugar de leer (read) el texto completo directamente.
4) Configurar la actualización programada del índice.
Resultados reales: Cada búsqueda pasó de 15000 tokens a 1500 tokens, una reducción del 90%.
Diferencia con memorySearch: memorySearch gestiona "recuerdos" (MEMORY.md), qmd gestiona "buscar información" (base de conocimientos personalizada), no se interfieren.
7. Selección de Memory Search
markdown
Prompt: Ayúdame a configurar el memorySearch de OpenClaw.
Si mis archivos de memoria no son muchos (decenas de md),
¿recomiendas usar incrustaciones (embeddings) locales o Voyage AI?
Por favor, explica las diferencias de coste y calidad de recuperación de cada uno.
Conclusión simple: Si los archivos de memoria son pocos, usa incrustaciones locales (coste cero). Si la necesidad de multilingüismo es alta o hay muchos archivos, usa Voyage AI (200 millones de tokens gratis por cuenta).
8. Lista Definitiva de Configuración
markdown
Prompt:
Por favor, ayúdame a optimizar la configuración de OpenClaw de una vez para ahorrar tokens al máximo, ejecutando esta lista:
Cambiar el modelo predeterminado a Sonnet, reservando Opus solo para tareas creativas/analíticas.
Simplificar AGENTS.md / SOUL.md / MEMORY.md.
Degradar todas las tareas cron a Sonnet + Combinar + Reducir frecuencia.
Intervalo de Heartbeat de 45 minutos + Silencio nocturno.
Configurar búsqueda precisa con qmd para reemplazar la lectura completa.
Mantener solo los archivos necesarios en workspaceFiles.
Simplificar regularmente los archivos de memoria, mantener MEMORY.md por debajo de 2000 tokens.
Configúralo una vez, benefíciate a largo plazo:
1. Estratificación de modelos — Sonnet para lo diario, Opus para lo clave, ahorra 60-80%.
2. Reducción de contexto — Simplificar archivos + búsqueda precisa con qmd, ahorra 30-90% de tokens de entrada.
3. Reducir llamadas — Combinar cron, alargar heartbeat, activar periodos de silencio.
Sonnet 4 ya es muy potente, para uso diario no se nota la diferencia. Cuando realmente se necesite Opus, se cambia.
Basado en la experiencia práctica con sistemas multi-agente, los datos son valores estimados anonimizados.






