Título original: El mayor exchange de criptomonedas de EE.UU. cambió silenciosamente a un modelo de IA chino y ahorró la mitad del dinero
Autor original: Notas prácticas sobre IA
Un dato que inquieta a Silicon Valley
Recientemente, Brian Armstrong, CEO del mayor exchange de criptomonedas de EE.UU., Coinbase, dijo algo que causó revuelo en el mundo tecnológico:
«Cambiamos nuestros modelos de IA a los chinos GLM 5.2 y Kimi 2.7, y los gastos en IA se redujeron a la mitad.»
¿A la mitad? ¿El uso también disminuyó?
Todo lo contrario. El uso de tokens de Coinbase ha estado aumentando continuamente.
Ahorrar dinero mientras se usa más es lo que realmente inquieta a OpenAI y a Anthropic.
¿Cómo lo lograron? Tres estrategias para ahorrar dinero
Coinbase no simplemente cambió a un modelo más barato y listo. Construyeron un completo «sistema de ahorro»:
Primer movimiento: No atarse a un solo modelo, dejar que el sistema elija
Coinbase construyó un sistema de enrutamiento automático. Cada vez que llega una solicitud, el sistema elige automáticamente el modelo más adecuado según el tipo de tarea, el precio y la situación de la caché.
No todas las tareas requieren el modelo más caro. Traducciones simples usan modelos baratos, razonamientos complejos usan los buenos, como no usar un auto deportivo para ir a comprar al mercado.
Segundo movimiento: Elevar la tasa de aciertos en caché del 5% al 60%
Este es el movimiento más audaz. Optimizando las estrategias de caché, Coinbase aumentó la tasa de aciertos en caché del 5% al 60%.
En pocas palabras, el 60% de las solicitudes pueden reutilizar cálculos previos, reduciendo significativamente el costo real de cada llamada. Solo esta optimización ahorró una gran cantidad de dinero.
Tercer movimiento: Ingeniería de contexto (Context Engineering)
Coinbase exige a los desarrolladores que simplifiquen el contexto, inicien una nueva sesión para cada nueva tarea y no carguen demasiado en una sola conversación.
Esto no es pereza, es una nueva disciplina: en la industria se llama Ingeniería de Contexto. Anthropic señaló claramente en una publicación técnica: al gestionar agentes de IA, la ingeniería de contexto es más efectiva que la ingeniería de prompts.
En pocas palabras: no se trata de hacer la IA más inteligente, sino de darle información más precisa.

▲ Cada vez más empresas empiezan a ser más cuidadosas con los costos en modelos de IA
No es solo Coinbase, es una tendencia
Coinbase no es el primero en probarlo.
Lindy, una startup de IA con solo 25 personas, su CEO Flo Crivello reemplazó directamente todo Claude por Deepseek. Le dijo a CNBC: «El costo de la IA ya superó el costo laboral, esto no es sostenible.» Después del cambio, los costos «cayeron en picada», ahorrando millones de dólares.
Snowflake CEO Sridhar Ramaswamy hizo una comparación práctica: en 103 tareas de codificación, GLM-5.2 resolvió el 66%, Claude Opus 4.7 resolvió el 67%. ¿Diferencia? Casi ninguna.
Pero la diferencia de precio es real:
Comparación de precios (por millón de tokens)
- GLM-5.2: Entrada $1.40 / Salida $4.40
- Claude Opus 4.7: Entrada $5 / Salida $25
- GPT-5.5: Entrada $5 / Salida $30
El precio de salida es 5-7 veces más barato.
¿Lo barato es de mala calidad? No te precipites en sacar conclusiones
Al leer esto, podrías preguntarte: ¿Si es tan barato, la calidad será la misma?
La verdad, no es completamente igual, pero la diferencia es menor de lo que piensas.
Las pruebas de Snowflake mostraron que GLM-5.2 en algunas tareas efectivamente no es tan estable: la tasa de éxito en el primer intento fue del 47.6%, inferior al 53.7% de Opus. Además, GLM a veces «se obsesiona» con una dirección incorrecta: en una tarea, gastó 24 minutos llamando a herramientas 411 veces y aún así falló. Opus lo resolvió con 49 llamadas en 9 minutos.
Pero en la mayoría de las tareas, las tasas de éxito final de ambos son casi iguales. La clave es: ¿Estás dispuesto a pagar 5 veces más por unos pocos puntos porcentuales de estabilidad?
Para muchas empresas, la respuesta es cada vez más clara: no.

▲ La brecha de precios entre los modelos de IA chinos y occidentales está remodelando el panorama de la industria
¿Qué significa esto para nosotros, gente común?
Podrías decir: Yo no soy Coinbase, ¿qué tiene que ver esto conmigo?
En realidad, esta tendencia tiene tres implicaciones directas sobre cómo usas la IA:
1. No te quedes solo con un modelo
Mucha gente usa la IA centrándose en una sola opción: ChatGPT o Claude. Pero los jugadores profesionales ya no lo hacen así. Usar diferentes modelos para diferentes tareas es la forma más rentable.
Usa opciones baratas para preguntas cotidianas, y buenos modelos para programar o analizar. Como cuando comes, no vas a un restaurante con estrella Michelin en cada comida.
2. El caché y la reutilización son clave para ahorrar
Si usas la IA frecuentemente para cosas similares (como escribir informes semanales o organizar notas diarias), aprender a usar cachés y plantillas puede reducir drásticamente el consumo.
3. Contexto conciso = Mejores resultados
Mucha gente, al conversar con la IA, quiere meter todo el contexto. Pero está demostrado que darle a la IA menos información, pero más precisa, da mejores resultados. Nueva tarea, nueva conversación. No dejes que la IA busque respuestas en un montón de historial.
Un cambio más profundo: El modelo de precios de la IA está siendo remodelado
Detrás de esta «oleada de migración de modelos» está el cuestionamiento de toda la lógica de precios de la industria de IA.
Las altas valoraciones de OpenAI y Anthropic se basan en el supuesto de un «crecimiento continuo y rápido de los ingresos». Pero si cada vez más empresas como Coinbase y Lindy se cambian a alternativas más baratas, ese supuesto se desmorona.
Según informes, OpenAI y Anthropic ya han comenzado una guerra de precios. En la serie GPT-5.6 recién lanzada por OpenAI, el modelo Terra es la mitad de barato que GPT-5.5, y Luna apunta al precio más bajo.
Para los usuarios, esto es bueno. Cuanta más competencia, más bajos los precios y más opciones.
Cuando los gigantes estadounidenses comienzan a usar modelos chinos para ahorrar, significa que la competencia en IA ya no es una carrera de laboratorio por puntajes, sino una lucha de costos real con dinero contante. Hacer lo mismo gastando menos dinero es la verdadera habilidad.






