Título original: El mayor intercambio de criptomonedas de EE. UU. cambió silenciosamente a un modelo de IA chino, ahorrando la mitad del dinero
Autor original: AI 上手笔记
Un dato que inquieta a Silicon Valley
Recientemente, Brian Armstrong, CEO de Coinbase, la mayor bolsa de criptomonedas de EE. UU., dijo algo que sacudió el mundo tecnológico:
«Cambiamos nuestros modelos de IA a los chinos GLM 5.2 y Kimi 2.7, y el gasto en IA se redujo a la mitad.»
¿Reducido a la mitad? ¿Acaso también bajó el uso?
Todo lo contrario. El uso de tokens de Coinbase no ha dejado de aumentar.
Ahorrar dinero mientras se usa más es precisamente lo que realmente inquieta a OpenAI y Anthropic.
¿Cómo lo lograron? Tres estrategias de ahorro
Coinbase no se limitó a cambiar a un modelo más barato. Construyeron un «sistema de ahorro» completo:
Primera táctica: No comprometerse con un solo modelo, dejar que el sistema elija
Coinbase creó un sistema de enrutamiento automático. Cada vez que llega una solicitud, el sistema selecciona automáticamente el modelo más adecuado según el tipo de tarea, el precio y la situación de la caché.
No todas las tareas requieren el modelo más caro. Traducciones simples con uno barato, razonamiento complejo con uno bueno. Como quien no usa un deportivo para ir a comprar al supermercado de la esquina.
Segunda táctica: Aumentar la tasa de acierto de caché del 5% al 60%
Esta es la táctica más contundente. Al optimizar la estrategia de caché, Coinbase aumentó la tasa de acierto del 5% al 60%.
En pocas palabras, el 60% de las solicitudes pueden reutilizar cálculos anteriores, reduciendo enormemente el costo real de cada llamada. Solo esta optimización ahorró una gran suma de dinero.
Tercera táctica: Context Engineering (Ingeniería de Contexto)
Coinbase exige a los desarrolladores que simplifiquen el contexto, que abran una nueva sesión para cada tarea nueva y no llenen una sola conversación con demasiadas cosas.
No es pereza, es una nueva disciplina: en la industria se llama Context Engineering. Anthropic, en un blog técnico, señaló claramente: al gestionar agentes de IA, la ingeniería de contexto es más eficaz que la ingeniería de prompts.
En resumen: no se trata de hacer que la IA sea más inteligente, sino de darle información más precisa.

▲ Cada vez más empresas empiezan a calcular minuciosamente con los modelos de IA
No es solo Coinbase, es una tendencia
Coinbase no es la primera en probar esto.
Lindy, una startup de IA con solo 25 empleados, cuyo CEO, Flo Crivello, reemplazó completamente Claude por Deepseek. Dijo a CNBC: «El costo de la IA ya ha superado el costo laboral, esto es insostenible». Tras cambiar el modelo, el coste «cayó en picado», ahorrando millones de dólares.
Snowflake, cuyo CEO, Sridhar Ramaswamy, hizo una prueba comparativa real: en 103 tareas de programación, GLM-5.2 resolvió el 66%, Claude Opus 4.7 resolvió el 67%. ¿Diferencia? Casi ninguna.
Pero la diferencia de precio es real:
Comparativa de precios (por millón de tokens)
- GLM-5.2: Entrada $1.40 / Salida $4.40
- Claude Opus 4.7: Entrada $5 / Salida $25
- GPT-5.5: Entrada $5 / Salida $30
El precio de salida es 5-7 veces menor.
¿Lo barato sale caro? No saques conclusiones tan rápido
Al ver esto, quizás te preguntes: ¿con este precio tan bajo, la calidad es la misma?
Honestamente, no es exactamente igual, pero la diferencia es menor de lo que piensas.
Las pruebas de Snowflake mostraron que GLM-5.2 efectivamente es menos estable en algunas tareas: una tasa de éxito del primer intento del 47.6%, inferior al 53.7% de Opus. Además, GLM a veces «se empeña» en la dirección equivocada: en una tarea, tardó 24 minutos e hizo 411 llamadas a herramientas, y aún así falló. Opus la resolvió en 9 minutos con 49 llamadas.
Pero en la mayoría de las tareas, las tasas de éxito final son casi iguales. La clave es: ¿Estás dispuesto a pagar 5 veces más por esos pocos puntos porcentuales de estabilidad?
Para muchas empresas, la respuesta es cada vez más clara: no.

▲ La brecha de precios de los modelos de IA entre Oriente y Occidente está remodelando el panorama de la industria
¿Qué significa esto para nosotros, la gente común?
Podrías decir: yo no soy Coinbase, ¿qué tiene esto que ver conmigo?
En realidad, esta tendencia tiene tres implicaciones directas sobre cómo usas la IA:
1. No te aferres a un solo modelo
Mucha gente usa la IA y solo reconoce una: ya sea ChatGPT o Claude. Pero los jugadores profesionales ya no lo hacen así. Usar modelos diferentes para tareas distintas es la forma más rentable de jugar.
Preguntas y respuestas cotidianas con modelos baratos, programación y análisis con modelos buenos. Como cuando comes, no vas a un restaurante de estrella Michelin para cada comida.
2. El caché y la reutilización son clave para ahorrar
Si usas la IA con frecuencia para cosas similares (como escribir informes semanales, organizar notas diariamente), aprender a utilizar la caché y las plantillas puede reducir drásticamente el consumo.
3. Contexto simplificado = Mejores resultados
Mucha gente, al conversar con la IA, quiere meter todo el contexto. Pero está comprobado que darle a la IA menos información, pero más precisa, da mejores resultados. Nueva tarea, nueva conversación. No dejes que la IA busque respuestas en un montón de historial.
Un cambio más profundo: El modelo de fijación de precios de la IA se está remodelando
Detrás de esta «ola de migración de modelos» está la sacudida de toda la lógica de fijación de precios de la industria de la IA.
Las altas valoraciones de OpenAI y Anthropic se basan en el supuesto de que «los ingresos crecerán continuamente a un ritmo alto». Pero si cada vez más empresas, como Coinbase y Lindy, se pasan a alternativas más baratas, este supuesto no se sostiene.
Según informes, entre OpenAI y Anthropic ya ha comenzado una guerra de precios. En la serie GPT-5.6 recién lanzada por OpenAI, el modelo Terra cuesta la mitad que GPT-5.5, y Luna se posiciona como el de menor precio.
Para los usuarios, esto es bueno. Cuanta más competencia, precios más bajos y más opciones.
Cuando los gigantes estadounidenses empiezan a usar modelos chinos para ahorrar dinero, significa que la competencia en la IA ya no es una carrera de puntuaciones de laboratorio, sino un enfrentamiento real con costos en efectivo. Hacer lo mismo gastando menos dinero es lo que cuenta de verdad.






