Titre original : La plus grande bourse de crypto américaine passe discrètement à un modèle d'IA chinois, économisant la moitié de ses coûts
Auteur original : AI 上手笔记
Une donnée qui dérange la Silicon Valley
Récemment, le PDG de la plus grande bourse de cryptomonnaies américaine, Coinbase, Brian Armstrong, a prononcé une phrase qui a fait l'effet d'une bombe dans la tech :
« Nous avons basculé nos modèles d'IA vers GLM 5.2 et Kimi 2.7, chinois, et nos dépenses en IA ont été réduites de moitié. »
Réduites de moitié ? Est-ce que le volume d'utilisation a diminué aussi ?
Au contraire. Le volume de tokens utilisé par Coinbase n'a cessé d'augmenter.
Économiser tout en utilisant davantage, c'est bien ce qui inquiète vraiment OpenAI et Anthropic.
Comment l'ont-ils fait ? Trois stratégies d'économie
Coinbase ne s'est pas contenté de changer pour un modèle moins cher. Ils ont construit un véritable « système d'économie » :
Première astuce : Ne pas s'attacher à un seul modèle, laisser le système choisir
Coinbase a mis en place un système de routage automatique. Pour chaque requête entrante, le système sélectionne automatiquement le modèle le plus adapté en fonction du type de tâche, du prix et de l'état du cache.
Toutes les tâches ne nécessitent pas le modèle le plus cher. Une traduction simple utilise un modèle bon marché, un raisonnement complexe en utilise un bon – comme vous n'iriez pas faire vos courses au supermarché du coin en voiture de sport.
Deuxième astuce : Porter le taux de réussite du cache de 5% à 60%
C'est la plus efficace. En optimisant la stratégie de cache, Coinbase a porté son taux de réussite du cache de 5% à 60%.
En clair, 60% des requêtes peuvent réutiliser des calculs précédents, réduisant considérablement le coût réel de chaque appel. Cette optimisation seule permet d'économiser des sommes importantes.
Troisième astuce : L'Ingénierie de Contexte (Context Engineering)
Coinbase demande à ses développeurs de simplifier le contexte, de lancer une nouvelle session pour une nouvelle tâche, et de ne pas entasser trop d'informations dans une même conversation.
Ce n'est pas de la paresse, mais une nouvelle discipline – appelée dans le secteur Context Engineering. Anthropic a clairement indiqué dans un article de blog technique : Dans la gestion des agents d'IA, l'ingénierie de contexte est plus efficace que l'ingénierie des prompts.
En clair : il ne s'agit pas de rendre l'IA plus intelligente, mais de lui donner des informations plus précises.

▲ De plus en plus d'entreprises commencent à compter leurs sous avec les modèles d'IA
Pas seulement Coinbase, c'est une tendance générale
Coinbase n'est pas le premier à essayer.
Lindy, une startup d'IA de seulement 25 personnes, son PDG Flo Crivello a purement et simplement remplacé Claude par Deepseek. Il a déclaré à CNBC : « Le coût de l'IA a déjà dépassé celui de la main-d'œuvre, ce n'est pas soutenable. » Après le changement de modèle, les coûts ont « chuté de façon vertigineuse », économisant des millions de dollars.
Snowflake : son PDG Sridhar Ramaswamy a fait une comparaison réelle : sur 103 tâches de codage, GLM-5.2 en a résolu 66%, Claude Opus 4.7 en a résolu 67%. L'écart ? Presque inexistant.
Mais l'écart de prix est bien réel :
Comparaison des prix (par million de tokens)
- GLM-5.2 : Entrée $1.40 / Sortie $4.40
- Claude Opus 4.7 : Entrée $5 / Sortie $25
- GPT-5.5 : Entrée $5 / Sortie $30
Le prix de sortie est 5 à 7 fois moins cher.
Bon marché ne veut pas dire bon ? Ne concluez pas trop vite
En lisant ceci, vous pourriez vous demander : une telle différence de prix, la qualité peut-elle être la même ?
Pour être honnête, pas exactement, mais l'écart est plus faible que vous ne le pensez.
Les tests de Snowflake montrent que GLM-5.2 est effectivement moins stable sur certaines tâches – un taux de réussite du premier essai de 47,6 %, inférieur à celui d'Opus de 53,7 %. De plus, GLM s’obstine parfois dans une mauvaise direction : sur une tâche, il a passé 24 minutes en 411 appels d'outils, et a échoué. Opus a réussi en 9 minutes avec 49 appels.
Mais sur la plupart des tâches, les taux de réussite finaux des deux modèles sont presque identiques. La question clé est : êtes-vous prêt à payer 5 fois plus pour quelques points de pourcentage de stabilité ?
Pour de nombreuses entreprises, la réponse est de plus en plus claire : non.

▲ L'écart de prix entre les modèles d'IA chinois et occidentaux est en train de remodeler le paysage du secteur
Qu'est-ce que cela signifie pour nous, simples mortels ?
Vous pourriez dire : Je ne suis pas Coinbase, tout cela n'a rien à voir avec moi.
En réalité, cette tendance a trois implications directes sur la façon dont vous utilisez l'IA :
1. Ne jurez pas par un seul modèle
Beaucoup de gens utilisent l'IA en n'en reconnaissant qu'une – soit ChatGPT, soit Claude. Mais les joueurs professionnels ne font plus cela. Utiliser différents modèles pour différentes tâches est la façon la plus rentable de jouer.
Utilisez un modèle bon marché pour les questions quotidiennes, un bon pour écrire du code, faire des analyses. Comme pour manger, vous n'allez pas au restaurant étoilé à chaque repas.
2. La mise en cache et la réutilisation sont les clés des économies
Si vous utilisez souvent l'IA pour des tâches similaires (comme rédiger un rapport hebdomadaire, organiser des notes quotidiennes), apprendre à utiliser le cache et les modèles peut réduire considérablement la consommation.
3. Simplifier le contexte = de meilleurs résultats
Beaucoup de gens, en dialoguant avec l'IA, veulent y fourrer tout le contexte. Mais il est prouvé que donner à l'IA moins d'informations, mais plus précises, donne de meilleurs résultats. Nouvelle tâche, nouvelle conversation. Ne laissez pas l'IA chercher des réponses dans un tas d'historique.
Un changement plus profond : Le modèle de tarification de l'IA est en train d'être remodelé
Derrière cette « vague de migration de modèles », c'est toute la logique de tarification du secteur de l'IA qui est ébranlée.
La forte valorisation d'OpenAI et d'Anthropic repose sur l'hypothèse d'une « croissance continue et rapide des revenus ». Mais si de plus en plus d'entreprises, comme Coinbase et Lindy, se tournent vers des alternatives moins chères, cette hypothèse ne tient plus.
Selon les rapports, OpenAI et Anthropic ont déjà commencé une guerre des prix. Dans la série GPT-5.6 qu'OpenAI vient de publier, le modèle Terra est deux fois moins cher que GPT-5.5, et Luna se concentre sur le prix le plus bas.
Pour les utilisateurs, c'est une bonne chose. Plus la concurrence est féroce, plus les prix sont bas, plus les choix sont nombreux.
Quand les géants américains commencent à utiliser des modèles chinois pour économiser, cela montre que la compétition dans l'IA n'est plus un concours de benchmarks en laboratoire, mais une lutte de coûts en argent réel. Être capable de faire la même chose avec moins d'argent, c'est là le véritable talent.






