Titre original : Le plus grand exchange de crypto américain a discrètement adopté un modèle d'IA chinois, divisant les coûts par deux
Auteur original : AI 上手笔记
Une donnée qui inquiète la Silicon Valley
Récemment, le PDG de Coinbase, le plus grand exchange de cryptomonnaies américain, Brian Armstrong, a prononcé une phrase qui a fait l'effet d'une bombe dans le monde de la tech :
« Nous avons migré nos modèles d'IA vers les modèles chinois GLM 5.2 et Kimi 2.7, réduisant directement nos dépenses d'IA de moitié. »
De moitié ? Est-ce que le volume d'utilisation a également diminué ?
Au contraire. L'utilisation de tokens par Coinbase n'a cessé d'augmenter.
Économiser de l'argent tout en utilisant plus, c'est ce qui inquiète vraiment OpenAI et Anthropic.
Comment ils ont fait ? Trois stratégies d'économie
Coinbase n'a pas simplement changé pour un modèle moins cher. Ils ont construit un système complet d'« économie » :
Première astuce : Ne pas s'enfermer sur un seul modèle, laisser le système choisir
Coinbase a mis en place un système de routage automatique. À chaque requête, le système sélectionne automatiquement le modèle le plus adapté en fonction du type de tâche, du prix et de l'état du cache.
Toutes les tâches n'ont pas besoin du modèle le plus cher. Une simple traduction utilise un modèle bon marché, un raisonnement complexe un bon modèle – comme vous n'iriez pas faire vos courses du quotidien en voiture de sport.
Deuxième astuce : Faire passer le taux de réussite du cache de 5 % à 60 %
C'est la technique la plus impressionnante. En optimisant la stratégie de mise en cache, Coinbase a porté le taux de succès du cache de 5 % à 60 %.
En bref, 60 % des requêtes peuvent réutiliser des résultats de calculs précédents, réduisant considérablement le coût réel de chaque appel. Cette optimisation seule a permis d'économiser une somme énorme.
Troisième astuce : L'ingénierie du contexte (Context Engineering)
Coinbase demande aux développeurs de simplifier le contexte, de commencer une nouvelle session pour chaque nouvelle tâche, et de ne pas encombrer une seule conversation avec trop d'éléments.
Ce n'est pas de la paresse, mais une nouvelle discipline – appelée « Context Engineering » par l'industrie. Anthropic a clairement indiqué dans un article de blog technique : dans la gestion des agents d'IA, l'ingénierie du contexte est plus efficace que l'ingénierie des prompts (prompt engineering).
En bref : Il ne s'agit pas de rendre l'IA plus intelligente, mais de lui donner des informations plus précises.

▲ De plus en plus d'entreprises commencent à optimiser leurs dépenses sur les modèles d'IA
Pas seulement Coinbase, c'est une tendance
Coinbase n'est pas le premier à avoir tenté l'expérience.
Lindy, une startup d'IA de seulement 25 personnes, dont le PDG Flo Crivello a remplacé entièrement Claude par Deepseek. Il a déclaré à CNBC : « Le coût de l'IA a dépassé celui de la main-d'œuvre, ce n'est pas soutenable. » Après le changement de modèle, les coûts ont « chuté de façon spectaculaire », économisant des millions de dollars.
Snowflake, dont le PDG Sridhar Ramaswamy a réalisé une comparaison en conditions réelles : sur 103 tâches de codage, GLM-5.2 en a résolu 66 %, Claude Opus 4.7 en a résolu 67 %. La différence ? Pratiquement inexistante.
Mais l'écart de prix est bien réel :
Comparaison des prix (par million de tokens)
- GLM-5.2 : Entrée $1.40 / Sortie $4.40
- Claude Opus 4.7 : Entrée $5 / Sortie $25
- GPT-5.5 : Entrée $5 / Sortie $30
Le prix de sortie est 5 à 7 fois plus cher.
Bon marché ne veut pas dire bon ? Ne concluez pas trop vite
À ce stade, vous pourriez vous demander : à ce prix si bas, la qualité est-elle la même ?
Pour être honnête, pas tout à fait, mais l'écart est plus petit que vous ne le pensez.
Les tests de Snowflake montrent que GLM-5.2 est effectivement moins stable sur certaines tâches – un taux de réussite au premier essai de 47.6 %, contre 53.7 % pour Opus. De plus, GLM peut parfois « s'entêter » dans la mauvaise direction : sur une tâche, il a passé 24 minutes à appeler 411 outils, et a finalement échoué. Opus a réussi en 9 minutes avec seulement 49 appels.
Mais sur la plupart des tâches, les taux de réussite finaux sont presque identiques. La question clé est : êtes-vous prêt à payer 5 fois plus pour quelques points de pourcentage de stabilité en plus ?
Pour de nombreuses entreprises, la réponse est de plus en plus claire : non.

▲ L'écart de prix entre les modèles d'IA occidentaux et chinois redessine le paysage du secteur
Qu'est-ce que cela signifie pour nous, les gens ordinaires ?
Vous pourriez dire : je ne suis pas Coinbase, en quoi cela me concerne ?
En réalité, cette tendance a trois implications directes sur la façon dont vous utilisez l'IA :
1. Ne vous enfermez pas sur un seul modèle
Beaucoup de gens utilisent l'IA en ne jurent que par un seul modèle – soit ChatGPT, soit Claude. Mais les joueurs professionnels ne procèdent plus ainsi. Utiliser différents modèles pour différentes tâches est la manière la plus rentable de procéder.
Questions-réponses quotidiennes avec un modèle bon marché, écriture de code, analyses complexes avec un bon modèle. Comme pour la nourriture, vous n'allez pas au restaurant étoilé Michelin à chaque repas.
2. La mise en cache et la réutilisation sont les clés des économies
Si vous utilisez fréquemment l'IA pour des tâches similaires (par exemple, rédiger un rapport hebdomadaire, organiser des notes quotidiennement), apprendre à utiliser le cache et les modèles peut réduire considérablement la consommation.
3. Simplifier le contexte = de meilleurs résultats
Beaucoup de gens, lors d'un dialogue avec l'IA, ont tendance à tout mettre en contexte. Mais il est prouvé que donner à l'IA moins d'informations mais plus précises donne de meilleurs résultats. Nouvelle tâche, nouvelle conversation. Ne laissez pas l'IA chercher des réponses dans un tas d'historique.
Un changement plus profond : Le modèle de tarification de l'IA est en train d'être refaçonné
Derrière cette « vague de migration de modèles », c'est toute la logique de tarification du secteur de l'IA qui vacille.
La valorisation élevée d'OpenAI et d'Anthropic repose sur l'hypothèse de « revenus en croissance continue et rapide ». Mais si de plus en plus d'entreprises, comme Coinbase et Lindy, se tournent vers des alternatives moins chères, cette hypothèse ne tient plus.
Selon des rapports, une guerre des prix a déjà commencé entre OpenAI et Anthropic. Dans la série GPT-5.6 récemment publiée par OpenAI, le modèle Terra est deux fois moins cher que GPT-5.5, et Luna se positionne même sur le prix le plus bas.
Pour les utilisateurs, c'est une bonne chose. Plus la concurrence est féroce, plus les prix sont bas et plus les choix sont nombreux.
Lorsque des géants américains commencent à utiliser des modèles chinois pour économiser, cela signifie que la concurrence dans l'IA n'est plus une course aux scores en laboratoire, mais un véritable combat sur les coûts en espèces sonnantes et trébuchantes. Être capable de faire la même chose en dépensant moins d'argent, c'est ça, la vraie compétence.






