Claude Bill Skyrockets by 5 Billion, Surges 60-Fold Overnight—Can Your Token Budget Keep Up?

marsbitPublié le 2026-06-01Dernière mise à jour le 2026-06-01

Résumé

An enterprise reportedly ran up a staggering $500 million bill on Anthropic's Claude AI in just one month due to a simple oversight: failing to set usage limits for employee accounts. This incident highlights a growing trend of runaway AI costs. Other examples include a Google Cloud user hit with an unexpected $18,000 bill from API key abuse, and an OpenAI internal experiment that consumed 603 billion tokens, costing $1.3 million in 30 days. Major AI providers like OpenAI and GitHub are shifting from flat monthly fees to granular, usage-based pricing (per input/output/cached token), causing shock for some users whose costs skyrocketed by orders of magnitude. The root causes extend beyond pricing. The rise of autonomous AI agents executing long, complex tasks has drastically increased token consumption. Furthermore, misaligned incentives, like internal "leaderboards" ranking employees by AI usage, can encourage wasteful "tokenmaxxing"—using powerful models for trivial tasks just to inflate metrics. This has sparked a new industry focused on cost optimization. Solutions include providing AI with better context (reducing redundant searches) and intelligent model routing (matching tasks to the most cost-effective model). Research indicates token consumption for agentic tasks can vary wildly (up to 30x for the same job) without guaranteeing better results, and models often underestimate their own costs. As AI expenses begin to rival or even surpass human labor costs for some t...

A $500 Million Bill in Just 1 Month!

Recently, a shocking blunder erupted in the tech world. According to Axios, a company actually managed to rack up a $500 million bill on Claude in just one month!

The reason is laughable: management forgot to set usage limits when granting employees access to Claude accounts.

In fact, this isn't the only case of AI bills exploding.

In April, a Google Cloud user, whose publicly accessible API key was misused, received a bill for $18,000 overnight, despite having only a $7 budget set.

The unlucky user, Jesse Davies, is an Australian AI consultant and founder of Agentic Labs. He had set up two safeguards for his Google Cloud account: a A$10 (about $7) budget alert and a hard spending cap of $1,400.

As reported by Tom's Hardware, attackers discovered a Cloud Run service he had deployed months earlier from AI Studio, sending over 60,000 requests. Both safeguards failed: there was a delay in billing calculations, and by the time the system reacted, the amount had skyrocketed to $18,000.

In mid-May, Peter Steinberger, founder of the open-source project OpenClaw, posted a screenshot on X: a $1.3 million OpenAI API bill for 30 days.

His team has only three people, but they orchestrated 100 Codex agents running in parallel: burning through 603 billion Tokens and making 7.6 million requests in 30 days. Fortunately, he didn't have to foot this $1.3 million bill himself.

Steinberger joined OpenAI this past February, and this $1.3 million was treated as an internal experiment:

to test the absolute limits of AI programming when token cost is not a consideration. He added that this was the result of Codex's "Fast Mode" (higher-tier billing); turning it off reduced the cost to about $300,000.

Even earlier, Uber's CTO Praveen Neppalli Naga had admitted to The Information that the company had exhausted its annual Claude Code budget by April, and their COO also publicly stated that AI costs were becoming increasingly "hard to justify."

$500 million, $1.3 million, $18,000—though these figures differ by orders of magnitude, they point to the same reality:

In the age of agents, any one of these—a compromised key, an army of agents running 24/7, or an account with forgotten limits—can blow up your token bill overnight.

Why Do AI Bills Explode?

The answer lies mainly in the shift in billing methods.

Starting April this year, OpenAI began transitioning from monthly flat fees to usage-based billing by Token.

On April 2, Codex billing shifted from per-message estimates to alignment with actual Token usage: Input, Cached Input, and Output Tokens are billed separately. On April 23, this rule was extended to all Enterprise, Edu, Health, and Gov plans: the invisible discount within the monthly fee was removed.

GitHub followed closely, just announcing: all Copilot plans will switch to usage-based billing effective June 1, 2026. The old premium request logic is scrapped, replaced with AI credits, settled based on actual consumption of Input, Output, and Cached Tokens against each model's API rate.

GitHub officially explained the reason for this change:

Currently, a quick chat question and a multi-hour autonomous coding task cost the user the same amount. GitHub has been subsidizing the heavy users, but this model is no longer sustainable.

Before the rise of AI agents, the costs of chat and completions were similar, and monthly fees could cover them.

After agents rose, a single task could run for hours and modify entire codebases, creating a cost difference of orders of magnitude between heavy and light users. The flat monthly fee model collapses in the face of such disparity.

The news sparked an uproar on Reddit and X.

A developer with the ID JBusu shared a screenshot of their bill, bluntly calling the new pricing "a joke." Their previous monthly cost of $28.12 would become $746.01 under the new system. They've decided to cancel, "At this price, I could rent a cloud server myself and it would be cheaper."

Another user shared an even more extreme screenshot, showing costs soaring from $50 to $3,000. They said they never expected pricing to be this outrageous, "Is anyone still subscribing?"

However, some veteran Copilot users countered: these extreme bills are likely burned by "vibe-coders" who aren't mindful of token usage and may not represent normal use.

One veteran user commented: "I use it all day long and rarely exceed limits by month-end. It's hard to believe this is due to differences in task complexity." Another was more direct: "It's people wanting fully automated YOLO-mode development, letting AI run wild. Culling this waste is actually good for everyone else."

One thing is clear: GitHub hasn't abolished monthly fees; the base subscription price remains unchanged. What has changed is that extra usage, agent tasks, and calls to more expensive models now fall under usage-based billing.

The hardest hit are those heavy agent users who rely on Copilot for long-chain tasks.

The Leaderboard Gamed by Its Own Users

The collapse of flat fees is partly due to platforms changing their billing rules, and partly because AI users themselves are burning through tokens.

In May, Business Insider reported that Amazon took down an internal AI usage leaderboard called KiroRank.

The report cited insiders saying the leaderboard quietly encouraged a strange work style: some employees, to climb the ranks, would burn tokens on tasks that didn't solve actual problems, purely for ranking.

After the story broke, Amazon SVP Dave Treadwell directly addressed all employees: "Don't use AI for the sake of using AI. Use it to solve customer problems, business problems, to innovate."

Though absurd, this is hardly surprising. When "burning tokens" gets you on a leaderboard, employees will naturally burn tokens.

Silicon Valley has coined a term for this phenomenon: Tokenmaxxing—treating consumption volume as productivity.

Axios's report also mentioned CTOs discovering employees using cutting-edge AI models to check the weather or write routine emails—trivial tasks that, when run on the most expensive frontier models, can silently send bills soaring.

KiroRank wasn't part of Amazon's official evaluation system but an informal tool built by employees. Yet it clearly exposes a classic management principle: when KPIs are set wrong, people will use the cleverest ways to game the system.

Equating "how much was used" with "how well it was done"—this is the systemic root of this wave of AI waste.

Those Who Count Tokens Are Already Making Money

On the flip side of token bill anxiety, some are quietly turning it into a business.

First approach: Feed the AI with context.

Glean is actually Arvind Jain's own company. It builds an enterprise AI work assistant: unifying knowledge scattered across a company, giving employees' AI direct context so they don't have to dig around. The AI takes fewer detours, naturally burning fewer tokens.

This mechanism helped Glean's annual revenue triple in 15 months, crossing $300 million, with clients including Databricks, Reddit, and Samsung.

Second approach: Delegate tasks to the right model.

This is what model routing startup Factory AI does: automatically routing each task to the most suitable model, cheap ones for simple tasks, top-tier for complex ones. Arvind also noted: Do routing right, and you can save 10x.

Both paths lead to the same destination: Let AI work, but don't let it burn money indiscriminately.

Academic research is also laying the groundwork for this shift.

https://arxiv.org/pdf/2604.22750

An arXiv paper from April 2026 systematically broke down how agent coding tasks actually burn money for the first time.

Conclusion One: Token consumption for agent tasks can be thousands of times higher than ordinary code reasoning or code chat, with Input Tokens being the main cost driver.

Conclusion Two: Running the same task multiple times can result in a 30x difference in Token consumption.

Conclusion Three: Higher Token consumption does not necessarily lead to higher accuracy. Accuracy often peaks at medium cost—burning more beyond that spends money without yielding better results.

The paper also found that even frontier models can't reliably predict their own token consumption, generally underestimating the real cost.

You think spending more gets more done. In reality, money is spent, the work isn't necessarily better, and the budget is still unpredictable.

When AI Bills Start Rivaling Labor Costs

"This is the first time in my memory that technology costs are starting to be on par with human costs."

On May 29, Glean CEO Arvind Jain said this in an interview with CNBC's Deirdre Bosa.

Observations from Nvidia's Vice President of Applied Deep Learning, Bryan Catanzaro, corroborate this.

He mentioned in an Axios interview that for his team, compute costs far exceed employee salaries.

Similar trends are emerging across multiple companies: from enterprise AI player Glean, to AI compute seller Nvidia, to AI user Uber—all are re-evaluating this equation.

In Arvind's view, historically, technology was just a small slice of overall corporate costs. But now, AI costs are catching up to payrolls. Many companies' annual AI budgets are often burned through in just one or two months.

Over the past year, AI usage rate was a worshipped metric: more usage meant being advanced, burning tokens meant embracing the future. Now, many companies are reflecting on that simple question: What exactly did all those burned tokens buy?

The window of free or flat-rate unlimited usage is precisely closing at this moment.

Going forward, the question facing all developers is this: How to budget meticulously and maximize the value of every single Token.

Undoubtedly, the true winners of the future will be those who learn to count tokens first.

References:

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

This article is from the WeChat public account "AI Era Insights", author: ASI启示录

Questions liées

QWhat is the main reason behind the dramatic increase in AI usage costs as discussed in the article?

AThe primary reason is the shift from flat-rate monthly subscription models to consumption-based pricing (charging per Token used). This change, implemented by companies like OpenAI and GitHub, means that intensive AI agent tasks, which can consume orders of magnitude more tokens than simple chats or completions, now incur significantly higher costs.

QWhat incident involving a leaked API key led to a massive unexpected bill, and how much was it?

AAn Australian AI consultant named Jesse Davies had a Google Cloud API key exposed from a public service. Attackers used it to make over 60,000 requests, resulting in a bill of $18,000, despite him having set a budget alert and a hard spending limit.

QWhat does the term 'Token maxxing' refer to in the context of corporate AI use?

A'Token maxxing' refers to the practice of employees excessively consuming AI tokens, not to solve real problems, but to climb internal usage leaderboards (like Amazon's KiroRank) or meet misguided productivity KPIs that equate high token usage with good performance.

QWhat was the key finding of the April 2026 arXiv paper regarding AI agent coding tasks and cost?

AThe key finding was that AI agent tasks can consume up to a thousand times more tokens than standard code reasoning/dialogue, primarily due to input tokens. Crucially, higher token consumption does not necessarily lead to higher accuracy, with performance often plateauing at a medium cost level.

QAccording to the article, what are the two main business approaches emerging to help manage and reduce AI token costs?

A1. Providing context to AI: Companies like Glean build systems that give AI assistants direct access to relevant company knowledge, reducing the need for lengthy searches and context-building, thus saving tokens. 2. Model routing: Startups like Factory AI automatically route tasks to the most cost-appropriate AI model (e.g., simple tasks to cheaper models, complex ones to top-tier models), potentially saving up to 10x in costs.

Lectures associées

Changement de cap mondial chez a16z : Le capital-risque devient le « moteur » de l'alliance technologique américaine

L’annonce de Ben Horowitz marque un virage stratégique majeur dans la globalisation d’a16z. Le fonds ne se contente plus de rechercher des projets à l’étranger, mais s’inscrit dans un cadre plus large de compétition technologique et de coopération entre alliés, explicitement lié au leadership technologique des États-Unis et de leurs partenaires. Dans un contexte où l’IA, la robotique, la cybersécurité et les chaînes d’approvisionnement deviennent des enjeux de compétition nationale, le rôle des VC évolue. A16z renforce ses capacités pour aider ses startups à naviguer dans des environnements complexes, mêlant marchés, régulations et géopolitique. Les initiatives clés incluent : l’ouverture d’un bureau à Tokyo, la nomination d’Anne Neuberger (ancienne responsable gouvernementale) comme associée chargée des affaires mondiales pour conseiller sur la politique et la géopolitique, et la transformation de l’équipe relations investisseurs en une équipe « Partenaires Mondiaux » pour faciliter les connexions et le déploiement international des entreprises. L’objectif reste de soutenir les meilleures entreprises technologiques partout dans le monde (plus de 100 investissements internationaux à ce jour), mais avec une mission élargie : être un organisateur reliant les startups aux capacités nationales, aux ressources industrielles et au réseau des alliés, contribuant ainsi à la compétitivité technologique des États-Unis et de leurs alliés.

marsbitIl y a 6 mins

Changement de cap mondial chez a16z : Le capital-risque devient le « moteur » de l'alliance technologique américaine

marsbitIl y a 6 mins

Kalshi, MTS et les ambitions d'a16z

Les marchés prédictifs, représentés par Kalshi, émergent comme un domaine clé en 2025, attirant fonds d'investissement, acteurs de la cryptomonnaie et médias. Leur importance dépasse la simple spéculation. Leur évolution conceptuelle remonte à Hayek (l'utilisation de la connaissance dans la société) et à Robin Hanson (mécanisme LMSR pour inciter à la révélation d'informations), avec l'idée utopique d'une « futarchie ». L'intérêt de a16z, qui a investi dans Kalshi (évalué à 220 milliards de dollars), va au-delà du modèle économique. Leur thèse centrale est que les marchés prédictifs offrent un « sentiment de présence » et une forme d'« anti-cynisme » dans un monde moderne où les individus se sentent déconnectés. En pariant sur des événements mondiaux, l'utilisateur devient un « observateur superlatif », investi et influençant la perception collective. Cela s'inscrit dans la vision de « nouveaux médias » de a16z : un écosystème médiatique complet et rapide qui « s'approprie la timeline », comme le démontre MTS (Monitoring The Situation), un média en continu sur Twitter. Kalshi ajoute à ce dispositif une autorité unique car ses prix reflètent des paris en argent réel, lui conférant un pouvoir de « distorsion de la réalité » pour définir la vérité et l'importance des événements. C'est ce pouvoir, rarement détenu par une entreprise privée, qui justifierait sa valorisation faramineuse et en ferait une pièce maîtresse de l'empire médiatique de a16z.

链捕手Il y a 7 mins

Kalshi, MTS et les ambitions d'a16z

链捕手Il y a 7 mins

Comprendre la réalité du commerce, des paiements et des infrastructures des Agents

**Interprétation de la réalité des agents, des paiements et des infrastructures commerciales** Au cours de l'année passée, l'auteur a travaillé sur l'infrastructure de l'économie des agents, interagissant avec Stripe, Visa, Coinbase, Google et des dizaines de startups. La conclusion est claire : il n'existe pas encore de demande réelle, et les startups font face à des problèmes structurels. Stripe a enregistré peu de transactions d'agents malgré un fort intérêt. Visa impose des seuils de revenus et des processus KYC extrêmement restrictifs, accessibles uniquement aux géants comme Amazon. Les chiffres d'utilisation des agents sur la blockchain (comme via le protocole x402) sont largement gonflés par des transactions de test. **Agent vs Commerçant** : L'expérience d'achat par agent (IA) est souvent inférieure au commerce électronique traditionnel pour les achats visuels (vêtements, électronique). L'interface conversationnelle est un recul par rapport aux interfaces riches. La demande actuelle des marchands est défensive : ils veulent être "trouvables" par les agents par crainte de rater une future tendance. Les cas d'usage convaincants sont limités (commande de nourriture, navigation dans des interfaces complexes), mais nécessitent une distribution de masse détenue par les géants. **Agent vs API** : Les développeurs utilisent déjà massivement des API (calcul, données). Le problème du coût des micro-transactions est souvent résolu par du prépaiement. Le véritable obstacle est que les grands fournisseurs SaaS privilégient les contrats enterprise. Les opportunités pour les nouveaux systèmes de paiement (comme les stablecoins) se situent dans la longue traîne des services, un marché plus restreint. **Agent vs Agent** : Ce modèle est encore théorique, sans volume significatif. Il impliquerait des transactions ultra-rapides entre entités non humaines, avec des montants variables et des règlements multipartites. C'est un pari à long terme sur une infrastructure dédiée, mais ce n'est pas le marché actuel. **Agent vs Finance** : C'est la seule catégorie avec une demande existante et une volonté de payer. Intégrer l'IA dans les workflows financiers existants (gestion de portefeuille, DeFi) est une évolution naturelle et crée de nouvelles capacités. Cependant, la concurrence est rude face aux institutions établies, régulées et bien connectées. **Le véritable enjeu** : Les grandes entreprises construisent par stratégie défensive et ont les moyens d'attendre. Pour les startups, il est crucial de se concentrer sur le marché actuel. Le problème fondamental n'est pas le paiement, mais la **coordination** entre agents et humains : vérifier le travail, s'accorder sur les résultats, puis régler. Le paiement n'est qu'une partie de la solution de coordination. Ce sont les entreprises qui résoudront le problème de la coordination à grande échelle qui domineront, en intégrant le paiement, et non l'inverse. L'expérience de l'auteur l'a conduit vers un autre segment de marché, actif, en croissance et encore mal desservi, en dehors de ces quatre catégories.

marsbitIl y a 9 mins

Comprendre la réalité du commerce, des paiements et des infrastructures des Agents

marsbitIl y a 9 mins

Wall Street connaît sa pire chute depuis 2025, la réévaluation des valorisations des actions technologiques déclenchée par trois catalyseurs

Le marché boursier américain a subi son pire effondrement depuis 2025 le 5 juin, avec le Nasdaq chutant de 4,18 %. Trois facteurs principaux ont déclenché cette vente massive, en particulier dans les actions technologiques. Premièrement, les perspectives trimestrielles de Broadcom concernant ses revenus liés aux puces IA, bien qu'en forte croissance, ont été inférieures aux attentes les plus optimistes. Cela a semé le doute sur le rythme de croissance exponentielle de l'IA, conduisant à une forte correction dans tout le secteur des semi-conducteurs. Deuxièmement, des données sur l'emploi américain bien plus solides que prévu ont renforcé les craintes que la Réserve fédérale (Fed) ne se contente pas de reporter les baisses de taux, mais pourrait même envisager de les augmenter. Cette hausse des taux d'intérêt pèse sur la valorisation des actions de croissance. Troisièmement, l'ombre persistante de l'inflation, alimentée par la guerre en Iran et des prix du pétrole élevés, limite la marge de manœuvre de la Fed. Ces trois éléments combinés ont ébranlé simultanément les récits de "croissance illimitée de l'IA", de "politique monétaire accommodante" et d'"inflation maîtrisée". Il s'agit davantage d'une réévaluation sévère des valorisations que d'un effondrement du récit de l'IA. Les prochaines décisions de la Fed, les résultats des entreprises technologiques et l'évolution de la situation géopolitique seront déterminants pour la suite du marché.

marsbitIl y a 4 h

Wall Street connaît sa pire chute depuis 2025, la réévaluation des valorisations des actions technologiques déclenchée par trois catalyseurs

marsbitIl y a 4 h

Trading

Spot
Futures

Articles tendance

Comment acheter BILL

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Billions Network (BILL) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Billions Network (BILL).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Billions Network (BILL)Après avoir acheté vos Billions Network (BILL), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Billions Network (BILL)Tradez facilement Billions Network (BILL) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

225 vues totalesPublié le 2026.05.07Mis à jour le 2026.06.02

Comment acheter BILL

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de BILL (BILL) sont présentées ci-dessous.

活动图片