Claude Bill Skyrockets by 5 Billion, Surges 60-Fold Overnight—Can Your Token Budget Keep Up?

marsbitXuất bản vào 2026-06-01Cập nhật gần nhất vào 2026-06-01

Tóm tắt

An enterprise reportedly ran up a staggering $500 million bill on Anthropic's Claude AI in just one month due to a simple oversight: failing to set usage limits for employee accounts. This incident highlights a growing trend of runaway AI costs. Other examples include a Google Cloud user hit with an unexpected $18,000 bill from API key abuse, and an OpenAI internal experiment that consumed 603 billion tokens, costing $1.3 million in 30 days. Major AI providers like OpenAI and GitHub are shifting from flat monthly fees to granular, usage-based pricing (per input/output/cached token), causing shock for some users whose costs skyrocketed by orders of magnitude. The root causes extend beyond pricing. The rise of autonomous AI agents executing long, complex tasks has drastically increased token consumption. Furthermore, misaligned incentives, like internal "leaderboards" ranking employees by AI usage, can encourage wasteful "tokenmaxxing"—using powerful models for trivial tasks just to inflate metrics. This has sparked a new industry focused on cost optimization. Solutions include providing AI with better context (reducing redundant searches) and intelligent model routing (matching tasks to the most cost-effective model). Research indicates token consumption for agentic tasks can vary wildly (up to 30x for the same job) without guaranteeing better results, and models often underestimate their own costs. As AI expenses begin to rival or even surpass human labor costs for some t...

A $500 Million Bill in Just 1 Month!

Recently, a shocking blunder erupted in the tech world. According to Axios, a company actually managed to rack up a $500 million bill on Claude in just one month!

The reason is laughable: management forgot to set usage limits when granting employees access to Claude accounts.

In fact, this isn't the only case of AI bills exploding.

In April, a Google Cloud user, whose publicly accessible API key was misused, received a bill for $18,000 overnight, despite having only a $7 budget set.

The unlucky user, Jesse Davies, is an Australian AI consultant and founder of Agentic Labs. He had set up two safeguards for his Google Cloud account: a A$10 (about $7) budget alert and a hard spending cap of $1,400.

As reported by Tom's Hardware, attackers discovered a Cloud Run service he had deployed months earlier from AI Studio, sending over 60,000 requests. Both safeguards failed: there was a delay in billing calculations, and by the time the system reacted, the amount had skyrocketed to $18,000.

In mid-May, Peter Steinberger, founder of the open-source project OpenClaw, posted a screenshot on X: a $1.3 million OpenAI API bill for 30 days.

His team has only three people, but they orchestrated 100 Codex agents running in parallel: burning through 603 billion Tokens and making 7.6 million requests in 30 days. Fortunately, he didn't have to foot this $1.3 million bill himself.

Steinberger joined OpenAI this past February, and this $1.3 million was treated as an internal experiment:

to test the absolute limits of AI programming when token cost is not a consideration. He added that this was the result of Codex's "Fast Mode" (higher-tier billing); turning it off reduced the cost to about $300,000.

Even earlier, Uber's CTO Praveen Neppalli Naga had admitted to The Information that the company had exhausted its annual Claude Code budget by April, and their COO also publicly stated that AI costs were becoming increasingly "hard to justify."

$500 million, $1.3 million, $18,000—though these figures differ by orders of magnitude, they point to the same reality:

In the age of agents, any one of these—a compromised key, an army of agents running 24/7, or an account with forgotten limits—can blow up your token bill overnight.

Why Do AI Bills Explode?

The answer lies mainly in the shift in billing methods.

Starting April this year, OpenAI began transitioning from monthly flat fees to usage-based billing by Token.

On April 2, Codex billing shifted from per-message estimates to alignment with actual Token usage: Input, Cached Input, and Output Tokens are billed separately. On April 23, this rule was extended to all Enterprise, Edu, Health, and Gov plans: the invisible discount within the monthly fee was removed.

GitHub followed closely, just announcing: all Copilot plans will switch to usage-based billing effective June 1, 2026. The old premium request logic is scrapped, replaced with AI credits, settled based on actual consumption of Input, Output, and Cached Tokens against each model's API rate.

GitHub officially explained the reason for this change:

Currently, a quick chat question and a multi-hour autonomous coding task cost the user the same amount. GitHub has been subsidizing the heavy users, but this model is no longer sustainable.

Before the rise of AI agents, the costs of chat and completions were similar, and monthly fees could cover them.

After agents rose, a single task could run for hours and modify entire codebases, creating a cost difference of orders of magnitude between heavy and light users. The flat monthly fee model collapses in the face of such disparity.

The news sparked an uproar on Reddit and X.

A developer with the ID JBusu shared a screenshot of their bill, bluntly calling the new pricing "a joke." Their previous monthly cost of $28.12 would become $746.01 under the new system. They've decided to cancel, "At this price, I could rent a cloud server myself and it would be cheaper."

Another user shared an even more extreme screenshot, showing costs soaring from $50 to $3,000. They said they never expected pricing to be this outrageous, "Is anyone still subscribing?"

However, some veteran Copilot users countered: these extreme bills are likely burned by "vibe-coders" who aren't mindful of token usage and may not represent normal use.

One veteran user commented: "I use it all day long and rarely exceed limits by month-end. It's hard to believe this is due to differences in task complexity." Another was more direct: "It's people wanting fully automated YOLO-mode development, letting AI run wild. Culling this waste is actually good for everyone else."

One thing is clear: GitHub hasn't abolished monthly fees; the base subscription price remains unchanged. What has changed is that extra usage, agent tasks, and calls to more expensive models now fall under usage-based billing.

The hardest hit are those heavy agent users who rely on Copilot for long-chain tasks.

The Leaderboard Gamed by Its Own Users

The collapse of flat fees is partly due to platforms changing their billing rules, and partly because AI users themselves are burning through tokens.

In May, Business Insider reported that Amazon took down an internal AI usage leaderboard called KiroRank.

The report cited insiders saying the leaderboard quietly encouraged a strange work style: some employees, to climb the ranks, would burn tokens on tasks that didn't solve actual problems, purely for ranking.

After the story broke, Amazon SVP Dave Treadwell directly addressed all employees: "Don't use AI for the sake of using AI. Use it to solve customer problems, business problems, to innovate."

Though absurd, this is hardly surprising. When "burning tokens" gets you on a leaderboard, employees will naturally burn tokens.

Silicon Valley has coined a term for this phenomenon: Tokenmaxxing—treating consumption volume as productivity.

Axios's report also mentioned CTOs discovering employees using cutting-edge AI models to check the weather or write routine emails—trivial tasks that, when run on the most expensive frontier models, can silently send bills soaring.

KiroRank wasn't part of Amazon's official evaluation system but an informal tool built by employees. Yet it clearly exposes a classic management principle: when KPIs are set wrong, people will use the cleverest ways to game the system.

Equating "how much was used" with "how well it was done"—this is the systemic root of this wave of AI waste.

Those Who Count Tokens Are Already Making Money

On the flip side of token bill anxiety, some are quietly turning it into a business.

First approach: Feed the AI with context.

Glean is actually Arvind Jain's own company. It builds an enterprise AI work assistant: unifying knowledge scattered across a company, giving employees' AI direct context so they don't have to dig around. The AI takes fewer detours, naturally burning fewer tokens.

This mechanism helped Glean's annual revenue triple in 15 months, crossing $300 million, with clients including Databricks, Reddit, and Samsung.

Second approach: Delegate tasks to the right model.

This is what model routing startup Factory AI does: automatically routing each task to the most suitable model, cheap ones for simple tasks, top-tier for complex ones. Arvind also noted: Do routing right, and you can save 10x.

Both paths lead to the same destination: Let AI work, but don't let it burn money indiscriminately.

Academic research is also laying the groundwork for this shift.

https://arxiv.org/pdf/2604.22750

An arXiv paper from April 2026 systematically broke down how agent coding tasks actually burn money for the first time.

Conclusion One: Token consumption for agent tasks can be thousands of times higher than ordinary code reasoning or code chat, with Input Tokens being the main cost driver.

Conclusion Two: Running the same task multiple times can result in a 30x difference in Token consumption.

Conclusion Three: Higher Token consumption does not necessarily lead to higher accuracy. Accuracy often peaks at medium cost—burning more beyond that spends money without yielding better results.

The paper also found that even frontier models can't reliably predict their own token consumption, generally underestimating the real cost.

You think spending more gets more done. In reality, money is spent, the work isn't necessarily better, and the budget is still unpredictable.

When AI Bills Start Rivaling Labor Costs

"This is the first time in my memory that technology costs are starting to be on par with human costs."

On May 29, Glean CEO Arvind Jain said this in an interview with CNBC's Deirdre Bosa.

Observations from Nvidia's Vice President of Applied Deep Learning, Bryan Catanzaro, corroborate this.

He mentioned in an Axios interview that for his team, compute costs far exceed employee salaries.

Similar trends are emerging across multiple companies: from enterprise AI player Glean, to AI compute seller Nvidia, to AI user Uber—all are re-evaluating this equation.

In Arvind's view, historically, technology was just a small slice of overall corporate costs. But now, AI costs are catching up to payrolls. Many companies' annual AI budgets are often burned through in just one or two months.

Over the past year, AI usage rate was a worshipped metric: more usage meant being advanced, burning tokens meant embracing the future. Now, many companies are reflecting on that simple question: What exactly did all those burned tokens buy?

The window of free or flat-rate unlimited usage is precisely closing at this moment.

Going forward, the question facing all developers is this: How to budget meticulously and maximize the value of every single Token.

Undoubtedly, the true winners of the future will be those who learn to count tokens first.

References:

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

This article is from the WeChat public account "AI Era Insights", author: ASI启示录

Câu hỏi Liên quan

QWhat is the main reason behind the dramatic increase in AI usage costs as discussed in the article?

AThe primary reason is the shift from flat-rate monthly subscription models to consumption-based pricing (charging per Token used). This change, implemented by companies like OpenAI and GitHub, means that intensive AI agent tasks, which can consume orders of magnitude more tokens than simple chats or completions, now incur significantly higher costs.

QWhat incident involving a leaked API key led to a massive unexpected bill, and how much was it?

AAn Australian AI consultant named Jesse Davies had a Google Cloud API key exposed from a public service. Attackers used it to make over 60,000 requests, resulting in a bill of $18,000, despite him having set a budget alert and a hard spending limit.

QWhat does the term 'Token maxxing' refer to in the context of corporate AI use?

A'Token maxxing' refers to the practice of employees excessively consuming AI tokens, not to solve real problems, but to climb internal usage leaderboards (like Amazon's KiroRank) or meet misguided productivity KPIs that equate high token usage with good performance.

QWhat was the key finding of the April 2026 arXiv paper regarding AI agent coding tasks and cost?

AThe key finding was that AI agent tasks can consume up to a thousand times more tokens than standard code reasoning/dialogue, primarily due to input tokens. Crucially, higher token consumption does not necessarily lead to higher accuracy, with performance often plateauing at a medium cost level.

QAccording to the article, what are the two main business approaches emerging to help manage and reduce AI token costs?

A1. Providing context to AI: Companies like Glean build systems that give AI assistants direct access to relevant company knowledge, reducing the need for lengthy searches and context-building, thus saving tokens. 2. Model routing: Startups like Factory AI automatically route tasks to the most cost-appropriate AI model (e.g., simple tasks to cheaper models, complex ones to top-tier models), potentially saving up to 10x in costs.

Nội dung Liên quan

a16z chuyển hướng toàn cầu hóa: VC đang trở thành "động lực thúc đẩy" của liên minh công nghệ Mỹ

Biên tập: Thông báo của Ben Horowitz cho thấy một bước chuyển quan trọng trong chiến lược toàn cầu hóa của a16z: họ không chỉ tìm kiếm dự án ở nước ngoài hay mở rộng đầu tư quốc tế, mà còn đặt mình vào khuôn khổ cạnh tranh công nghệ và hợp tác đồng minh rộng lớn hơn. Trong bối cảnh AI, robot, công nghệ quốc phòng, an ninh mạng và tái cấu trúc chuỗi cung ứng trở thành trọng tâm cạnh tranh quốc gia, con đường quốc tế hóa của startup trở nên phức tạp hơn. A16z đang phản ứng với sự thay đổi này thông qua việc thành lập văn phòng Tokyo, bổ nhiệm Anne Neuberger phụ trách các vấn đề toàn cầu, và nâng cấp nhóm quan hệ nhà đầu tư thành nhóm đối tác toàn cầu. Tín hiệu quan trọng nhất là a16z gắn kết mạng lưới toàn cầu của mình với năng lực lãnh đạo công nghệ của "Mỹ và các đồng minh". Đối với a16z, mạng lưới đầu tư mạo hiểm trong tương lai không chỉ giúp nhà sáng lập gọi vốn, tuyển dụng, bán hàng mà còn hỗ trợ họ tiếp cận thị trường trọng điểm, kết nối với chính phủ và các tổ chức chiến lược, cũng như hiểu rõ môi trường chính sách và quy định của các quốc gia khác nhau. Điều này có nghĩa vai trò của các tổ chức đầu tư mạo hiểm hàng đầu đang được định nghĩa lại. Họ không còn chỉ là trung gian vốn, mà là người tổ chức kết nối công ty khởi nghiệp, năng lực quốc gia, nguồn lực ngành, hệ thống đồng minh và vốn toàn cầu. Chiến lược toàn cầu hóa lần này của a16z có thể được xem như một sự chủ động định vị của vốn Silicon Valley trong cuộc cạnh tranh công nghệ toàn cầu mới.

marsbit8 phút trước

a16z chuyển hướng toàn cầu hóa: VC đang trở thành "động lực thúc đẩy" của liên minh công nghệ Mỹ

marsbit8 phút trước

Kalshi, MTS và Tham vọng của a16z

Bài viết phân tích tầm quan trọng của thị trường dự đoán (prediction markets), tập trung vào Kalshi, và tầm nhìn của quỹ đầu tư mạo hiểm a16z trong việc xây dựng một đế chế truyền thông mới. Tác giả điểm qua lịch sử tư tưởng đằng sau thị trường dự đoán, từ lý thuyết của Hayek về việc thị trường tổng hợp tri thức phân tán, đến cơ chế khuyến khích của Robin Hanson (LMSR) và ý tưởng "Futarchy". Trọng tâm bài viết là việc a16z đầu tư mạnh vào Kalshi (định giá 220 tỷ USD) và cách họ diễn giải giá trị cốt lõi của nó: mang lại "cảm giác hiện diện" (presence). Trong một thế giới mà con người ngày càng thụ động và xa cách với thực tại, thị trường dự đoán cho phép họ tham gia tích cực bằng cách dùng tiền thật để đặt cược vào các sự kiện, từ đó cảm thấy mình là người quan sát và dự báo lịch sử. a16z coi đây là mảnh ghép quan trọng cho tham vọng "truyền thông mới" của họ - một hệ thống toàn diện từ định hình narrative, tài trợ sản phẩm, đến tiếp cận khách hàng với tốc độ cực cao, nhằm "tiếp quản dòng thời gian". Công ty truyền thông MTS (Monitoring The Situation) là một ví dụ điển hình cho triết lý này. Bài viết kết luận rằng sức mạnh thực sự của Kalshi và thị trường dự đoán nằm ở "trường lực bẻ cong hiện thực" - khả năng định nghĩa tính xác thực và tầm quan trọng của sự kiện thông qua khối lượng giao dịch bằng tiền thật, từ đó giành được quyền giải thích tối cao về tương lai, một thứ quyền lực hiếm khi nằm trong tay một công ty tư nhân.

链捕手12 phút trước

Kalshi, MTS và Tham vọng của a16z

链捕手12 phút trước

Giải mã sự thật về thương mại, thanh toán và cơ sở hạ tầng cho Agent

Tác giả, có kinh nghiệm xây dựng cơ sở hạ tầng cho nền kinh tế Agent trong một năm, chia sẻ những hiểu biết thực tế về thương mại, thanh toán và cơ sở hạ tầng Agent. **Thực trạng nhu cầu:** Nhu cầu thực sự từ người dùng cuối hiện còn rất hạn chế. Các số liệu từ Stripe, Visa, Coinbase cho thấy khối lượng giao dịch thực tế qua Agent còn rất nhỏ, chủ yếu là giao dịch thử nghiệm. Các doanh nghiệp tham gia chủ yếu vì lo ngại bị bỏ lại phía sau (tối ưu hóa cho Agent - AEO), chứ không phải do nhu cầu cấp thiết hiện tại. **Phân tích bốn lĩnh vực:** 1. **Agent với Người mua (B2C):** Trải nghiệm mua sắm qua chat kém hơn giao diện thị giác truyền thống cho hầu hết mặt hàng. Cơ hội tồn tại trong các giao dịch tần suất cao, ít cần quyết định (như đặt đồ ăn) hoặc ở những website có UI phức tạp, nhưng bị cản trở bởi chi phí, thiếu API mở và thách thức trong phân phối đến người dùng phổ thông. 2. **Agent với API (Thanh toán vi mô):** Nhu cầu thanh toán tức thời cho API là có thật, nhưng thị trường chủ yếu là dài hạn và các nhà cung cấp SaaS lớn thích mô hình hợp đồng doanh nghiệp. Các giải pháp tiền mã hóa phù hợp với thị trường ngách này, nhưng quy mô nhỏ và đối tượng nhà phát triển thường ít sẵn sàng chi trả. 3. **Agent với Agent (M2M):** Đây là tầm nhìn dài hạn hứa hẹn khối lượng giao dịch khổng lồ với tốc độ cao, nhưng hiện chưa có khối lượng thực tế đáng kể. Đây là một cuộc đặt cược dài hạn về cơ sở hạ tầng thanh toán chuyên dụng. 4. **Agent với Tài chính:** Đây là lĩnh vực có nhu cầu thực sự và sẵn sàng chi trả ngay hiện tại, từ quản lý quỹ đến DeFi. Tuy nhiên, thách thức nằm ở môi trường cạnh tranh khốc liệt với các định chế tài chính lớn đã có sẵn quan hệ khách hàng và nền tảng tuân thủ. **Điểm mấu chốt thực sự:** Vấn đề cốt lõi không chỉ là thanh toán. Thanh toán chỉ là một phần của quá trình "thanh toán bù trừ", bản thân nó lại chỉ là một phần của bài toán lớn hơn: **sự phối hợp** giữa Agent và con người, xác minh công việc và tính toán kết quả. Các công ty giải quyết được vấn đề phối hợp quy mô lớn sẽ chiếm lĩnh thị trường, chứ không phải ngược lại. Các công ty khởi nghiệp cần tìm thị trường thực sự hiện tại, thay vì chờ đợi tương lai.

marsbit12 phút trước

Giải mã sự thật về thương mại, thanh toán và cơ sở hạ tầng cho Agent

marsbit12 phút trước

Thị trường chứng khoán Mỹ hứng chịu đợt lao dốc tồi tệ nhất từ năm 2025, ba ngòi nổ kích hoạt đánh giá lại định giá cổ phiếu công nghệ

Ngày 5/6, thị trường chứng khoán Mỹ trải qua một ngày sụt giảm mạnh nhất kể từ sau cuộc khủng hoảng thuế quan tháng 4/2025. Chỉ số Nasdaq Composite lao dốc 4,18%, S&P 500 giảm 2,64% và Dow Jones mất 695 điểm. Sự đảo chiều đột ngột này chỉ sau 48 giờ được thúc đẩy bởi ba yếu tố chính. **Thứ nhất: Báo cáo tài chính của Broadcom làm rạn nứt câu chuyện AI.** Dù doanh thu chip AI của Broadcom tăng 143%, nhưng dự báo cho quý tới thấp hơn kỳ vọng, làm dấy lên lo ngại tốc độ tăng trưởng AI có thể đang chậm lại. Điều này kích hoạt đợt bán tháo trên toàn ngành bán dẫn. **Thứ hai: Dữ liệu việc làm Mỹ quá mạnh.** Báo cáo phi nông nghiệp tháng 5 cho thấy 172.000 việc làm mới, gấp đôi dự báo, củng cố kỳ vọng Cục Dự trữ Liên bang (Fed) có thể không giảm lãi suất mà thậm chí còn tăng. Kỳ vọng lãi suất cao hơn gây áp lực lên định giá cổ phiếu công nghệ. **Thứ ba: Bóng ma lạm phát từ cuộc chiến Iran.** Giá dầu duy trì trên 90 USD/thùng do tình hình căng thẳng leo thang từ tháng 2 tiếp tục đè nặng lên áp lực lạm phát, khiến công cụ chính sách của Fed trở nên phức tạp hơn. Ba yếu tố trên cùng lúc làm suy yếu niềm tin vào các câu chuyện thị trường then chốt: tăng trưởng AI vô hạn, Fed sắp cắt giảm lãi suất và lạm phát đã được kiểm soát. Sự sụt giảm nhanh chóng lan rộng sang thị trường toàn cầu. Đây có thể là một đợt điều chỉnh định giá lại đối với các cổ phiược được định giá quá cao, chứ chưa hẳn là sự kết thúc của câu chuyện AI. Hướng đi tiếp theo của thị trường sẽ phụ thuộc vào cuộc họp sắp tới của Fed, các báo cáo tài chính từ các công ty AI khác và diễn biến tình hình địa chính trị.

marsbit4 giờ trước

Thị trường chứng khoán Mỹ hứng chịu đợt lao dốc tồi tệ nhất từ năm 2025, ba ngòi nổ kích hoạt đánh giá lại định giá cổ phiếu công nghệ

marsbit4 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua BILL

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Billions Network (BILL) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Billions Network (BILL) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Billions Network (BILL) của BạnSau khi mua Billions Network (BILL), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Billions Network (BILL)Giao dịch Billions Network (BILL) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 296Xuất bản vào 2026.05.07Cập nhật vào 2026.06.02

Làm thế nào để Mua BILL

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của BILL (BILL) được trình bày dưới đây.

活动图片