1 tháng đốt ra hóa đơn 500 triệu đô la!
Gần đây, giới công nghệ đã lộ ra một vụ nhầm lẫn chấn động. Theo báo cáo của Axios, một doanh nghiệp chỉ trong vòng 1 tháng, đã "quẹt" nổ tới 500 triệu đô la trên Claude!
Nguyên nhân lại buồn cười đến mức khó tin: ban lãnh đạo khi cấp quyền sử dụng tài khoản Claude cho nhân viên, đã quên thiết lập giới hạn mức sử dụng.
Thực tế, không chỉ mỗi công ty này bị "vỡ trận" hóa đơn AI.
Tháng 4 năm nay, một người dùng Google Cloud do API key còn sót lại trong dịch vụ công khai bị lạm dụng, tài khoản chỉ có ngân sách 7 đô la, chỉ sau một đêm đã nhận được hóa đơn 1.8 vạn đô la.
Người dùng xui xẻo này tên là Jesse Davies, một cố vấn AI người Úc, người sáng lập Agentic Labs. Anh ta đã đặt hai lớp bảo vệ cho tài khoản Google Cloud của mình: một cảnh báo ngân sách 10 đô la Úc (khoảng 7 USD), và một giới hạn chi tiêu cứng 1400 USD.
Theo Tom's Hardware, kẻ tấn công phát hiện ra một dịch vụ Cloud Run mà anh ta đã phát hành từ AI Studio vài tháng trước, đã gửi hơn 60 nghìn yêu cầu, cả hai lớp bảo vệ đều không cản được: việc tính toán hóa đơn có độ trễ, đến khi hệ thống phản ứng, số tiền đã tăng vọt lên 1.8 vạn đô la.
Giữa tháng 5, Peter Steinberger, người sáng lập dự án mã nguồn mở OpenClaw, đã đăng một ảnh chụp màn hình lên X: 30 ngày, hóa đơn OpenAI API 1.3 triệu đô la.
Đội ngũ của anh chỉ có ba người, nhưng 100 tác nhân thông minh Codex mà họ chỉ huy đang chạy song song: 30 ngày đốt hết 603 tỷ Token, thực hiện 7.6 triệu yêu cầu. May mắn thay, 1.3 triệu đô la này không phải anh tự bỏ tiền túi.
Steinberger gia nhập OpenAI vào tháng 2 năm nay, 1.3 triệu đô la này được coi như một thí nghiệm nội bộ:
Thử nghiệm xem nếu không tính đến chi phí Token, lập trình AI có thể chạy đến giới hạn nào. Anh bổ sung, đây là kết quả của chế độ "Fast Mode" (tính phí tốc độ cao) của Codex, sau khi tắt đi thì vào khoảng 30 vạn đô la.
Sớm hơn một chút, CTO của Uber, Praveen Neppalli Naga, cũng từng thừa nhận với The Information rằng công ty đã đốt hết ngân sách Claude Code của cả năm vào tháng 4, COO của họ cũng công khai cho biết, chi phí AI ngày càng "khó tự biện minh".
500 triệu, 1.3 triệu, 1.8 vạn, số tiền tuy chênh lệch vài bậc số, nhưng đều chỉ về cùng một sự thật:
Trong thời đại tác nhân thông minh, một khóa bí mật mất kiểm soát, một đội quân tác nhân hoạt động suốt ngày đêm, một tài khoản quên đặt giới hạn: bất kỳ cái nào trong số đó, cũng có thể khiến hóa đơn Token của bạn bị "quẹt" nổ chỉ sau một đêm.
Tại sao hóa đơn AI lại "vỡ trận"?
Câu trả lời chủ yếu nằm ở sự thay đổi trong cách tính phí.
Từ tháng 4 năm nay, cách tính phí theo gói tháng của OpenAI bắt đầu chuyển sang tính theo mức sử dụng Token.
Ngày 2/4, việc tính phí Codex chuyển từ ước tính theo tin nhắn sang căn chỉnh theo mức sử dụng Token: ba loại Token đầu vào, đầu vào cache, đầu ra được tính riêng. Ngày 23/4, quy tắc này được mở rộng sang tất cả các gói Enterprise, Edu, Health, Gov: khoản chiết khấu vô hình trong phí tháng đã bị rút bỏ.
GitHub cũng theo sát ngay sau đó, vừa chính thức thông báo: tất cả các gói Copilot từ ngày 1 tháng 6 năm 2026, chuyển sang tính phí theo mức sử dụng. Logic yêu cầu cao cấp cũ bị hủy bỏ, thay bằng hạn mức AI, căn cứ theo mức tiêu thụ thực tế của Token đầu vào, Token đầu ra, Token cache, đối chiếu với mức phí API của từng mô hình để thanh toán.
GitHub chính thức giải thích lý do làm vậy:
Hiện tại, một câu hỏi chat nhanh, và một nhiệm vụ mã hóa tự chủ chạy vài giờ đồng hồ, người dùng phải trả tiền như nhau. GitHub luôn phải trả thay cho những người dùng chạy nhiệm vụ nặng, nhưng mô hình này đã không thể duy trì được nữa.
Trước khi tác nhân AI trỗi dậy, chi phí chat và hoàn thiện gần như nhau, phí tháng có thể bao trùm.
Sau khi tác nhân AI trỗi dậy, một nhiệm vụ có thể chạy liên tục vài giờ, thay đổi toàn bộ kho mã nguồn, chênh lệch chi phí giữa người dùng nặng và nhẹ có thể lên tới vài bậc số. Chế độ phí tháng đứng trước khoảng cách này, trực tiếp sụp đổ.
Tin tức vừa ra, Reddit và X xôn xao dậy sóng.
Một nhà phát triển có ID là JBusu đăng ảnh chụp hóa đơn, thẳng thắn nói mức giá mới "thật là trò cười". Chi phí trước đây 28.12 USD/tháng, theo chế độ mới phải trả 746.01 USD, anh ta đã quyết định hủy đăng ký, "với giá này, tôi tự thuê máy chủ đám mây còn rẻ hơn".
Một người dùng khác có ảnh chụp còn kinh khủng hơn, chi phí từ 50 USD tăng vọt lên 3000 USD, anh ta nói không ngờ định giá lại kỳ lạ đến vậy, "còn ai tiếp tục đăng ký nữa không?"
Tuy nhiên cũng có người dùng Copilot lâu năm lên tiếng phản bác: những hóa đơn cực đoan này phần lớn là do những "vibe-coder" (người viết code theo cảm giác) không coi việc đốt Token là gì mà đốt ra, chưa chắc đã đại diện cho sử dụng bình thường.
Một người dùng lâu năm bình luận: "Tôi dùng cả ngày, cuối tháng cơ bản không vượt hạn mức, khó tin đây là sự khác biệt về độ phức tạp công việc." Một người khác thì trực tiếp hơn: "Chính là có người muốn chế độ phát triển YOLO tự động hoàn toàn, để AI chạy tùy ý. Loại lãng phí này bị loại bỏ, với người khác ngược lại là việc tốt."
Có một điều phải rõ: GitHub không bãi bỏ phí tháng, giá đăng ký cơ bản không thay đổi. Cái thực sự thay đổi là lượng dùng thêm, nhiệm vụ tác nhân thông minh, gọi mô hình đắt tiền hơn, từ nay bước vào tính phí theo mức sử dụng.
Bị tác động mạnh nhất, là những người dùng tác nhân thông minh nặng dùng Copilot để chạy chuỗi nhiệm vụ dài.
Bảng xếp hạng bị chính người nhà làm hỏng
Phí tháng thất thủ, một mặt là nền tảng đổi quy tắc tính phí, mặt khác là người dùng AI, cũng đang cố gắng đốt.
Tháng 5, Business Insider đưa tin, Amazon đã gỡ xuống một bảng xếp hạng sử dụng AI nội bộ có tên là KiroRank.
Bài báo dẫn lời người trong cuộc cho biết, bảng xếp hạng này đã âm thầm thúc đẩy một cách làm việc kỳ lạ: một số nhân viên để leo lên vài bậc trên bảng xếp hạng, sẽ đi "quẹt" một số lượng tiêu hao Token không giải quyết vấn đề thực tế, chỉ thuần túy vì thứ hạng.
Sự việc lộ ra sau đó, Phó chủ tịch cấp cao Amazon Dave Treadwell trực tiếp gửi thông điệp tới toàn thể nhân viên: "Đừng dùng AI chỉ vì muốn dùng AI. Hãy dùng nó để giải quyết vấn đề của khách hàng, giải quyết vấn đề kinh doanh, để đổi mới."
Việc này tuy hơi phi lý, nhưng chẳng có gì bất ngờ. Khi "đốt Token" có thể lên bảng, nhân viên đương nhiên sẽ đi đốt Token.
Thung lũng Silicon đặt tên riêng cho hiện tượng này: Tokenmaxxing (đốt Token cực hạn), coi mức tiêu hao là năng suất.
Báo cáo của Axios cũng đề cập, có CTO phát hiện nhân viên dùng mô hình AI để tra thời tiết, viết email hàng ngày, những việc đơn giản không thể tả, nhưng lại dùng mô hình tiên phong đắt nhất, hóa đơn có thể tăng vọt trong im lặng.
KiroRank không phải là hệ thống đánh giá chính thức của Amazon, mà là công cụ không chính thức do nhân viên tự xây dựng. Nhưng nó đã phơi bày rõ ràng một quy luật quản lý kinh điển: khi KPI đặt sai, con người sẽ dùng cách thông minh nhất để lách kẽ hở.
Coi "dùng bao nhiêu" tương đương với "làm tốt hay không" — đây chính là nguồn gốc mang tính thể chế của sự lãng phí AI trong đợt này.
Người tính toán sổ sách Token, đã đang kiếm tiền
Mặt khác của nỗi lo hóa đơn Token, có người lặng lẽ biến nó thành việc kinh doanh.
Con đường thứ nhất: Dùng ngữ cảnh nuôi no AI.
Glean chính là công ty của chính Arvind. Nó làm trợ lý công việc AI doanh nghiệp: thông suốt tri thức phân tán khắp nơi trong công ty, để AI của nhân viên trực tiếp nhận được ngữ cảnh, không cần phải lục lọi khắp nơi nữa. AI ít đường vòng, đốt Token tự nhiên ít đi.
Cơ chế này giúp doanh thu hàng năm của Glean trong 15 tháng tăng gấp ba lần, vượt qua 300 triệu đô la, khách hàng bao gồm Databricks, Reddit, Samsung.
Con đường thứ hai: Phân chia công việc cho đúng mô hình.
Công ty khởi nghiệp định tuyến mô hình Factory AI làm chính việc này: tự động phân công mỗi nhiệm vụ cho mô hình phù hợp nhất, nhiệm vụ đơn giản đi dòng rẻ, nhiệm vụ phức tạp đi cấu hình cao nhất. Arvind cũng từng nói: Định tuyến làm đúng, có thể tiết kiệm 10 lần.
Hai con đường này tuy khác nhau nhưng cùng đích: Để AI làm việc, nhưng đừng để nó đốt bừa.
Nghiên cứu của giới học thuật, cũng đang đặt nền móng cho sự chuyển hướng này.
https://arxiv.org/pdf/2604.22750
Một bài báo arXiv tháng 4 năm 2026, lần đầu tiên phân tích có hệ thống xem nhiệm vụ mã hóa của tác nhân thông minh rốt cuộc tiêu hao tiền như thế nào.
Kết luận một: Lượng tiêu hao Token của nhiệm vụ tác nhân thông minh, có thể lên tới hàng nghìn lần so với suy luận mã thông thường và đối thoại mã, nguyên nhân chính đẩy cao chi phí là Token đầu vào.
Kết luận hai: Cùng một nhiệm vụ chạy nhiều lần, lượng tiêu hao Token có thể chênh lệch 30 lần.
Kết luận ba: Lượng tiêu hao Token cao hơn, không nhất thiết mang lại độ chính xác cao hơn. Độ chính xác thường đạt đỉnh ở mức chi phí trung bình — đốt thêm nữa lên trên, tiền tiêu rồi, hiệu quả ngược lại bão hòa.
Bài báo còn phát hiện, mô hình tiên phong ngay cả việc dự đoán mình sẽ đốt bao nhiêu Token cũng không làm được, phổ biến là đánh giá thấp chi phí thực tế.
Bạn tưởng nhiều tiền hơn sẽ làm được nhiều việc hơn. Thực tế là tiền tiêu rồi, việc chưa chắc đã tốt hơn, ngân sách còn tính không chuẩn.
Khi hóa đơn AI bắt đầu đuổi kịp chi phí nhân lực
"Đây là lần đầu tiên trong ký ức của tôi, chi phí công nghệ bắt đầu ngang bằng với chi phí nhân lực."
Ngày 29 tháng 5, CEO Glean Arvind Jain trong cuộc phỏng vấn với phóng viên CNBC Deirdre Bosa đã nói như vậy.
Quan sát của Phó chủ tịch Học sâu Ứng dụng Nvidia Bryan Catanzaro cũng chứng thực điều này.
Trong cuộc phỏng vấn với Axios, ông đề cập: Đối với đội ngũ của ông, chi phí tính toán đã vượt xa lương của nhân viên.
Hiện tượng tương tự đang xuất hiện ở nhiều công ty: từ Glean làm AI doanh nghiệp, đến Nvidia bán sức mạnh tính toán AI, rồi Uber sử dụng AI, đều đang xem xét lại khoản sổ sách này.
Theo quan điểm của Arvind, trong lịch sử, công nghệ chỉ là một phần rất nhỏ trong tổng chi phí của doanh nghiệp, nhưng bây giờ chi phí AI đã có thể đuổi kịp bảng lương rồi, ngân sách AI hàng năm của nhiều doanh nghiệp thường chỉ một đến hai tháng là đốt hết.
Một năm qua, tỷ lệ sử dụng AI là chỉ số được tôn sùng: dùng nhiều là tiên tiến, đốt Token là ôm lấy tương lai. Giờ đây, nhiều doanh nghiệp bắt đầu suy ngẫm lại câu nói mộc mạc đó: những Token bị đốt này, rốt cuộc đổi lại được gì?
Giai đoạn cửa sổ dùng thoải mái theo gói tháng miễn phí, lại đang khép lại đúng lúc này.
Tiếp theo, đặt trước mặt tất cả nhà phát triển là một câu hỏi như thế này: Làm thế nào để tính toán chi li, để mỗi Token phát huy giá trị lớn nhất.
Người chiến thắng thực sự trong tương lai, không nghi ngờ gì sẽ là người học cách tính toán sổ sách Token sớm nhất.
Tài liệu tham khảo:
https://x.com/dee_bosa/status/2060791500049613306%20
https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20
https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20
https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5
Bài viết này đến từ tài khoản công chúng WeChat "Tân Trí Nguyên", tác giả: ASI Khải Thị Lục

















