4-17%. Đây là tỷ lệ đọc cache prompt của Claude Code trong tháng qua. Mức bình thường là 97-99%.
Điều này có nghĩa là khi bạn khôi phục một phiên trước đó, Claude Code không tái sử dụng ngữ cảnh đã xử lý mà mỗi lần đều xử lý toàn bộ nội dung từ đầu, tiêu thụ định mức gấp 10 đến 20 lần bình thường. Bạn tưởng mình đang tiếp tục đoạn hội thoại, thực tế mỗi lần đều bắt đầu một cuộc trò chuyện mới toàn phần với giá đầy đủ.
Con số này đến từ theo dõi thực tế qua proxy của nhà phát triển độc lập ArkNill. Bằng cách thiết lập proxy trong suốt, anh ghi lại mọi yêu cầu giữa Claude Code và API Anthropic, phát hiện ít nhất hai lỗi cache phía client khiến máy chủ API không khớp được tiền tố hội thoại đã cache, buộc phải xây dựng lại toàn bộ token mỗi lượt.
Biểu đồ trên so sánh tỷ lệ đọc cache qua ba giai đoạn. Từ v2.1.69 đến v2.1.89 (thời kỳ có lỗi), tỷ lệ đọc cache bản standalone chỉ đạt 4-17%. Sau khi v2.1.90 sửa một lỗi quan trọng, tỷ lệ đọc cache khi khởi động nguội trở về 47-99.7%. Đến v2.1.91, tỷ lệ đọc cache khi chạy ổn định phục hồi về 97-99%.
Đáng chú ý một chi tiết trong biểu đồ: phạm vi v2.1.90 rất rộng (47% đến 99.7%), do phiên vừa khôi phục cần "làm nóng" cache, tỷ lệ trúng những lượt đầu thấp, nhưng nhanh chóng trở về mức bình thường. Trong phiên bản có lỗi, việc làm nóng này không bao giờ xảy ra - việc đọc cache mãi dừng ở 14.500 token của prompt hệ thống, mọi lịch sử hội thoại mỗi lần đều tính phí toàn phần.
28 ngày, 20 phiên bản
Lỗi này không phải dạng được đưa vào trong một bản cập nhật và sửa ở bản tiếp theo. Theo ghi chú phát hành trên npm registry, v2.1.69 mang lỗi ra mắt ngày 4/3, v2.1.90 sửa lỗi ra mắt ngày 1/4. Giữa hai mốc là 28 ngày, trải dài 20 phiên bản.
Dòng thời gian tiết lộ một chi tiết đáng suy ngẫm. Sau khi lỗi được đưa vào ngày 4/3, người dùng không lập tức phàn nàn ồ ạt. Mãi đến 23/3, khiếu nại mới bùng nổ tập trung, giữa hai thời điểm gần ba tuần. Lý do là, theo tổng hợp từ GitHub issue #41930, từ 13 đến 28/3 Anthropic từng chạy khuyến mãi tăng gấp đôi định mức (off-peak), điều này trên thực tế che giấu ảnh hưởng của lỗi. Sau khi khuyến mãi kết thúc, mức tiêu thụ do lỗi cache trở về baseline tính phí bình thường, định mức của người dùng bốc hơi trong tích tắc.
Phản hồi từ Anthropic không nhanh. Ngày 26/3, tức ngày sau khi khiếu nại bùng nổ, kỹ sư Thariq Shihipar trên tài khoản X cá nhân thông báo đã siết chặt hạn mức giờ cao điểm (5am-11am PT ngày làm việc). Ngày 30/3, Anthropic trên Reddit thừa nhận "người dùng chạm hạn mức nhanh hơn nhiều so với dự kiến", cho biết đã đặt thành ưu tiên cao nhất của team. Mãi đến 1/4, thành viên team Lydia Hallie mới công bố kết luận điều tra chính thức.
Suốt quá trình, Anthropic không xuất bản bài blog nào, không gửi thông báo email, không cập nhật trang trạng thái. Mọi giao tiếp chính thức chỉ thông qua bài đăng mạng xã hội cá nhân của kỹ sư và vài bình luận Reddit.
Bạn trả bao nhiêu tiền, dùng được bao lâu?
GitHub issue #41930 tập hợp hàng trăm báo cáo người dùng. Trường hợp cực đoan nhất là một người dùng đăng ký Max 20x ($200/tháng), cửa sổ cuộn 5 giờ của anh ta cạn kiệt hoàn toàn chỉ trong 19 phút. Người dùng Max 5x ($100/tháng) báo cáo cửa sổ 5 giờ hết trong 90 phút. Theo The Letter Two đưa tin, còn có người dùng nói một câu "hello" đơn giản tiêu hao 13% hạn mức phiên. Một người dùng Pro ($20/tháng) trên Discord nói, hạn mức của anh "dùng hết vào thứ Hai hàng tuần, thứ Bảy mới reset", 30 ngày chỉ có 12 ngày dùng được bình thường.
Theo benchmark của ArkNill, trên bản có lỗi v2.1.89, 100% hạn mức của gói Max 20x sẽ cạn kiệt trong khoảng 70 phút. Anh cũng tính toán chi phí định mức cho một thao tác --resume trên phiên có ngữ cảnh 500K token, khoảng $0.15, vì hệ thống phát lại toàn bộ ngữ cảnh.
"Bạn cầm không đúng cách"
Kết luận điều tra của Lydia Hallie xác nhận hai điểm, một là hạn mức giờ cao điểm đã thực sự được siết chặt, hai là mức tiêu thụ của phiên có ngữ cảnh 1 triệu token đã tăng. Cô nói team đã sửa một số lỗi, nhưng nhấn mạnh "không có lỗi nào dẫn đến tính phí nhiều hơn".
Sau đó cô đưa ra bốn đề xuất tiết kiệm lượng:
1. Dùng Sonnet 4.6 thay vì Opus (Opus tiêu thụ nhanh khoảng gấp đôi);
2. Không cần suy luận sâu thì giảm cường độ suy luận hoặc tắt extended thinking;
3. Phiên dài không dùng quá một giờ thì không khôi phục, hãy mở phiên mới;
4. Thiết lập biến môi trường CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 để giới hạn kích thước cửa sổ ngữ cảnh.
Không đề cập đến bất kỳ hình thức reset hạn mức hoặc bồi thường nào.
Host podcast AI Alex Volkov tóm tắt phản hồi này là "bạn cầm không đúng cách" (You're holding it wrong), chỉ ra rằng chính Anthropic tự đặt ngữ cảnh 1 triệu token làm mặc định, quảng bá Opus làm model flagship, lấy extended thinking làm điểm bán hàng, giờ lại khuyên người dùng trả phí không dùng các tính năng này.
Tuyên bố "không tính phí nhiều hơn" cũng có sự căng thẳng với chính lịch sử cập nhật của Claude Code. Ngay trước ngày Lydia công bố phản hồi một ngày, v2.1.90 đã sửa một lỗi regression cache tồn tại từ v2.1.69: khi dùng --resume khôi phục phiên, yêu cầu đáng lẽ trúng cache lại kích hoạt prompt cache miss toàn phần, tính phí toàn bộ. Phản hồi của Lydia không đề cập đến điểm bất thường tính phí đã được xác nhận này.
Làm đối chứng, Codex của OpenAI trước đây cũng từng xuất hiện vấn đề tiêu hao định mức bất thường tương tự. Cách làm của OpenAI là reset hạn mức người dùng, bổ sung credits, và tháng 3 công bố dỡ bỏ giới hạn sử dụng Codex. Cách làm của Anthropic là khuyên người dùng hạ cấp model, tắt tính năng, giới hạn ngữ cảnh, và quy trách nhiệm cho cách sử dụng của người dùng.
Anthropic bán gói đăng ký "model mạnh nhất + ngữ cảnh lớn nhất + khả năng suy luận cao nhất", thu phí từ 20 đến 200 đô la mỗi tháng. Một lỗi cache kéo dài 28 ngày khiến định mức của người dùng trả phí bốc hơi với tốc độ 10-20 lần, phản hồi chính thức là khuyên bạn dùng tiết kiệm.













