Tiêu đề gốc: Sàn giao dịch tiền mã hóa lớn nhất Mỹ, lặng lẽ chuyển sang mô hình AI Trung Quốc, tiết kiệm được một nửa chi phí
Tác giả gốc: AI 上手笔记
Một con số khiến Thung lũng Silicon không thể ngồi yên
Gần đây, CEO của sàn giao dịch tiền mã hóa lớn nhất Mỹ Coinbase - Brian Armstrong đã nói một câu khiến giới công nghệ "dậy sóng":
"Chúng tôi chuyển mô hình AI sang GLM 5.2 và Kimi 2.7 của Trung Quốc, chi tiêu cho AI đã bị cắt giảm một nửa."
Cắt giảm một nửa? Vậy lượng sử dụng có giảm không?
Hoàn toàn ngược lại. Lượng token sử dụng của Coinbase vẫn đang tăng.
Vừa tiết kiệm tiền vừa sử dụng nhiều hơn, đây mới là điều thực sự khiến OpenAI và Anthropic không thể ngồi yên.
Làm thế nào để đạt được? Ba chiến lược tiết kiệm chi phí
Coinbase không đơn giản chỉ là thay một mô hình rẻ hơn. Họ đã xây dựng một "hệ thống tiết kiệm chi phí" hoàn chỉnh:
Chiêu thứ nhất: Không trói buộc vào một mô hình, để hệ thống tự lựa chọn
Coinbase đã xây dựng một hệ thống định tuyến tự động. Mỗi khi có yêu cầu, hệ thống sẽ dựa trên loại nhiệm vụ, giá cả, tình trạng bộ nhớ đệm để tự động chọn mô hình phù hợp nhất.
Không phải tất cả nhiệm vụ đều cần mô hình đắt nhất. Dịch thuật đơn giản dùng loại rẻ, lập luận phức tạp dùng loại tốt — giống như bạn không lái siêu xe đi mua đồ ở dưới nhà.
Chiêu thứ hai: Đưa tỷ lệ trúng bộ nhớ đệm từ 5% lên 60%
Đây là chiêu sốc nhất. Bằng cách tối ưu hóa chiến lược bộ nhớ đệm, Coinbase đã đưa tỷ lệ trúng bộ nhớ đệm từ 5% lên 60%.
Nói đơn giản, 60% yêu cầu có thể tái sử dụng kết quả tính toán trước đó, giảm đáng kể chi phí thực tế cho mỗi lần gọi. Chỉ riêng việc tối ưu hóa này đã tiết kiệm được một khoản tiền lớn.
Chiêu thứ ba: Context Engineering (Kỹ thuật ngữ cảnh)
Coinbase yêu cầu nhà phát triển tinh giản ngữ cảnh, nhiệm vụ mới mở phiên mới, không nhồi nhét quá nhiều thứ vào một cuộc hội thoại.
Đây không phải là lười biếng, mà là một môn học mới — trong ngành gọi là Context Engineering. Anthropic trong một blog kỹ thuật đã chỉ rõ: Khi quản lý đại lý AI, Context Engineering hiệu quả hơn Prompt Engineering.
Nói đơn giản: Không phải làm cho AI thông minh hơn, mà là cung cấp thông tin chính xác hơn cho AI.

▲ Ngày càng nhiều doanh nghiệp bắt đầu tính toán chi li hơn trên mô hình AI
Không chỉ Coinbase, đây là một xu hướng
Coinbase không phải là người đầu tiên ăn cua.
Lindy, một công ty khởi nghiệp AI chỉ có 25 người, CEO Flo Crivello đã trực tiếp thay toàn bộ Claude bằng Deepseek. Anh ấy nói với CNBC: "Chi phí AI đã vượt quá chi phí nhân lực, điều này không bền vững." Sau khi đổi mô hình, chi phí "giảm thẳng đứng", tiết kiệm được hàng triệu đô la.
Snowflake — CEO Sridhar Ramaswamy đã làm một phép so sánh thực tế: Trong 103 nhiệm vụ mã hóa, GLM-5.2 giải quyết được 66%, Claude Opus 4.7 giải quyết được 67%. Khoảng cách? Hầu như không có.
Nhưng khoảng cách giá là rõ ràng:
So sánh giá (mỗi triệu token)
- GLM-5.2: Đầu vào $1.40 / Đầu ra $4.40
- Claude Opus 4.7: Đầu vào $5 / Đầu ra $25
- GPT-5.5: Đầu vào $5 / Đầu ra $30
Giá đầu ra chênh lệch 5-7 lần.
Rẻ không có hàng ngon? Đừng vội kết luận
Đọc đến đây, bạn có thể hỏi: Rẻ như vậy, chất lượng có giống nhau không?
Thành thật mà nói, không hoàn toàn giống nhau, nhưng khoảng cách nhỏ hơn bạn nghĩ.
Bài kiểm tra của Snowflake cho thấy, GLM-5.2 trong một số nhiệm vụ thực sự không đủ ổn định — tỷ lệ thành công lần thử đầu tiên là 47.6%, thấp hơn Opus 53.7%. Và đôi khi GLM sẽ "cố chấp" theo hướng sai: Trong một nhiệm vụ, nó mất 24 phút gọi 411 lần công cụ, vẫn thất bại. Opus chỉ dùng 49 lần gọi, 9 phút là xong.
Nhưng trong đa số nhiệm vụ, tỷ lệ thành công cuối cùng của cả hai gần như ngang nhau. Điểm mấu chốt là: Bạn có muốn trả thêm 5 lần giá cho vài phần trăm ổn định đó không?
Với nhiều doanh nghiệp, câu trả lời ngày càng rõ ràng: Không muốn.

▲ Khoảng cách giá mô hình AI Trung-Tây đang định hình lại cục diện ngành
Điều này có ý nghĩa gì với chúng ta - những người bình thường?
Bạn có thể nói: Tôi đâu phải Coinbase, những điều này liên quan gì đến tôi?
Thực ra, xu hướng này có ba gợi ý trực tiếp cho cách bạn sử dụng AI:
1. Đừng chỉ nhận một mô hình
Nhiều người dùng AI chỉ nhận một — hoặc ChatGPT, hoặc Claude. Nhưng người chơi chuyên nghiệp không làm vậy nữa. Nhiệm vụ khác nhau dùng mô hình khác nhau, mới là cách chơi có tỷ lệ hiệu quả/chi phí cao nhất.
Hỏi đáp hàng ngày dùng loại rẻ, viết code, phân tích dùng loại tốt. Giống như bạn ăn cơm, không phải bữa nào cũng đi nhà hàng Michelin.
2. Bộ nhớ đệm và tái sử dụng là chìa khóa tiết kiệm
Nếu bạn thường xuyên dùng AI làm những việc tương tự (như viết báo cáo tuần hàng tuần, sắp xếp ghi chú hàng ngày), học cách sử dụng bộ nhớ đệm và mẫu, có thể giảm đáng kể tiêu hao.
3. Tinh giản ngữ cảnh = Kết quả tốt hơn
Nhiều người trò chuyện với AI, muốn nhét hết tất cả bối cảnh vào. Nhưng thực tế chứng minh, cung cấp cho AI ít thông tin hơn nhưng chính xác hơn, hiệu quả lại tốt hơn. Nhiệm vụ mới, mở cuộc hội thoại mới. Đừng để AI tìm câu trả lời trong một đống lịch sử.
Thay đổi sâu hơn: Mô hình định giá AI đang bị định hình lại
Đằng sau làn sóng "di cư mô hình" này, là toàn bộ logic định giá của ngành AI đang lung lay.
Định giá cao của OpenAI và Anthropic, được xây dựng trên giả định "doanh thu tăng trưởng cao liên tục". Nhưng nếu ngày càng nhiều doanh nghiệp như Coinbase, Lindy chuyển sang các sản phẩm thay thế rẻ hơn, thì giả định này sẽ không đứng vững.
Theo báo cáo, OpenAI và Anthropic đã bắt đầu đánh giá chiến tranh giá. Trong loạt GPT-5.6 vừa phát hành của OpenAI, mô hình Terra rẻ hơn GPT-5.5 một nửa, Luna còn tập trung vào giá thấp nhất.
Với người dùng, đây là điều tốt. Cạnh tranh càng gay gắt, giá càng thấp, lựa chọn càng nhiều.
Khi những "đại gia" Mỹ bắt đầu dùng mô hình Trung Quốc để tiết kiệm tiền, cho thấy cạnh tranh AI đã không còn là cuộc đua điểm số trong phòng thí nghiệm, mà là cuộc so kè chi phí bằng tiền thật. Có thể chi ít tiền hơn để làm cùng một việc, mới là bản lĩnh thật sự.






