Tiêu đề gốc: Sàn giao dịch tiền mã hóa lớn nhất Mỹ, lặng lẽ chuyển sang mô hình AI Trung Quốc, tiết kiệm được một nửa chi phí
Tác giả gốc: AI 上手笔记
Một con số khiến Thung lũng Silicon không yên
Gần đây, CEO của sàn giao dịch tiền mã hóa lớn nhất Mỹ Coinbase Brian Armstrong đã nói một câu, gây chấn động trong giới công nghệ:
“Chúng tôi đã chuyển mô hình AI sang GLM 5.2 và Kimi 2.7 của Trung Quốc, chi tiêu cho AI giảm ngay một nửa.”
Giảm một nửa? Vậy lượng dùng có giảm không?
Trái lại. Lượng token dùng của Coinbase liên tục tăng.
Vừa tiết kiệm tiền vừa dùng nhiều hơn, mới là điều thực sự khiến OpenAI và Anthropic không thể ngồi yên.
Làm thế nào đạt được? Ba chiến lược tiết kiệm tiền
Coinbase không đơn giản chỉ đổi sang một mô hình rẻ hơn. Họ đã xây dựng một "hệ thống tiết kiệm tiền" hoàn chỉnh:
Chiêu thứ nhất: Không ràng buộc với một mô hình, để hệ thống tự chọn
Coinbase đã xây dựng một hệ thống định tuyến tự động. Mỗi khi có yêu cầu đến, hệ thống sẽ dựa trên loại nhiệm vụ, giá cả, tình trạng bộ nhớ đệm để tự động chọn mô hình phù hợp nhất.
Không phải mọi nhiệm vụ đều cần mô hình đắt nhất. Dịch thuật đơn giản dùng loại rẻ, suy luận phức tạp dùng loại tốt – giống như bạn không lái siêu xe để đi chợ gần nhà.
Chiêu thứ hai: Tăng tỷ lệ hit cache từ 5% lên 60%
Đây là chiêu mạnh nhất. Bằng cách tối ưu hóa chiến lược cache, Coinbase đã nâng tỷ lệ hit cache từ 5% lên 60%.
Nói đơn giản, 60% yêu cầu có thể tái sử dụng kết quả tính toán trước đó, giảm đáng kể chi phí thực tế cho mỗi lần gọi. Chỉ riêng việc tối ưu hóa này đã tiết kiệm được một khoản tiền lớn.
Chiêu thứ ba: Context Engineering (Kỹ thuật bối cảnh)
Coinbase yêu cầu nhà phát triển tinh giản ngữ cảnh, mở phiên mới cho nhiệm vụ mới, không nhồi nhét quá nhiều thứ vào một cuộc hội thoại.
Đây không phải là lười biếng, mà là một môn học mới – trong ngành gọi là Context Engineering. Anthropic trong một bài blog kỹ thuật đã chỉ rõ: Trong quản lý AI agent, Context Engineering hiệu quả hơn Prompt Engineering.
Nói đơn giản: Không phải làm cho AI thông minh hơn, mà là cung cấp cho AI thông tin chính xác hơn.

▲ Ngày càng nhiều doanh nghiệp bắt đầu tính toán chi li trên mô hình AI
Không chỉ Coinbase, đây là một xu hướng
Coinbase không phải người đầu tiên ăn cua.
Lindy, một công ty khởi nghiệp AI chỉ có 25 người, CEO Flo Crivello đã chuyển toàn bộ Claude sang Deepseek. Ông nói với CNBC: "Chi phí AI đã vượt quá chi phí nhân lực, điều này không bền vững." Sau khi đổi mô hình, chi phí "giảm đột ngột", tiết kiệm được hàng triệu đô la.
Snowflake, CEO Sridhar Ramaswamy đã làm một so sánh thực tế: Trong 103 nhiệm vụ mã hóa, GLM-5.2 giải quyết được 66%, Claude Opus 4.7 giải quyết được 67%. Khoảng cách? Hầu như không có.
Nhưng khoảng cách giá cả là thực tế:
So sánh giá (mỗi triệu token)
- GLM-5.2: Đầu vào $1.40 / Đầu ra $4.40
- Claude Opus 4.7: Đầu vào $5 / Đầu ra $25
- GPT-5.5: Đầu vào $5 / Đầu ra $30
Giá đầu ra chênh lệch 5-7 lần.
Đồ rẻ có tốt không? Đừng vội kết luận
Đọc đến đây, bạn có thể hỏi: Rẻ như vậy, chất lượng có như nhau không?
Thành thật mà nói, không hoàn toàn giống nhau, nhưng khoảng cách nhỏ hơn bạn nghĩ.
Bài kiểm tra của Snowflake cho thấy, GLM-5.2 trong một số nhiệm vụ thực sự không ổn định – tỷ lệ thành công lần đầu là 47.6%, thấp hơn Opus 53.7%. Và GLM đôi khi sẽ "cố chấp" theo hướng sai: trong một nhiệm vụ, nó mất 24 phút gọi 411 lần công cụ, vẫn thất bại. Opus chỉ dùng 49 lần gọi, 9 phút là xong.
Nhưng trong đa số nhiệm vụ, tỷ lệ thành công cuối cùng của cả hai gần như ngang nhau. Điểm mấu chốt là: Bạn có sẵn sàng trả thêm gấp 5 lần giá cho vài phần trăm ổn định đó không?
Đối với nhiều doanh nghiệp, câu trả lời ngày càng rõ ràng: Không sẵn sàng.

▲ Khoảng cách giá mô hình AI Đông-Tây đang định hình lại cục diện ngành
Điều này có ý nghĩa gì với chúng ta, những người bình thường?
Bạn có thể nói: Tôi đâu phải Coinbase, những điều này liên quan gì đến tôi?
Thực ra, xu hướng này có ba gợi ý trực tiếp cho cách bạn dùng AI:
1. Đừng chỉ nhận một mô hình
Nhiều người dùng AI chỉ nhận một mô hình – hoặc là ChatGPT, hoặc là Claude. Nhưng người chơi chuyên nghiệp đã không làm vậy. Dùng mô hình khác nhau cho nhiệm vụ khác nhau, mới là cách chơi hiệu quả nhất về chi phí.
Hỏi đáp hàng ngày dùng loại rẻ, viết mã, phân tích dùng loại tốt. Giống như bạn ăn cơm, không phải bữa nào cũng đi nhà hàng Michelin.
2. Cache và tái sử dụng là chìa khóa tiết kiệm tiền
Nếu bạn thường dùng AI làm những việc tương tự (như viết báo cáo tuần hàng tuần, sắp xếp ghi chú hàng ngày), học cách sử dụng cache và mẫu có thể giảm đáng kể mức tiêu thụ.
3. Ngữ cảnh tinh gọn = Kết quả tốt hơn
Nhiều người nói chuyện với AI, muốn nhồi nhét tất cả bối cảnh vào. Nhưng thực tế chứng minh, cung cấp cho AI ít thông tin hơn nhưng chính xác hơn, hiệu quả lại tốt hơn. Nhiệm vụ mới, mở cuộc hội thoại mới. Đừng để AI tìm câu trả lời trong một đống lịch sử.
Thay đổi sâu hơn: Mô hình định giá AI đang được định hình lại
Đằng sau làn sóng "di cư mô hình" này, là sự lung lay của toàn bộ logic định giá trong ngành AI.
Định giá cao của OpenAI và Anthropic được xây dựng trên giả định "doanh thu tăng trưởng cao liên tục". Nhưng nếu ngày càng nhiều doanh nghiệp như Coinbase, Lindy chuyển sang các lựa chọn thay thế rẻ hơn, giả định này sẽ không đứng vững.
Theo báo cáo, giữa OpenAI và Anthropic đã bắt đầu đánh chiến tranh giá. Trong dòng GPT-5.6 vừa phát hành của OpenAI, mô hình Terra rẻ hơn GPT-5.5 một nửa, Luna còn chủ trương giá thấp nhất.
Với người dùng, đây là điều tốt. Cạnh tranh càng gay gắt, giá càng thấp, lựa chọn càng nhiều.
Khi những gã khổng lồ Mỹ bắt đầu dùng mô hình Trung Quốc để tiết kiệm tiền, chứng tỏ cạnh tranh AI không còn là cuộc đua điểm số trong phòng thí nghiệm, mà là cuộc so tài chi phí bằng tiền thật. Có thể làm việc tương tự với ít tiền hơn, mới là bản lĩnh thực sự.






