Vào nửa cuối năm 2026, NVIDIA sẽ giao nền tảng AI mạnh mẽ nhất từ trước đến nay của họ: Vera Rubin VR200 NVL72. Một tủ rack hoàn chỉnh chứa 72 GPU Rubin và 36 CPU Vera. Morgan Stanley ước tính, chi phí vật liệu cho máy này vào khoảng 7,8 triệu USD.
Con số này đã đủ đáng sợ. Nhưng điều đáng chú ý hơn, là tiền được chi vào đâu.
Trong số 7,8 triệu USD đó, có khoảng 2 triệu USD, không chi cho con chip GPU nổi tiếng toàn cầu, cũng không chi cho lõi tính toán, mà chi cho bộ nhớ — bộ nhớ GPU băng thông cao (HBM4) và bộ nhớ thông thường (LPDDR5X). Chỉ trong vòng một năm, chi phí cho phần bộ nhớ này đã tăng vọt 435% do tăng giá.
Đây là một tín hiệu. Trong cỗ máy AI ngày càng đắt đỏ này, tiền đang chảy dồn từ "linh kiện phụ trách tính toán", sang "linh kiện phụ trách ghi nhớ và lưu trữ".
Hãy nhớ lấy tín hiệu này. Bởi vì bài viết này nói về DeepSeek, làm một việc hoàn toàn ngược lại: Tất cả mọi người đều bị thời đại đẩy đi, trả phí phần cứng AI ngày càng cao cho bộ nhớ đắt đỏ hơn. Còn nó đang tìm cách, không làm suy yếu năng lực cạnh tranh, thông qua tích hợp phần cứng-phần mềm, tăng sản lượng token của phần cứng đắt đỏ này lên hơn 4 lần, tương đương tiết kiệm 75% đầu tư phần cứng.
Và điểm cuối của việc này, gần đây có một suy đoán đang được bàn tán sôi nổi — DeepSeek có thể thông qua nỗ lực của chính mình, tiết kiệm một nghìn tỷ đô la cho cơ sở hạ tầng AI của Trung Quốc?
Điều này thực sự có thể sao?
Một Nghìn Tỷ Đô La, Là Tiết Kiệm Ra
Bảng báo giá của NVIDIA lúc nãy, là khoản tiền cứng nhất gần đây trong sổ sách cơ sở hạ tầng AI. Trong mô hình cung cầu hiện tại, nếu muốn mua máy AI tiên tiến nhất, bạn buộc phải chấp nhận hóa đơn này.
DeepSeek không thay đổi được việc đó.
Nó thay đổi một việc khác: Cùng một máy, cùng bộ phận lưu trữ đắt tiền 2 triệu USD đó, cuối cùng có thể tạo ra bao nhiêu Token.
Câu hỏi này, sau khi DeepSeek V4 ra mắt, trở nên đặc biệt cụ thể.
V4 đáng chú ý hơn, không chỉ ở bản thân mô hình, mà ở ba chiêu thức nó thể hiện: Thứ nhất, tiếp tục nén "trí nhớ", để ngữ cảnh dài không còn làm quá tải bộ nhớ GPU; Thứ hai, đánh thức "thân thể" theo nhu cầu, để mô hình chuyên gia khổng lồ không phải mỗi lần đều toàn bộ ra trận; Thứ ba, biến tính toán lặp lại thành tài sản có thể tái sử dụng, để ngữ cảnh đã tính không còn đốt tiền từng lượt.
Đặc điểm nổi bật của các kỹ thuật này là — chúng đã hạ công phu vào việc phối hợp phần cứng-phần mềm, chứ không phải tối ưu hóa thuần phần mềm. Vì vậy mới có người dùng ví dụ đùa — DeepSeek có lẽ sẽ trở thành công ty phần cứng AI lớn nhất Trung Quốc.
Trang mô hình của nó hiển thị, trong trường hợp ngữ cảnh 1 triệu Token, V4-Pro so với thế hệ trước chỉ cần 27% năng lực suy luận tính trên mỗi Token đơn lẻ và chiếm 10% dung lượng cache. Trong bài viết này, chúng tôi lấy giá trị xấp xỉ một phần tư năng lực tính toán để tính toán tiếp.
Theo lộ trình truyền thống, phần cứng này chỉ có thể hỗ trợ một lượng thông lượng, nhưng thông qua nén ngữ cảnh dài, kích hoạt theo nhu cầu, tái sử dụng cache và điều phối suy luận, DeepSeek có thể làm cho sản lượng Token hiệu quả của cùng phần cứng tăng lên gấp 4 lần — vậy là chi phí không bị "cắt giảm", mà bị làm loãng. Việc trước đây cần 4 máy làm, bây giờ có lẽ 1 máy là đủ; chi phí phần cứng đắt đỏ mà trước đây mỗi lần tạo 1 Token đều phải tiêu thụ trọn vẹn, bây giờ cùng phần cứng đó có thể phân bổ cho 4 Token.
Đây mới là điểm thực sự đáng nể của DeepSeek: Nó không thay đổi báo giá của NVIDIA, nhưng thay đổi tỷ lệ sản xuất của máy NVIDIA trong sổ sách AI. Ý nghĩa của việc này, lớn hơn rất nhiều so với một lần giảm giá API.
Còn con số 1 nghìn tỷ đô la này, cũng không phải giả định vu vơ.
Báo cáo "Chi phí Tính toán" năm 2026 của McKinsey đưa ra một con số cụ thể: Đến năm 2030, các trung tâm dữ liệu toàn cầu để theo kịp nhu cầu năng lực tính toán, cần khoảng 6,7 nghìn tỷ đô la đầu tư, trong đó phần chuyên xử lý tải AI, sẽ tiêu tốn khoảng 5,2 nghìn tỷ đô la.
Nói cách khác, trong vài năm tới, số tiền cả nhân loại dự định đổ vào phần cứng AI, được tính bằng đơn vị nghìn tỷ đô la.
Mà một phần rất lớn trong số tiền khổng lồ này, sẽ chảy về phần cứng tinh vi nhất, khan hiếm nhất — tức là bộ nhớ GPU băng thông cao HBM và bộ nhớ LPDDR. Việc DeepSeek đang làm, là giảm thiểu một cách có hệ thống sự phụ thuộc của toàn bộ ngành AI Trung Quốc vào phần cứng đắt đỏ này. Chỉ cần giảm một phần, giá trị nó tiết kiệm cho ngành, sẽ là con số thiên văn cấp nghìn tỷ.
Khi mức tiêu thụ Token hàng ngày của Trung Quốc từ hơn một trăm nghìn tỷ ngày nay, tiếp tục tiến tới hàng trăm, hàng nghìn nghìn tỷ, thì bất kỳ sự sụt giảm chi phí trên mỗi Token nào, cũng sẽ bị phóng đại thành chênh lệch đầu tư cơ sở hạ tầng khổng lồ. Nếu cùng một thông lượng thực sự có thể hoàn thành với một phần tư phần cứng, thì trong tương lai có thể thấy, nó có khả năng tiết kiệm cho cơ sở hạ tầng AI Trung Quốc khoản đầu tư phần cứng năng lực tính toán gần 1 nghìn tỷ đô la.
Đây là một phép tính cơ sở hạ tầng: Ai có thể làm cho cùng một khoản chi cứng phần cứng sản xuất ra nhiều Token hơn, người đó đang xây ít trung tâm dữ liệu, mua ít GPU, chất ít bộ nhớ GPU, người đó đang phân phối lại tấm vé vào cửa tương lai của AI.
Vậy, DeepSeek đã làm như thế nào? Câu trả lời là, nó đã rạch ba nhát vào cỗ máy mô hình lớn này.
Hai Con Ngốn Dầu
Một quan niệm sai lầm phổ biến là, nơi tốn tiền nhất của mô hình lớn nằm ở "tư duy", ở tính toán. Thực ra không phải.
Hai con ngốn dầu thực sự của nó, một gọi là "trí nhớ", một gọi là "thân thể". Và chúng đốt cùng một loại nhiên liệu đắt nhất — bộ nhớ GPU băng thông cao (HBM), một loại bộ nhớ tích hợp trực tiếp trong hệ thống đóng gói GPU, tốc độ cực nhanh và cũng cực đắt.
Nói về trí nhớ trước. Mô hình lớn khi tạo văn bản có một đặc điểm vụng về: Mỗi lần nhả ra một chữ mới, nó đều phải quay đầu xem lại toàn bộ nội dung trước đó. Bởi vì ý nghĩa ngôn ngữ được tạo dựng từng lớp, nội dung sau nên nói gì, hoàn toàn phụ thuộc vào ngữ cảnh đã được đặt trước đó.
Điều này giống như một phiên dịch viên đồng thời. Anh ta không thể chỉ dựa vào câu cuối cùng của bạn để mở miệng, mà phải luôn nắm bắt mọi thứ bạn đã nói trước đó — chỉ có nhớ những điều dẫn dắt đó, anh ta mới hiểu được ý hướng thực sự của câu nói lúc này. Bạn nói càng lâu, anh ta càng phải nhớ nhiều.
Để không phải tính lại từ đầu trên mỗi chữ (sẽ chậm đến mức không dùng được), mô hình sẽ tạm lưu trữ kết quả trung gian đã tính. Bản lưu này gọi là bộ nhớ đệm KV (Key-Value Cache, có thể hiểu là trí nhớ ngắn hạn của mô hình).
Rắc rối nằm ở chỗ, nó sẽ phình ra điên cuồng khi cuộc hội thoại dài thêm.
Lấy một con số cụ thể: Ước tính theo một cấu trúc tiêu chuẩn nào đó, xử lý ngữ cảnh khoảng mười hai vạn chữ, chỉ riêng phần trí nhớ này đã có thể ngốn hết 488GB bộ nhớ GPU băng thông cao. Mà GPU Rubin cao cấp nhất sắp được giao của NVIDIA, bộ nhớ GPU mỗi card là 288GB. Tức là, chỉ lưu trữ phần trí nhớ này, đã chiếm gần một card rưỡi, thậm chí gần hai card GPU tiên tiến nhất — lúc này mô hình còn chưa thực sự bắt đầu làm việc.
Nói về thân thể tiếp. "Thân thể" của mô hình, chỉ trọng số tham số của nó, có thể hiểu đơn giản là vật mang toàn bộ tri thức và năng lực của nó. Năng lực càng mạnh, thân thể thường càng đồ sộ, động chạm hàng trăm tỷ, hàng nghìn tỷ tham số.
Mô hình đặc truyền thống (Dense Model, chỉ mô hình xử lý bất kỳ đầu vào nào cũng phải vận dụng toàn bộ tham số) có một nhược điểm: Dù hỏi nó cái gì, nó cũng phải điều động toàn bộ thân thể một lượt. Điều này giống như bạn đến một bệnh viện chỉ muốn khám răng, kết quả tất cả bác sĩ các khoa trong viện đều bị gọi đến, vây quanh bạn khám từ đầu đến chân một lượt, cuối cùng mới đến lượt khoa răng. Vô lý, nhưng vẫn tính phí đầy đủ.
Thân thể đồ sộ này, cũng phải thường trú trong bộ nhớ GPU băng thông cao đắt đỏ, sẵn sàng tác chiến.
Trí nhớ và thân thể, hai con ngốn dầu này, đã đè chặt sự phân phối giá trị của toàn bộ hệ thống phần cứng, lên phần cứng đắt nhất, khan hiếm nhất, chịu sự kiềm chế nhất. Mà mười mấy năm qua, đối sách của ngành là đơn giản và thô bạo: Năng lực tính toán không đủ thì chất đống, bộ nhớ GPU không đủ thì lại chất đống. Vì vậy, của cải của ngành công nghiệp, tích tụ cao độ ở chuỗi phần cứng tinh vi nhất này, lợi nhuận béo bở nhất, bị chặn ở mắt xích khan hiếm nhất.
Giá Token, cứ thế bị một sự khan hiếm của phần cứng khống chế. Mà ba nhát rạch của DeepSeek, đúng lúc từng nhát đều đang nới lỏng sự khống chế này.
Nhát Rạch Thứ Nhất: Rạch Vào Bộ Não
Nhát rạch thứ nhất, rơi vào "trí nhớ". Và vị trí nó rạch, chính là nơi không nên đụng, hay nói là không ai dám đụng nhất của cả cỗ máy — cơ chế chú ý (Attention, cơ chế cốt lõi mô hình lớn dùng để hiểu mối liên hệ ngữ cảnh).
Cơ chế chú ý là bộ não của mô hình lớn. Nó có thể đọc hiểu ngữ cảnh, có thể nắm bắt trọng điểm trong hội thoại dài, đều nhờ cơ chế này cân nhắc liên hệ giữa các chữ liên tục. Bản ghi trí nhớ đắt đỏ lúc nãy, chính là sản phẩm của mỗi lần rung động bộ não này.
Muốn tiết kiệm trí nhớ, lại sợ rủi ro, nên hầu như tất cả mọi người đều chọn đi vòng qua bộ não này, chỉ động tay ở ngoại vi. Từ cơ chế chú ý truy vấn đa (MQA) do một trong những tác giả Transformer là Noam Shazeer đề xuất năm 2019, đến cơ chế chú ý truy vấn nhóm (GQA) do Google đề xuất năm 2023, được Llama và nhiều mô hình khác áp dụng rộng rãi, tư duy của dòng chính luôn là "để nhiều đầu truy vấn dùng chung một bản ghi nhớ" — bản chất là "nhớ ít vài bản, dùng tạm". Hiệu quả tiết kiệm diện tích đáng kinh ngạc, nhưng cái giá phải trả là chất lượng mô hình giảm sút. Nói thẳng ra, sự đồng thuận của dòng này luôn là "thỏa hiệp": Mặc định nén chắc chắn tổn hại chất lượng, chỉ mặc cả ở mức tổn hại nhiều hay ít.
DeepSeek lại không thỏa hiệp. Nó chọn trực tiếp rạch vào bộ não, cải tạo chính cơ chế chú ý.
Phương án của nó gọi là cơ chế chú ý tiềm ẩn đa đầu (MLA, Multi-head Latent Attention), lần đầu xuất hiện trong DeepSeek-V2 năm 2024. Lấy ví dụ: Mô hình khác ghi chú, là sao chép nguyên từng chi tiết, viết đầy mấy quyển lớn; MLA thì trước tiên đúc kết ghi chú thành một bản tóm tắt cực kỳ cô đọng, chỉ lưu bản tóm tắt, khi dùng thì dựa vào tóm tắt để khôi phục chính xác chi tiết. Thuật ngữ gọi đây là "nén hạng thấp" — chiếu những ký ức thoạt nhìn phức tạp, thực chất dư thừa cao, vào một không gian gọn gàng hơn nhiều để lưu trữ.
Hiệu quả kinh ngạc đến mức nào? Kết quả trong bài báo của DeepSeek-V2 đưa ra là, so với mô hình cùng nhóm thế hệ trước, V2 trong khi năng lực mạnh hơn, chi phí huấn luyện giảm 42.5%, KV Cache giảm 93.3%, thông lượng tạo tối đa tăng lên 5.76 lần. Ví dụ ăn 488GB lúc nãy, đổi sang dòng này, có thể bị nén xuống cỡ vài GB.
Nhưng điều thực sự giỏi, không phải tiết kiệm được bao nhiêu, mà là nó gần như không trả giá bằng tổn thất chi tiết.
Theo lẽ thường, ép một cuốn sách thành một trang tóm tắt, dù khôi phục thế nào cũng không lấy lại được tất cả chi tiết. Nhưng trong thí nghiệm DeepSeek công bố, bản ghi nhớ nén này, hiệu quả không chỉ không thua cơ chế chú ý tiêu chuẩn "sao chép toàn bộ", mà trong một số trường hợp còn tốt hơn một chút.
Đến V4, dòng này lại được đẩy đến cảnh ngữ cảnh dài cực đoan hơn: V4-Pro sử dụng kiến trúc chú ý hỗn hợp, trong trường hợp ngữ cảnh 1 triệu Token, so với thế hệ trước chỉ cần 27% năng lực suy luận và 10% chiếm dụng cache.
Để cảm nhận việc này khó đến mức nào, phải biết đây là một ca phẫu thuật trên máy bay đang bay. Sửa cơ chế chú ý, đồng nghĩa với việc phải viết lại logic tính toán tầng dưới cùng của mô hình, huấn luyện lại toàn bộ mô hình, làm lại toàn bộ hệ thống dịch vụ hỗ trợ nó chạy. Một mắt xích nào sai, trí tuệ sẽ sụp đổ. Đây không phải thay van lốp xe, mà là phẫu thuật mở sọ.
Và DeepSeek đã làm được, để AI sau phẫu thuật còn khỏe hơn trước phẫu thuật.
Nhát Rạch Thứ Hai và Thứ Ba: Lắp Tủ Đồ Có Đánh Số Cho Cỗ Máy
Nhát rạch thứ nhất thuần phục trí nhớ. Nhát rạch thứ hai, đối phó với "thân thể" đồ sộ kia.
Tư duy của nhát rạch này, DeepSeek không phải người đầu tiên, mà tiếp nối một con đường cũ rõ ràng: Chuyên gia hỗn hợp (MoE), chỉ cấu trúc chia mô hình thành nhiều "chuyên gia", mỗi lần chỉ gọi một số ít trong đó.
Khái niệm này đã có từ năm 1991, năm 2017 được Shazeer và những người khác đưa vào mạng thần kinh, sau đó GShard của Google, Switch Transformer đưa nó vào Transformer; thực sự đưa nó ra ánh sáng, là công ty Pháp Mistral cuối năm 2023 ra mắt Mixtral 8x7B chỉ với một đường link seed — tổng tham số khoảng 46,7 tỷ, nhưng xử lý mỗi chữ chỉ kích hoạt khoảng 12,9 tỷ.
Quay lại bệnh viện "khám răng mà kinh động toàn viện" lúc nãy. MoE làm gì, là cải tạo nó thành một bệnh viện phân khoa rõ ràng: Bạn đến khám răng, lễ tân trực tiếp dẫn bạn đến khoa răng miệng, bác sĩ các khoa còn lại làm gì thì làm. Tổng số nhân viên bệnh viện vẫn đồ sộ, tổng lượng tham số có thể hàng trăm tỷ, hàng nghìn tỷ, nhưng mỗi lần thực sự xuất kích, chỉ là một phần rất nhỏ trong đó.
DeepSeek trong V3 đã đẩy dòng này đến quy mô khá mạnh mẽ, đến thời V4 càng khủng hơn — V4-Pro là tổng tham số 1,6 nghìn tỷ, tham số kích hoạt 49 tỷ; V4-Flash là tổng tham số 284 tỷ, tham số kích hoạt 13 tỷ. Tức là, "tổng thân thể" của mô hình tiếp tục lớn lên, nhưng phần thực sự hoạt động trong mỗi bước, vẫn bị đè ở một khối rất nhỏ.
Nhưng mưu mẹo thực sự của nhát rạch thứ hai, không chỉ dừng ở "cho ít bác sĩ xuất kích". Nó thuận thế cải tạo cách mô hình truy cập những "thân thể" này.
Ở đây có thể đổi một hình ảnh hợp hơn. Mô hình lớn trước đây, giống như một phòng chứa đồ khổng lồ nhưng vô tổ chức: Đồ chất đống cả, mỗi lần chỉ muốn lấy một thứ, cũng phải mở cửa lớn, từ tầng dưới cùng, lật tung tất cả đồ mới tìm thấy. Để việc lục tìm này đủ nhanh đối phó khách đông, bạn chỉ có thể dời toàn bộ phòng chứa đồ vào "cửa hàng đắt nhất trung tâm thành phố" — tức là bộ nhớ GPU băng thông cao.
DeepSeek đã cải tạo phòng chứa đồ này, thành một tủ có hàng chục ngàn ngăn, mỗi ngăn đều được đánh số. Muốn dùng thứ gì, nhấn số kéo ngăn tương ứng ra là được, tuyệt đối không đụng vào những ngăn còn lại. Điều này có nghĩa, bạn không còn cần phải chất cả tủ đồ vào cửa hàng đắt nhất nữa. Phần lớn các ngăn tạm thời không dùng đến, hoàn toàn có thể cho vào bộ nhớ thông thường (LPDDR) rẻ hơn nhiều, thậm chí ổ cứng thể rắn còn rẻ hơn nữa, khi cần thì nhanh chóng điều ra ngăn đó. Xoay quanh việc dỡ tải và tải dòng kiểu này, hệ sinh thái DeepSeek và hệ thống suy luận mã nguồn mở như SGLang đều đang không ngừng khám phá.
Đến đây, sự phối hợp của hai nhát trong ba nhát đã xuất hiện: Nhát thứ nhất nén nhỏ "trí nhớ", nhát thứ hai đánh số cho "thân thể", chỉ lấy ngăn cần lấy. Hai nhát hợp lại, phần thực sự cần chiếm dụng bộ nhớ GPU đắt nhất của cỗ máy này tại bất kỳ thời điểm nào, đều bị đè xuống cực thấp.
Nhát thứ ba, thì đẩy logic "lấy dùng theo số" này đến cực hạn: Ngay cả động tác "tính toán", có thể tiết kiệm thì tiết kiệm. Một số kết quả tính toán, thực ra có thể tính trước, coi như từng ngăn đánh số lưu lại, khi dùng thì lấy trực tiếp, không cần mỗi lần tính lại. Giống như người thuộc bảng cửu chương, sẽ không mỗi lần đều bấm ngón tay tính bảy nhân tám, mà mở miệng báo năm mươi sáu. Điều này tương đương dùng chi phí cực thấp "tra lấy" (đọc bộ nhớ), thay thế chi phí cực cao "tính cứng" (tính toán chip).
Trong V4, nhát này có cách diễn đạt thương mại trực tiếp hơn: Giá trúng cache bị đè cực thấp, tái sử dụng ngữ cảnh dài được viết trực tiếp vào hệ thống giá — tính toán lặp không chỉ về mặt kỹ thuật có thể tiết kiệm, về mặt thương mại cũng được khuyến khích tiết kiệm.
Nhìn ba nhát liền mạch, chúng không phải ba việc riêng lẻ, mà là sự tiến triển từng tầng của cùng một logic: Biến một đống lộn xộn buộc phải lật, thành một hệ thống mọi việc đều có thể lấy dùng chính xác theo số. Trí nhớ nén đến nhỏ nhất, thân thể chỉ đánh thức cần đánh thức, tính toán có thể tra bảng thì không tính lại. Mỗi nhát đều làm cho cỗ máy này chiếm dụng phần cứng đắt nhất ít đi một chút, ba nhát chồng lên, nó chạy cùng công việc, tiêu thụ phần cứng tinh vi nhất, chỉ còn phần nhỏ so với trước đây.
Rẻ Đến Mức Nào
Tháng 5 năm 2026, DeepSeek thông báo chuyển giá chiết khấu 75% trước đó của V4-Pro thành giá dài hạn, tạo ra khoảng cách lớn giữa giá trúng cache, giá không trúng cache và giá Token đầu ra. Giá trúng cache quan trọng, vì nó biến nhát thứ ba của DeepSeek trực tiếp thành quy tắc thương mại: Ngữ cảnh đã tính, không nên tính phí từng lượt như "việc mới".
Đặt vào hóa đơn thực tế so sánh, chênh lệch mới cụ thể. Tính theo một ứng dụng quy mô trung bình chạy một tỷ token mỗi tháng, cùng khối lượng công việc: Dùng DeepSeek V4-Pro, hóa đơn hàng tháng khoảng 522 USD; đổi thành Claude Opus 4.7, khoảng 9.000 USD; đổi thành GPT-5.5, khoảng 10.000 USD. Chênh lệch là mười bảy đến mười chín lần.
Xem thêm một cảnh cực đoan nhưng thường gặp: Một trợ lý lập trình ngữ cảnh dài, đọc đi đọc lại một kho mã 10 vạn Token một trăm lần. Nhờ giá trúng cache rẻ đến mức gần như miễn phí, DeepSeek chuyến này chỉ tốn khoảng 0,036 USD; cùng việc đó, GPT-5.5 và Claude Opus 4.7 đều tốn khoảng 5 USD — chênh nhau hơn một trăm lần.
Giá này thấp đến nổ tung, nhưng nó không phải lỗ vốn kiếm tiếng, mà cỗ máy cải tạo này vốn đã chạy tiết kiệm như vậy — là chi phí người Trung Quốc từng chút một cạo ra bằng kỹ thuật. Hai năm trước Lương Văn Phong nói về định giá từng nói, nguyên tắc là "không bù tiền, cũng không kiếm lợi nhuận quá mức". Thực ra nên hiểu như thế này: Khi cấu trúc chi phí của bạn và người khác căn bản không cùng một đường, giá cả của bạn tự nhiên cũng không cùng một khu vực.
Đương nhiên, cuộc cải tạo này không phải chắc chắn có lãi. Ví dụ dời tải sang bộ nhớ rẻ và ổ cứng, nghiên cứu đã chỉ ra, vận chuyển thường xuyên có thể thiệt về tiêu thụ điện, độ trễ và độ phức tạp điều phối. Trong một số trường hợp, tổng chi phí hệ thống mỗi chữ tạo ra chưa chắc thấp hơn, trừ khi phần cứng, chồng phần mềm và phương tiện lưu trữ đều được tối ưu hóa thêm. Vì vậy ba nhát này là một sự cân nhắc rất khó nắm lửa, không phải tiết kiệm vô não. Nhưng hướng đi là xác định: Dùng tài nguyên rẻ, dễ kiếm hơn của mình, thay thế tài nguyên đắt nhất, bị bóp cổ nhất.
Tính "Một Nghìn Tỷ" Thành Một Khoản Tiền Có Thể Thấy
Nói nhiều "tiết kiệm" như vậy, không ngại đổi nó thành một cảnh trực quan hơn: Ít xây bao nhiêu trung tâm trí tuệ tính toán?
Xem lưu lượng Token trước. Thống kê quốc gia là, đến tháng 3 năm 2026, lưu lượng gọi Token hàng ngày của Trung Quốc đã vượt quá 140 nghìn tỷ, so với đầu năm 2024 tăng hơn một nghìn lần. Trên thống kê ngành, chỉ riêng mô hình lớn Đậu Bạc, cùng tháng lưu lượng sử dụng hàng ngày cũng vượt 120 nghìn tỷ. Ranh giới thống kê tuy không giống nhau, nhưng chúng cùng nói lên một việc: Tiêu thụ Token AI của Trung Quốc, đã bước vào vận hành thường ngày cấp trăm nghìn tỷ, và đang nhanh chóng tiến tới cấp triệu tỷ. Vì vậy, 500 nghìn tỷ Token/ngày, có thể xem là trạm tiếp theo không xa; còn 5.000 nghìn tỷ Token/ngày, là cảnh lưu lượng cao sau khi tác tử thông minh, đa phương thức, tạo mã triển khai toàn diện.
Trong bối cảnh này, nhìn lại chi phí trung tâm tính toán, giá trị của DeepSeek mới nổi bật. Năm 2025, China Unicom khởi công xây dựng trung tâm suy luận trí tuệ tính toán nghìn card tại Vũ Hán, đầu tư giai đoạn đầu gần 200 triệu NDT. Chúng ta có thể coi nó một cách đơn giản là mẫu đầu tư của một trung tâm suy luận cấp nghìn card: Một trung tâm như vậy, khoảng 200 triệu NDT.
Mà tính theo hiệu suất tăng của DeepSeek V4, ít nhất trong cảnh ngữ cảnh dài nó giỏi, sự thay đổi đưa ra không còn là tối ưu hóa mười mấy phần trăm, mà là tăng hiệu suất phần cứng cấp số lần. Chúng tôi không lấy khẩu tích cực nhất, mà lấy một giả định bảo thủ hơn, dễ hiểu hơn: Ba chiêu này của V4, làm cho thông lượng Token hiệu quả của cùng một loạt phần cứng tăng 4 lần. Tức là, việc trước đây cần 4 trung tâm làm, bây giờ 1 trung tâm có lẽ đủ, giữa chừng bớt đi 3 trung tâm, tương đương tiết kiệm 75% đầu tư phần cứng tương đương.
Lưu ý, DeepSeek không đơn giản là dùng ít lưu trữ. Ngược lại, nó đang khéo dùng lưu trữ — dùng chú ý nén, kích hoạt theo nhu cầu, trúng cache và điều phối suy luận, dùng thời gian GPU và bộ nhớ GPU đắt nhất mạnh hơn. Phần thực sự bị tiết kiệm, là phần phần cứng bổ sung vốn cần mua thêm trong cùng thông lượng Token.
Vậy, một nghìn tỷ đô la tương ứng với cái gì? 1 nghìn tỷ đô la xấp xỉ 7 nghìn tỷ NDT. Tính theo mỗi trung tâm suy luận cấp nghìn card 200 triệu NDT, 7 nghìn tỷ NDT tương đương 3,5 vạn trung tâm như vậy. Nếu đường lối V4 mang lại tăng thông lượng hiệu quả 4 lần, muốn xây ít 3,5 vạn trung tâm tương đương như vậy, lưu lượng Token hàng ngày tương ứng, khoảng chính là 5.000 nghìn tỷ.
Đây chính là bức tranh ngành công nghiệp tương ứng với "một nghìn tỷ đô la" được nói trong bài viết. Đây không phải tính toán chính xác trong sách đấu thầu kỹ thuật, mà là một phép tính cấp cơ sở hạ tầng, tương ứng cũng là cảnh lưu lượng tương lai vài năm, chứ không phải cảnh lưu lượng hiện tại đã thực hiện. Nó thực sự muốn nói là: Trong thời đại lưu lượng gọi thấp, tăng hiệu suất tiết kiệm là vài card, vài tủ rack; trong thời đại hàng nghìn nghìn tỷ Token/ngày, tăng hiệu suất tiết kiệm, chính là hàng nghìn hàng vạn trung tâm trí tuệ tính toán đáng lẽ phải mọc lên.
Vì vậy, thứ DeepSeek thực sự thay đổi không phải giá của một lần gọi, mà là sổ sách cơ sở hạ tầng AI tương lai.
Nó Đảo Ngược Một Xu Hướng Nguy Hiểm
Bây giờ, quay lại cỗ máy lúc đầu. Còn nhớ chứ? Trong 7,8 triệu USD của Vera Rubin, có 2 triệu đè lên bộ nhớ, mà phần này còn đang tăng giá điên cuồng. Điều này lộ ra một xu hướng nguy hiểm — Giá trị của toàn ngành, ngày càng bị trói chết vào chip bộ nhớ nhiều hơn, không lành mạnh. Mà bộ nhớ, vốn không nên bị đẩy lên đắt như vậy.
Nhiều người hiểu lầm DeepSeek đang "thuận theo" xu hướng này, vì nó cũng đang dùng nhiều bộ nhớ. Ngược lại, DeepSeek đang đảo ngược nó. Cách cũ là bị động, kém hiệu quả nuốt phần cứng, đảo ngược giá trị chất đống lên chip, để mặc bộ nhớ bị đẩy đi theo làn sóng tăng giá; DeepSeek là trước tiên dùng ba nhát đè nhu cầu thực tế với phần cứng xuống mạnh, sau đó chia phần nhu cầu ít ỏi còn lại, tinh tường phân cho cấp lưu trữ rẻ nhất, phù hợp nhất. Cách trước là "bị giá đẩy đi", cách sau là "trước tiên tính rõ sổ sách, sau đó quyết định chi vào đâu".
Sự khác biệt này, đặc biệt quan trọng với Trung Quốc. Bởi vì nó dời chiến trường, từ nơi chúng ta đang ở thế yếu, đến nơi chúng ta có nhiều khả năng thắng hơn. Chip tính toán tinh vi nhất, chúng ta tạm thời đuổi không kịp. Nhưng chip lưu trữ như bộ nhớ, lại chính là năng lực Trung Quốc năm nay thực sự bổ sung lên.
Nhà sản xuất DRAM nội địa hàng đầu ChangXin Memory Technologies (CXMT), quý I năm 2026 doanh thu đạt 50,8 tỷ NDT, lợi nhuận ròng khoảng 25 tỷ NDT, công ty dự kiến lợi nhuận ròng nửa đầu năm sẽ đạt 66 đến 75 tỷ NDT, tương đương nửa năm đã kiếm được lợi nhuận ròng cả năm của ByteDance năm ngoái. Dù ChangXin trên thị trường DRAM toàn cầu vẫn chỉ là ghế thứ tư, nhưng sản lượng nội địa gần như bằng không trước đây, năm nay cuối cùng cũng đứng vững.
Mà đây, chính là ý nghĩa chiến lược của ba nhát đó của DeepSeek. Đây không phải "dùng lưu trữ thay thế năng lực tính toán", mà là giảm sự phụ thuộc biên vào năng lực tính toán khan hiếm nhất, và chuyển một phần áp lực sang lưu trữ, cache và kỹ thuật hệ thống dễ kiếm hơn. Khi một máy AI dựa nhiều hơn vào bộ nhớ, cache, điều phối và kỹ thuật hệ thống những mắt xích chúng ta tự mình có cơ hội nắm bắt hơn, chuỗi cung ứng hiện có của Trung Quốc, đột nhiên từ "chỗ nào cũng bị kiềm chế" trở thành "đủ dùng", thậm chí "dùng tốt". Điều này nâng cao rất lớn tính an toàn của toàn bộ chuỗi liên kết.
Lời Kết
Một Lương Văn Phong coi "tiêu diệt kém hiệu quả" là bản năng, sẽ không thỏa mãn với việc để một mô hình nào đó rẻ đi một chút. Anh ta nhắm vào, là chỗ kém hiệu quả lớn nhất trong toàn ngành công nghiệp AI — tiền đề "muốn trí tuệ mạnh hơn, phải phụ thuộc vào phần cứng tinh vi nhất, khan hiếm nhất, đắt nhất" mà toàn ngành coi là đương nhiên.
Nếu nó có thể làm cho toàn ngành, dùng ít phần cứng tinh vi hơn nhiều làm thành cùng việc, nó tiết kiệm cho ngành hư không, chính là một cơ sở sản xuất ảo cấp nghìn tỷ — không chiếm một tấc nhà xưởng, nhưng thực sự giải phóng đầu tư khổng lồ vốn nên đổ vào phần cứng. "Một nghìn tỷ" đó, vì vậy không còn là một câu chuyện định giá, mà là một phép tính cơ sở hạ tầng.
Viết DeepSeek thành "dùng thuật toán tiêu diệt NVIDIA", là một thần thoại rẻ tiền khác. Nhưng nếu đổi một cách hỏi, câu trả lời sẽ thú vị: DeepSeek có khả năng làm cho ngành mua ít một phần phần cứng đắt nhất, chiếm dụng ít một phần bộ nhớ GPU khan hiếm nhất, trả ít một phần chi phí suy luận vốn được coi là đương nhiên không? Có. Nó có khả năng phân phối lại giá trị cơ sở hạ tầng AI, từ cách kể GPU cao cấp đơn nhất, sang cấu trúc mô hình, hệ thống suy luận, quản lý cache, điều phối lưu trữ và tối ưu hóa kỹ thuật không? Cũng có. Đây mới là ý nghĩa ngành công nghiệp thực sự của nó.
Cách mạng công nghệ thực sự, thường không phải làm mọi thứ đắt hơn, mà là làm thứ trước đây chỉ số ít người dùng nổi, đột nhiên trở thành cơ sở hạ tầng hàng ngày đa số người cũng có thể chi trả. Nhìn từ chiều lớn hơn, ván cờ này thực sự quan trọng, xưa nay không phải tiết kiệm được bao nhiêu tiền, mà là việc tiết kiệm tiền, lặng lẽ phát lại tấm vé vào cửa tương lai, đến hàng ngàn ngành hàng trăm nghề Trung Quốc cần được AI trao năng lực.
(Bài viết dựa trên tư liệu công khai và thảo luận ngành mà đúc kết. Một số phán đoán tiên liệu trong bài, như giá trị thay thế cơ sở hạ tầng cấp nghìn tỷ, cân nhắc hiệu suất năng lượng phần cứng, quy đổi chi phí tương đương v.v., thuộc quan điểm trong suy diễn và tranh luận ngành, không phải sự thật đã thành định luận, mong độc giả thận trọng đối đãi.)
Bài viết từ tài khoản công chúng WeChat "Hồ Thuyết Thành Lý", tác giả: Hồ Triệt






