Tiêu đề gốc:DeepSeek's 10 trillion USD grand strategy
Tác giả gốc:@bookwormengr
Biên dịch gốc:Peggy,BlockBeats
Lời của biên tập viên:Trong năm qua, phần lớn thảo luận xoay quanh DeepSeek tập trung vào hiệu suất mô hình, chiến lược mã nguồn mở và cuộc chiến giá. Nhưng nếu chỉ hiểu DeepSeek từ góc độ "có bán gói đăng ký không", "có đa phương thức không", "có thể làm coding agent không", có thể chúng ta đang đánh giá thấp thứ mà nó thực sự muốn thay đổi.
Bài viết này đưa ra một đánh giá triệt để hơn: Mục tiêu của DeepSeek chưa chắc đã là kiếm tiền ngắn hạn thông qua lớp ứng dụng, mà là thông qua một loạt đổi mới kiến trúc cơ sở, định hình lại cấu trúc chi phí huấn luyện và suy luận AI, và gián tiếp thúc đẩy sự hình thành của một hệ sinh thái phần cứng mới. Từ MoE, MLA đến DSA, CSA, mHC, Engram, rồi đến Dual Path và TileLang, con đường công nghệ của DeepSeek luôn xoay quanh một vấn đề cốt lõi: Trong điều kiện HBM, tiến trình bán dẫn tiên tiến, đóng gói và hệ sinh thái CUDA đều bị hạn chế, làm thế nào để chạy ra mô hình mạnh hơn với lượng tính toán cao cấp ít hơn.
Điều đáng chú ý nhất trong bài viết, không phải là "DeepSeek có kiếm được vài tỷ đô la từ API hay gói đăng ký không", mà là liệu nó có đang gắn kết khả năng mô hình, hệ thống bộ nhớ và hệ sinh thái phần cứng nội địa lại với nhau hay không. Việc nén KV Cache làm giảm sự phụ thuộc vào HBM, NAND và SSD có thể đảm nhận bộ nhớ đệm dài hạn, LPDDR có thể dùng để tải trọng số theo luồng và lưu trữ Engram, còn TileLang thì cố gắng làm suy yếu hào sâu bảo vệ CUDA. Nếu những đổi mới này tiếp tục lan rộng, người hưởng lợi sẽ không chỉ là bản thân DeepSeek, mà còn bao gồm lưu trữ, ASIC, GPU, chip mạng và toàn bộ chuỗi cơ sở hạ tầng AI.
Tất nhiên, những đánh giá về "hệ sinh thái công nghiệp 10 nghìn tỷ đô la" và "định giá 1 nghìn tỷ đô la" trong bài vẫn mang màu sắc suy diễn mạnh. Nhưng nó cung cấp một con đường quan trọng để hiểu DeepSeek: Mã nguồn mở không nhất thiết có nghĩa là từ bỏ thương mại hóa, giá thấp cũng không nhất thiết chỉ là trợ cấp thị trường. Đối với DeepSeek, việc kinh doanh thực sự có thể không nằm ở lớp ứng dụng, mà ở việc giúp nhiều phần cứng hơn trở nên khả dụng, biến nguồn cung AI chi phí thấp hơn trở thành hiện thực. Nói cách khác, thứ nó bán chưa chắc đã là bản thân mô hình, mà là tính khả thi của cơ sở hạ tầng AI thế hệ tiếp theo.
Dưới đây là nội dung gốc:
Bạn đã bao giờ tự hỏi, DeepSeek rốt cuộc sẽ kiếm tiền như thế nào, và có lẽ kiếm được rất nhiều tiền?
Nó không giống như GLM, MoonShot hay MiniMax, những nơi đã đưa ra các gói đăng ký lập trình cạnh tranh; cũng không có mô hình đa phương thức, âm thanh, video. Cho đến nay, nó thậm chí còn chưa có harness của riêng mình - tức là khung chạy lớp ngoài dùng để gọi mô hình, tích hợp công cụ và thực thi tác vụ – mặc dù gần đây họ đã bắt đầu tuyển dụng các vị trí liên quan, chuẩn bị xây dựng hệ thống này.
Đồng thời, DeepSeek dường như còn đứng về phía mã nguồn mở một cách kiên định lâu dài, thậm chí rất sẵn lòng chia sẻ công khai "bí quyết" của mình. Điều này chẳng phải là điên rồ sao? Chẳng phải là đang đốt tiền vô ích sao? Những nhà đầu tư chuẩn bị rót 100 tỷ đô la vào nó, chẳng lẽ đang ném tiền xuống cống?
Cá nhân tôi cho rằng, câu trả lời hoàn toàn ngược lại.
Tiếp theo, dựa trên những việc DeepSeek đã làm cho đến nay, tôi sẽ đưa ra một số quan sát và phân tích về một chiến lược mà nó dường như đang tuân theo. Mục tiêu của CEO DeepSeek Lương Văn Phong, có thể không chỉ giới hạn ở cuộc cạnh tranh mô hình trước mắt. Ông ấy có lẽ đang nhắm đến một giải thưởng lớn hơn: DeepSeek có cơ hội đạt mức định giá 1 nghìn tỷ đô la, đồng thời thúc đẩy hình thành một ngành công nghiệp mới trị giá 10 nghìn tỷ đô la.
Bài báo của TechInAsia về vòng gọi vốn mới nhất của DeepSeek
Trở lại "Hành Trình Anh Hùng" Của DeepSeek
DeepSeek luôn đi ngược chiều gió. Họ không chọn việc liên tục ra mắt các mô hình mạnh hơn một chút, rồi vội vàng đóng gói chúng thành các ứng dụng có thể kiếm tiền trực tiếp, như gói đăng ký lập trình. Ngày 27 tháng 1 năm 2025, tôi đã đăng một bài tweet được lan truyền rộng rãi, kể về "Hành trình anh hùng" của DeepSeek trong mắt tôi. Giờ đây, câu chuyện này càng trở nên thú vị hơn.
Khi những người khác còn đang cố gắng xây dựng mô hình dày đặc, DeepSeek đã chọn Mô hình Hỗn hợp Chuyên gia (Mixture of Experts, MoE) khó huấn luyện hơn.
Họ áp dụng phương pháp "Nguyên lý đầu tiên" (First-Principle), phát minh thuật toán GRPO mới để thay thế thuật toán học tăng cường PPO phổ biến lúc bấy giờ nhưng có chi phí triển khai cao hơn.
Họ phát hiện ra rằng, Học tăng cường từ Phần thưởng Có thể xác minh (Reinforcement Learning from Verified Rewards, RLVR), là chiến lược then chốt để nâng cao khả năng suy luận của mô hình.
Họ cũng đề xuất một chiến lược giải mã suy đoán đơn giản thông qua "Dự đoán Đa Token" (Multi Token Prediction), đồng thời làm cho tín hiệu huấn luyện trở nên dày đặc hơn.
Họ hoàn thiện đường ống "Bong bóng Không" (ZERO bubble) để nâng cao hiệu quả sử dụng tài nguyên GPU có hạn.
Họ phát hành bộ cân bằng tải chuyên gia, giúp mọi người dễ dàng triển khai mô hình MoE hơn. Đặc biệt thông qua chiến lược "Song song Chuyên gia Rộng" (Wide Expert Parallel), mô hình có thể phục vụ với batch lớn hơn, từ đó giảm đáng kể chi phí suy luận.
Họ phát minh ra các cơ chế MLA, DSA, CSA, HCA để giảm nhu cầu về KV Cache, và làm cho nhu cầu tính toán tăng theo chiều dài ngữ cảnh càng giữ ở mức gần như không đổi càng tốt.
Họ phát minh ra Engram, dùng bộ nhớ để đổi lấy hiệu quả tính toán.
Họ còn phát minh ra mHC, cho phép đào tạo ổn định ngay cả khi mở rộng quy mô mô hình. Còn nhiều ví dụ tương tự khác.
Trong cấu trúc tự sự phổ biến nhất là "Hành trình Anh hùng", người anh hùng không bao giờ quyết định ngay từ đầu cuộc hành trình của mình thực sự dẫn đến đâu. Anh ta học hỏi trên suốt chặng đường, dần dần khám phá ra sứ mệnh vĩ đại thực sự của mình, và hoàn thành nó dưới vô vàn trở ngại. Anh ta sẽ gặp nhiều kẻ nghi ngờ, nhưng anh ta chọn phớt lờ họ. Anh ta cũng sẽ gặp nhiều kẻ hành động ác ý. Anh ta có những khiếm khuyết hoặc điểm yếu rõ ràng, nhưng cuối cùng sẽ vượt qua những vấn đề này để hoàn thành sứ mệnh. Anh ta đối mặt với những thách thức tưởng chừng không thể vượt qua, nhưng lại tìm được cách liên minh, và học cách sử dụng khôn ngoan các nguồn lực có hạn và quý giá. Chính điều này khiến khán giả muốn cổ vũ cho người anh hùng. Đây cũng là lý do DeepSeek giành được những người theo dõi, sự tôn trọng toàn cầu và cả những kẻ phản đối.
Như tôi sẽ giải thích chi tiết dưới đây, DeepSeek đã đi trên con đường này từ lâu, và dần dần khám phá ra số phận tối thượng của mình: Mục tiêu của nó không phải là bán gói đăng ký lập trình, mà là thúc đẩy một hệ sinh thái phần cứng AI Trung Quốc trị giá 10 nghìn tỷ đô la, và để bản thân đạt được mức định giá 1 nghìn tỷ đô la. Trong quá trình này, nó cũng sẽ tạo ra cơ hội cho nhiều tân binh trong hệ sinh thái phần cứng phương Tây.
Hãy Bắt Đầu Với Một Số Tính Toán KV Cache Thú Vị
Hãy xem bài tweet rất kịp thời gần đây của @SemiAnalysis_ :
DeepSeek đã giải quyết vấn đề này tốt hơn bất kỳ ai!
Trước tiên hãy làm một vài phép tính KV Cache thú vị. Đừng lo, ngay cả khi bạn không thích toán học cũng không sao. Chúng tôi sẽ sử dụng máy tính KV Cache mới được phát hành gần đây, để xem DeepSeek V4 Pro có thể tiết kiệm được bao nhiêu KV Cache, và so sánh nó với các mô hình GLM và Qwen mới nhất.
Tôi tính với độ dài ngữ cảnh 1 triệu token, giả định độ chính xác KV là 8 bit, độ chính xác bộ lập chỉ mục là 16 bit. Bạn cũng có thể tự mở máy tính này ra thử: https://kvcache.ai/tools/kv-cache-calculator/
Bạn cũng có thể tự mở máy tính ra thử!
Ở độ dài ngữ cảnh 1 triệu token:
·DeepSeek V4 chỉ cần 5.48GB HBM;
·GLM-5 cần 60GB HBM;
·Qwen3-235B-A22B thì cần tới 89GB HBM.
Cần lưu ý:
·DeepSeek là một mô hình 1,6 nghìn tỷ tham số;
·GLM-5 vào khoảng 700 tỷ tham số, và đã sử dụng MLA và DSA của DeepSeek, tuy nhiên chưa sử dụng cơ chế chú ý nén mới nhất;
·Qwen3-235B-A22B vào khoảng 235 tỷ tham số, sử dụng cơ chế chú ý GQA.
DeepSeek đã có những đóng góp cơ bản trong việc giảm áp lực bộ nhớ. Nếu những đổi mới kiểu này được áp dụng rộng rãi, chi phí vận hành Agent chu kỳ dài sẽ giảm đáng kể, và mở khóa loạt ứng dụng mới tiếp theo.
So sánh chiếm dụng KV Cache với độ dài ngữ cảnh 1 triệu Token và quy mô mô hình
Phương Pháp Luận Đằng Sau Sự "Điên Rồ"
KV Cache có dung lượng nhỏ đến vậy, đồng thời không hy sinh chất lượng mô hình, chính là lý do DeepSeek có thể cung cấp bộ nhớ đệm dài hạn với giá cực thấp – giá của nó thậm chí chưa bằng 3% giá khi cache trúng của Sonnet 4.6, và DeepSeek có thể giữ cache trong vài giờ.
Đối với các tác vụ chu kỳ dài, KV Cache nhỏ hơn có nghĩa là có thể dỡ nó xuống SSD một cách kinh tế hơn, và tải lại khi cần. Bằng cách này, sẽ giảm sự phụ thuộc vào HBM. Nhìn từ góc độ ngành công nghiệp phần cứng AI Trung Quốc, HBM không chỉ nguồn cung khan hiếm, mà còn là loại bộ nhớ khó sản xuất nhất.
Ngoài ra, DeepSeek còn phát triển công nghệ tải KV Cache từ SSD nhanh hơn, điểm này đã được mô tả trong bài báo Dual Path của họ.
DeepSeek V4 nén KV Cache đến mức thậm chí bước này có thể không còn cần thiết nữa.
Vậy, Ai Là Người Hưởng Lợi Trực Tiếp Nhất Từ Việc Nén KV Cache?
Ai đang cung cấp SSD quy mô lớn? Đừng quên, YMTC (Yangtze Memory Technologies Co.) đang trở thành gã khổng lồ trong lĩnh vực 3D NAND. NAND có thể giúp DeepSeek tránh tính toán lại KV. Ngược lại, DeepSeek cũng tạo ra một thị trường khổng lồ cho NAND và SSD – điều này sẽ không chỉ có lợi cho Yangtze Memory, mà còn cho các nhà sản xuất liên quan khác.
Tuy nhiên, điều này không chỉ liên quan đến NAND và SSD.
Bộ nhớ LPDDR cũng có tiềm năng to lớn. Nó có thể là nơi lưu trữ trọng số mô hình, và truyền trọng số này theo luồng vào HBM khi cần, từ đó giảm áp lực nhu cầu đối với HBM. Đội SGLang đã xuất bản một bài blog hay để giới thiệu về giải pháp này. Hình ảnh dưới đây minh họa cách thức hoạt động của giải pháp.
Mặc dù DeepSeek không có thiết kế đặc biệt nào dành riêng cho giải pháp này, nhưng kiến trúc MoE, bản thân có nhiều mô hình chuyên gia, và đặc tính trọng số 4 bit của nó, đều khiến giải pháp này dễ triển khai hơn.
Sơ đồ này minh họa cách bộ nhớ có thể được sử dụng, và cách trọng số mô hình được truyền từ LPDDR vào HBM. Rất khuyến khích mọi người đọc bài blog của SGLang.
Sự đổi mới này nếu kết hợp với KV Cache cực kỳ nhỏ gọn và không mất mát, sẽ giảm đáng kể nhu cầu về HBM.
Vậy, ở Trung Quốc ai đang sản xuất LPDDR? Câu trả lời là CXMT, tức ChangXin Memory Technologies. Về tốc độ LPDDR, họ chỉ tụt hậu khoảng nửa thế hệ, về mật độ thì tụt hậu một thế hệ, khoảng cách không quá lớn.
Bên cạnh nguồn cung NAND dồi dào, hệ sinh thái AI Trung Quốc trong tương lai gần, cũng sẽ có nguồn cung LPDDR dồi dào. Điều này có thể giảm áp lực tính toán không? Câu trả lời là: Có. Hãy tiếp tục xem.
Sử Dụng Bộ Nhớ Thông Minh Cũng Có Thể Giảm Áp Lực Cho GPU / ASIC
Tác dụng của việc sử dụng NAND để lưu KV Cache thực ra rất dễ hiểu: Nó có thể giữ KV Cache lâu hơn, giảm áp lực lên HBM, đồng thời tránh tính toán lại KV Cache, từ đó giảm gánh nặng tính toán cho GPU và ASIC.
Vậy LPDDR có thể hoạt động theo cách tương tự không? Ngoài việc là một vị trí lưu trữ có thể truyền trọng số "theo nhu cầu tức thời" vào HBM, nó có thể giảm thêm áp lực tính toán không?
Câu trả lời là: Có.
LPDDR có thể dùng để lưu trữ một lượng lớn nội dung được gọi là Engram. Trong bài báo Engram của DeepSeek, họ chỉ ra rằng, MoE có thể mở rộng dung lượng mô hình thông qua tính toán có điều kiện, nhưng bản thân Transformer thiếu một cơ chế "tìm kiếm kiến thức" gốc. Do đó, Transformer thường phải mô phỏng quá trình truy xuất một cách kém hiệu quả thông qua tính toán.
Để giải quyết vấn đề này, DeepSeek đề xuất mô-đun Engram. Nó hiện đại hóa classic N-gram embedding, cải tạo thành một cơ chế tìm kiếm dựa trên băm O(1), từ đó tạo ra một con đường thưa thớt bổ sung mà họ gọi là bộ nhớ có điều kiện (conditional memory).
Cách này có thể tiết kiệm tính toán, nhưng cũng cần bộ nhớ để chứa bảng embedding, và bản thân bảng này có thể rất lớn.
Về bản chất, đây là một giải pháp điển hình "đổi bộ nhớ lấy tính toán". Nhưng điểm mấu chốt nhận ra là: Xét về chi phí đọc mỗi bit dữ liệu, phía "bộ nhớ" rẻ hơn nhiều – một lần tra cứu LPDDR, rẻ hơn rất nhiều so với việc để dữ liệu đi qua đầy đủ nhiều lớp Transformer để tính toán một lần truyền thẳng. Do đó, ở quy mô lớn, đây là một sự đánh đổi rất có lợi.
Đây là cách DeepSeek hy sinh một phần bộ nhớ để đổi lấy việc tiết kiệm tính toán.
Sự đánh đổi đáng giá
Do không có mật độ transistor chip ngang bằng, cũng không có EUV, GPU và ASIC Trung Quốc về sức mạnh tính toán FLOPs thô, rất có thể sẽ tụt hậu so với GPU phương Tây trong thời gian dài. Họ cũng vẫn có khoảng cách rõ rệt trong lĩnh vực đóng gói tiên tiến. Vì vậy, loại đánh đổi này rất đáng làm, đặc biệt trong điều kiện Trung Quốc có thể sản xuất hàng loạt bộ nhớ NAND và LPDDR.
Nhìn Lại Chiến Lược Dài Hạn Của DeepSeek
Từ những đổi mới này, mục tiêu của DeepSeek dường như không phải là kiếm lợi nhuận vài tỷ đô la trước mắt. Nhiều lựa chọn họ đưa ra trong quá khứ đã chứng minh điều này: Đến nay vẫn chưa có đa phương thức, không có mô hình giọng nói, mô hình video thì càng không.
Thứ họ thực sự tham gia, là một trò chơi dài hạn kiên nhẫn, có quy mô có thể lên tới 10 nghìn tỷ đô la: Thúc đẩy sự hình thành của một hệ sinh thái phần cứng AI thay thế.
Điều này không chỉ để các nhà sản xuất bộ nhớ Trung Quốc trở thành những người chơi chủ chốt trong thị trường phần cứng AI Trung Quốc và toàn cầu, mà còn để về cơ bản giảm nhu cầu tài nguyên, khiến việc huấn luyện và phục vụ mô hình AI trở nên hiệu quả hơn về chi phí. Bằng cách này, nhiều nhà sản xuất GPU, ASIC, cũng như các nhà sản xuất chip mạng, đều có cơ hội trở thành lựa chọn khả thi.
Đồng thời, những đổi mới này cũng sẽ mang lại lợi ích cho hệ sinh thái mã nguồn mở phương Tây, và các nhà sản xuất phần cứng thế hệ mới.
Tất cả các dấu hiệu thực ra đã xuất hiện. Chúng ta hãy xem xét chi tiết những đổi mới mà DeepSeek đã đề xuất cho đến nay:
1. Mô hình Hỗn hợp Chuyên gia (MoE) và MLA được giới thiệu trong DeepSeek V2
DeepSeek giới thiệu MoE và MLA trong V2. MoE giúp giảm khoảng 40% đến 50% lượng tính toán cần thiết để huấn luyện mô hình thông minh cao; MLA thì giúp giảm KV Cache 90%.
Điều này khiến việc dỡ KV Cache xuống SSD trở nên khá hiệu quả.
Những ý tưởng này lần đầu xuất hiện trong bài báo DeepSeek V2 do DeepSeek phát hành vào tháng 5 năm 2024. Sau đó, chúng cũng đặt nền móng cho việc huấn luyện DeepSeek V3. Khi đó, DeepSeek chỉ sử dụng 2048 GPU H800 bị làm suy yếu hiệu năng, đã huấn luyện được một hệ thống có hiệu suất gần bằng mô hình mã đóng.
2. DSA: Được giới thiệu trong DeepSeek V3.2 Exp, dùng để giảm chi phí tính toán trong các tình huống ngữ cảnh dài, đồng thời giảm áp lực băng thông HBM.
Tác dụng cốt lõi của DSA, là đảm bảo khối lượng tính toán không tăng liên tục theo sự gia tăng của độ dài ngữ cảnh. Có thể xem biểu đồ dưới đây: Khi độ dài ngữ cảnh tăng, thời gian xử lý của DeepSeek-V3.2 về cơ bản vẫn ổn định.
3. mHC: DeepSeek đề xuất vào tháng 12 năm 2025 trong bài báo "mHC: Manifold-Constrained Hyper-Connections".
mHC là một đổi mới về kiến trúc vĩ mô của DeepSeek, nó thiết kế lại cách thông tin lưu chuyển giữa các lớp Transformer.
Trước đây, từ ResNet trở đi, mô hình thường sử dụng kết nối dư chuẩn, tức là x + F(x). Cách làm của mHC, là mở rộng luồng dư thành nhiều kênh thông tin song song, và cho phép mô hình trộn có thể học được giữa các kênh này. Điểm mấu chốt, nó sẽ ràng buộc ma trận trộn thành ma trận hai ngẫu nhiên, tức là thông qua phép chiếu Sinkhorn-Knopp để giới hạn nó trên đa diện Birkhoff. Bằng cách này, về mặt toán học có thể đảm bảo, cho dù mô hình xếp chồng sâu đến đâu, biên độ tín hiệu đều có thể duy trì ổn định.
Điều này giải quyết vấn đề mất ổn định thảm khốc mà các Hyper-Connections không ràng buộc trước đây phải đối mặt. Hyper-Connections ban đầu được ByteDance đề xuất, nhưng trong điều kiện không ràng buộc, sự khuếch đại tín hiệu ở quy mô 27 tỷ tham số đã tăng vọt lên 3000 lần, cuối cùng dẫn đến huấn luyện sụp đổ hoàn toàn.
Chi phí tính toán của mHC rất thấp: Nó chỉ mang lại khoảng 6,7% chi phí thời gian huấn luyện thực tế, bởi vì nó không thay đổi FLOPs của lớp chú ý hay lớp FFN, mà chỉ thay đổi cách định tuyến đầu ra của các lớp này giữa các lớp.
Nhưng hiệu suất mà nó mang lại khá rõ ràng: Ở quy mô 27 tỷ tham số, mHC nâng điểm 7,2 trên tác vụ suy luận BIG-Bench Hard, 3,2 điểm trên DROP, 2,8 điểm trên tác vụ toán GSM8K, 1,4 điểm trên tác vụ kiến thức chung MMLU. Và những cải thiện này đều đạt được ở cùng quy mô mô hình, với ngân sách tính toán gần như tương tự.
Về bản chất, mHC thông qua việc cung cấp cho mạng lưới một cấu trúc liên kết định tuyến thông tin xuyên lớp phong phú hơn, biểu đạt hơn, đã đạt được trí thông minh trên mỗi tham số cao hơn trong khi hầu như không tăng thêm FLOPs.
mHC là một thiết kế kiến trúc phức tạp, nhưng nó có thể mang lại quá trình huấn luyện ổn định hơn, và trí thông minh trên mỗi tham số cao hơn.
4. CSA, HSA: DeepSeek giới thiệu trong V4 vào tháng 4 năm 2026.
Mục tiêu của CSA và HSA, là thông qua nén KV Token, giảm thêm 90% nhu cầu KV Cache, đồng thời giảm đáng kể FLOPs cần thiết, từ đó giảm áp lực đồng thời cho HBM cũng như GPU / ASIC.
5. Engram: DeepSeek giới thiệu vào Quý I năm 2026, về bản chất là ở một mức độ nào đó sử dụng bộ nhớ, tức là bộ nhớ LPDDR, để đổi lấy hiệu quả tính toán.
Như biểu đồ chi tiết bên dưới cho thấy, trong ngân sách tổng tham số tương tự, Engram mang lại sự cải thiện hiệu suất rõ ràng.
6. Engram: DeepSeek giới thiệu vào Quý I năm 2026, về bản chất là ở một mức độ nào đó sử dụng bộ nhớ, tức là bộ nhớ LPDDR, để đổi lấy hiệu quả tính toán.
Như biểu đồ chi tiết bên dưới cho thấy, trong ngân sách tổng tham số tương tự, Engram mang lại sự cải thiện hiệu suất rõ ràng.
Đây là đề xuất mà DeepSeek chia sẻ cho các nhà sản xuất phần cứng trong bài báo V4. Tôi chắc chắn rằng, trong giao tiếp ngoại tuyến, phản hồi họ đưa ra còn nhiều hơn.
7. Sự đầu tư vào TileLang, cũng hướng đến cùng một hướng: DeepSeek không chỉ giải quyết điểm nghẽn tính toán của riêng mình, mà còn thúc đẩy hệ sinh thái phần cứng Trung Quốc có khả năng cạnh tranh với hệ sinh thái phương Tây.
Với TileLang, nhà phát triển có thể chỉ viết kernel một lần, tức là mã cấp thấp dùng để tính toán, sau đó để nó chạy thành công trên nhiều nền tảng phần cứng, với điều kiện các nền tảng này đã có hỗ trợ backend TileLang tương ứng.
Tôi dự đoán, các phòng thí nghiệm AI Trung Quốc khác cũng sẽ lần lượt tham gia. Điều này sẽ giúp các nhà sản xuất phần cứng Trung Quốc đối phó với cái gọi là "hào sâu bảo vệ CUDA" một cách gián tiếp. Đồng thời, nó cũng sẽ giải phóng tiềm năng của nhiều phần cứng phương Tây hơn, như AMD.
Cần lưu ý: Nhiều nền tảng phần cứng AI Trung Quốc đã cung cấp khả năng tương thích CUDA, hoặc lớp chuyển dịch CUDA. Ví dụ, Moore Thread, MetaX, Biren và Iluvatar Core, đều là những nhà sản xuất chip Trung Quốc đạt độ tương thích CUDA cao thông qua lớp chuyển dịch. Do đó về lý thuyết, họ không nhất thiết cần TileLang.
Học Tăng Cường Quy Mô Lớn Và RSI
Khi DeepSeek có thêm nguồn tính toán, tức là phần cứng lựa chọn tăng lên, đồng thời nhu cầu tài nguyên tính toán của chính mô hình giảm xuống, nó sẽ có thể thúc đẩy các dự án huấn luyện đầy tham vọng hơn, đặc biệt là huấn luyện hậu học tăng cường.
Học tăng cường cần tạo ra một lượng lớn quỹ đạo, tức là tạo ra hàng nghìn tỷ Token. Quá trình này sẽ nhanh chóng trở nên cực kỳ tốn kém. Hơn nữa, nếu muốn huấn luyện mô hình độ dài ngữ cảnh 1 triệu, cần tạo ra quỹ đạo cùng độ dài. Chỉ khi huấn luyện mô hình trên những quỹ đạo siêu dài như vậy, mới thực sự hỗ trợ được các tác vụ chu kỳ dài.
Ngoài ra, do các tùy chọn phần cứng tăng lên, tài nguyên phần cứng mà DeepSeek có thể gọi cũng sẽ nhiều hơn, điều này sẽ thúc đẩy nghiên cứu tự động hóa, tức là RSI. RSI đề cập đến việc AI tự thiết kế và thực hiện thí nghiệm. Phương pháp này sẽ liên quan đến nhiều lần thử sai, và chi phí cũng sẽ tăng nhanh. Nhưng RSI lại rất quan trọng để khám phá không gian thiết kế mô hình hoàn chỉnh. Trước khi tiến đến AGI, và sau đó là ASI, DeepSeek phải có khả năng RSI.
Việc DeepSeek Làm Hôm Nay, Cả Ngành Sẽ Đuổi Theo Ngày Mai
Những đổi mới của DeepSeek xoay quanh Mô hình Hỗn hợp Chuyên gia, MLA, DSA, đã lần lượt được các phòng thí nghiệm AI khác trên toàn cầu và Trung Quốc áp dụng.
Ví dụ, ZAI, đơn vị phát triển dòng mô hình GLM, đã sử dụng MLA và DSA. Kimi, tức Moonshot, cũng sử dụng MLA, và không ngần ngại nói rằng, kiến trúc của họ dựa trên thiết kế kiến trúc DeepSeek. Ngược lại, DeepSeek cũng sử dụng bộ tối ưu hóa Muon, và Muon ban đầu được Kimi (Moonshot) sử dụng trong huấn luyện quy mô lớn.
Cần lưu ý:
MoE ban đầu được Google đề xuất vào năm 2017, tác giả chính là Noam Shazeer. Đóng góp của DeepSeek nằm ở việc ứng dụng MoE quy mô lớn, và phát minh ra các kỹ thuật hỗ trợ riêng của mình.
Muon, tức bộ tối ưu hóa MomentUm Orthogonalized by Newton-Schulz, do nhà nghiên cứu máy học Keller Jordan đề xuất vào cuối năm 2024. Đội Kimi (Moonshot) là đội đầu tiên sử dụng nó cho huấn luyện quy mô lớn.
Vậy Vấn Đề Kiếm Tiền Thì Sao?
Chúng ta có thể xem ví dụ thú vị về OpenAI.
OpenAI đã nhận được chứng quyền / quyền chọn mua cổ phiếu AMD và Cerebras với giá thấp hơn, các quyền lợi này được gắn với cột mốc tiêu thụ tính toán của họ. Đối với AMD và Cerebras, đây là một thỏa thuận rất có lợi. Bởi vì một khi OpenAI cam kết sử dụng phần cứng của họ, khả năng thành công lâu dài của họ sẽ tăng lên đáng kể.
Có một đoạn trong thông báo của AMD như sau:
"Như một phần của thỏa thuận, để hài hòa hơn nữa lợi ích chiến lược của cả hai bên, AMD đã phát hành cho OpenAI chứng quyền có thể mua tối đa 160 triệu cổ phiếu phổ thông của AMD, và sẽ dần dần thuộc về dựa trên việc đạt được các cột mốc cụ thể. Lô đầu tiên sẽ thuộc về khi triển khai 1 gigawatt ban đầu hoàn thành, các lô tiếp theo sẽ dần thuộc về khi quy mô mua mở rộng lên 6 gigawatt. Các điều kiện thuộc về cũng liên quan đến việc AMD đạt được các mục tiêu giá cổ phiếu cụ thể, và OpenAI đạt được các cột mốc công nghệ và thương mại cần thiết để AMD triển khai quy mô lớn."
Tôi dự đoán, DeepSeek cũng sẽ đạt được các thỏa thuận tương tự với nhiều nhà sản xuất bộ nhớ, ASIC, CPU và chồng công nghệ mạng Trung Quốc, và hợp tác sâu với họ, để chồng phần cứng của các nhà sản xuất này có thể đảm nhận được khối lượng công việc AI hàng đầu.
Xem xét tổng vốn hóa thị trường cổ phiếu AI của tất cả các nước phương Tây, bao gồm cả đồng minh Đông Á, đã vượt xa 10 nghìn tỷ đô la, cách thức "nhận lại phần thưởng cổ phần thông qua hợp tác" này, sẽ cho DeepSeek cơ hội giúp Trung Quốc xây dựng một ngành công nghiệp khổng lồ tương tự, và chia phần bánh của riêng mình trong đó, cuối cùng đạt được mức định giá 1 nghìn tỷ đô la cho chính mình.
Điều này sẽ không chỉ giúp DeepSeek kiếm được nhiều tiền hơn rất nhiều so với kinh doanh đăng ký ứng dụng truyền thống, đồng thời cũng có thể đạt được mục tiêu mà họ nói là "khiến AGI mang lại lợi ích cho mọi người". Lương Văn Phong là một fan trung thành của Jim Simons, cũng là một người chơi vốn đủ thông minh, ông không thể bỏ lỡ điểm này.
Nếu bạn nhìn lại tất cả những gì DeepSeek đã làm cho đến nay, chỉ có một cách giải thích này là hợp lý nhất.
Đây là những cổ phiếu AI quan trọng. Trong hình chưa bao gồm các hyperscalers, tức các nhà cung cấp dịch vụ đám mây siêu quy mô lớn, và nhiều công ty liên quan khác.
Liên kết gốc




























