Tác giả | Công xưởng Mô hình Thế giới
DeepSeek V4, một lần nữa làm cả Trung Quốc chấn động.
Quy mô tham số, độ dài ngữ cảnh, điểm số benchmark... những chỉ số kỹ thuật này đã được so sánh nhiều lần trong các báo cáo.
Nhưng nếu chỉ dừng lại ở những con số bề ngoài, bạn sẽ bỏ lõ mấu chốt chiến lược quan trọng nhất của lần ra mắt này.
Ba năm qua, các mô hình lớn của Trung Quốc luôn mắc kẹt trong một thực tế khó xử: huấn luyện dựa vào Nvidia, suy luận cũng dựa vào Nvidia, chip nội địa chỉ là phương án dự phòng.
Chỉ cần Nvidia ngừng cung cấp, toàn bộ giới mô hình Trung Quốc sẽ phải lo lắng.
Nhưng hôm nay, DeepSeek V4 đã chứng minh bằng thực lực:
Một mô hình lớn hàng đầu với tham số nghìn tỷ, cũng có thể chạy ổn định và hiệu quả trên nền tảng tính toán nội địa.
Ý nghĩa của việc này đã vượt xa bản thân các chỉ số kỹ thuật của mô hình.
Đột phá trong việc nội địa hóa
Để thực sự hiểu được khó khăn của việc thích ứng với nền tảng nội địa lần này, trước tiên phải hiểu đế chế chip của Nvidia.
Nvidia sở hữu không chỉ là chip, mà là một hệ sinh thái hoàn chỉnh, khép kín và cao cấp:
Về phần cứng, có họ chip GPU, cùng với NVLink, NVSwitch để thực hiện mạng tốc độ cao kết nối giữa các chip;
Về phần mềm, CUDA là hệ điều hành AI được Nvidia xây dựng cẩn thận trong hơn mười năm.
Nó giống như một nhà máy được tối ưu hóa cao, từ các toán tử cơ bản (đơn vị tính toán cơ bản của mô hình), đến tính toán song song, quản lý bộ nhớ, truyền thông phân tán, toàn bộ chuỗi đều được thiết kế riêng cho GPU của Nvidia.
Nói cách khác, Nvidia không chỉ bán động cơ, mà còn xây dựng cả con đường, trạm xăng, xưởng sửa chữa và hệ thống dẫn đường.
Hầu hết các mô hình lớn hàng đầu toàn cầu đều phát triển trên hệ sinh thái này.
Chuyển sang nền tảng tính toán nội địa, phải đối mặt với một tình huống hoàn toàn khác.
Kiến trúc phần cứng khác, cách thức kết nối khác, độ trưởng thành của ngăn xếp phần mềm khác, hệ sinh thái công cụ vẫn đang nhanh chóng đuổi theo.
Việc DeepSeek muốn thích ứng với chip nội địa, hoàn toàn không đơn giản là thay một động cơ, mà là chuyển một chiếc xe đang chạy tốc độ cao trên đường cao tốc, sang một con đường đồi núi vẫn đang được lát.
Chỉ cần sơ suất nhỏ, sẽ xuất hiện rung lắc, mất tốc độ, thậm chí cả chiếc xe không thể tiến lên.
Lần này, DeepSeek V4 không chọn tiếp tục tối ưu hóa chỉ theo con đường CUDA, mà bắt đầu đồng thời bước vào chuỗi thích ứng ngăn xếp phần mềm của nền tảng tính toán nội địa.
Từ thông tin công khai, V4 đã đạt được đột phá dựa trên chip suy luận nội địa, thích ứng sâu với chip Huawei Ascend 950, chip Cambricon cũng có thể chạy ổn định vào ngày công bố mô hình, thực sự đạt được thích ứng Day 0.
Điều này có nghĩa, các mô hình tiên tiến bắt đầu có khả năng triển khai trong hệ thống chip nội địa.
DeepSeek V4 đã làm được điều đó như thế nào?
Bước đầu tiên, xảy ra ở tầng kiến trúc mô hình.
V4 không chọn để chip nội địa gồng gánh ngữ cảnh 1M, mà trước tiên làm cho bản thân mô hình trở nên tiết kiệm hơn.
Thiết kế then chốt trong báo cáo kỹ thuật chính thức, là cơ chế chú ý hỗn hợp CSA + HCA, và tối ưu hóa ngữ cảnh dài như nén KV Cache.
Nói đơn giản, suy luận ngữ cảnh dài truyền thống, là để mô hình mỗi lần trả lời câu hỏi, đều trải ra cả một thư viện để lật, bộ nhớ, băng thông và năng lực tính toán sẽ nhanh chóng bị chiếm hết.
Cách làm của V4, là trước tiên lập chỉ mục lại, nén và lọc tài liệu trong thư viện, chỉ đưa thông tin quan trọng nhất vào chuỗi tính toán.
Bằng cách này, ngữ cảnh 1M không còn hoàn toàn phụ thuộc vào sức mạnh cứng của phần cứng, mà trước tiên thông qua thuật toán để giảm bớt chi phí tính toán và bộ nhớ.
Điều này rất quan trọng đối với chip nội địa.
Nếu mô hình vẫn phụ thuộc cao vào băng thông bộ nhớ và thư viện CUDA trưởng thành, chip nội địa dù có chạy được, cũng khó chạy rẻ, chạy ổn.
V4 trước tiên giảm tải suy luận, về bản chất là giảm áp cho nền tảng tính toán nội địa.
Bước thứ hai, xảy ra ở kiến trúc MoE và tầng tham số kích hoạt.
V4-Pro dù tổng tham số đạt 1.6 nghìn tỷ, nhưng mỗi lần suy luận chỉ kích hoạt khoảng 49 tỷ tham số; V4-Flash tổng tham số 284 tỷ, mỗi lần kích hoạt khoảng 13 tỷ tham số.
Điều này có nghĩa nó không phải mỗi lần gọi đều kéo toàn bộ tham số ra tính toán, mà giống như một đội ngũ chuyên gia lớn, nhiệm vụ đến chỉ gọi chuyên gia liên quan lên sân.
Đối với chip nội địa, điều này cũng quan trọng.
Nó giảm áp lực tính toán phải chịu mỗi lần suy luận, cũng làm cho các ngữ cảnh dài và kịch bản Agent dễ dàng được card suy luận đảm nhận hơn.
Bước thứ ba, là thích ứng ở tầng toán tử và Kernel.
Điểm mạnh của hệ sinh thái CUDA, là rất nhiều tính toán cơ bản đã được Nvidia mài dũa trưởng thành, nhiều tính toán hiệu suất cao có thể gọi trực tiếp.
Ý nghĩa của V4 nằm ở chỗ, nó rút một phần tính toán then chốt từ hộp đen của Nvidia ra, biến thành con đường tính toán tùy chỉnh có thể di chuyển, thích ứng hơn.
Nói thông tục một chút, V4 giống như tháo rời các bộ phận then chốt nhất trong động cơ, để các nhà sản xuất như Huawei Ascend, Cambricon có thể điều chỉnh lại theo cấu trúc chip của mình.
Bước thứ tư, là khung suy luận và tầng dịch vụ.
Nếu thích ứng chip nội địa chỉ dừng lại ở "chạy Demo", ý nghĩa công nghiệp không lớn. Điều đáng chú ý thực sự, là nó có thể bước vào hệ thống dịch vụ có thể gọi, có thể tính phí hay không.
Theo thử nghiệm nội bộ, trên Ascend 950PR, tốc độ suy luận của V4 so với phiên bản đầu đã đạt được cải thiện đáng kể, mức tiêu thụ năng lượng cũng giảm rõ rệt, hiệu suất đơn chip trong một số kịch bản độ chính xác thấp cụ thể đạt gấp hơn 2 lần so với H20 đặc chế của Nvidia.
DeepSeek chính thức đề cập, hiện tại V4-Pro bị hạn chế bởi năng lực tính toán cao cấp, thông lượng dịch vụ có hạn, dự kiến sau khi siêu nút Ascend 950 ra mắt hàng loạt vào nửa cuối năm, giá sẽ giảm mạnh.
Điều này cho thấy, cùng với việc phần cứng nội địa như Ascend sản xuất hàng loạt, thông lượng và tỷ lệ giá trị trên chi phí của V4 trong tương lai sẽ còn được tối ưu hóa hơn nữa.
Nhưng đáng chú ý, V4 không thay thế toàn diện GPU và CUDA của Nvidia. Huấn luyện mô hình có thể vẫn không thể tách rời Nvidia, nhưng suy luận đã có thể dần dần nội địa hóa.
Đây thực sự là con đường thương mại rất thực tế.
Huấn luyện là chi phí theo giai đoạn, huấn luyện một lần, điều chỉnh một lần, lặp lại một lần. Suy luận là chi phí liên tục, mỗi ngày triệu, tỷ người dùng gọi, mỗi lần đều tốn năng lực tính toán.
Khoản chi thực sự lớn của công ty mô hình, về lâu dài sẽ ngày càng nghiêng về suy luận. Ai có thể đáp ứng nhu cầu suy luận rẻ hơn, ổn định hơn, người đó sẽ có được lợi thế thực sự trong ứng dụng công nghiệp.
DeepSeek V4 lần đầu tiên khiến việc triển khai suy luận của mô hình tiên tiến Trung Quốc, xuất hiện một con đường không lấy CUDA của Nvidia làm tiền đề mặc định.
Bước này đã đủ có trọng lượng.
Tác động của V4 đối với ứng dụng công nghiệp
Nếu như thích ứng chip nội địa trả lời câu hỏi có chạy được hay không, thì giá cả trả lời một câu hỏi thực tế hơn:
Doanh nghiệp có dùng nổi không?
Điểm mạnh nhất của DeepSeek trong quá khứ, chính là nó có thể đè khả năng tiếp cận mô hình tiên tiến xuống mức giá cực thấp.
Thời V3, R1 là vậy, V4 vẫn vậy.
Khác biệt là, lần này nó không đánh chiến tranh giá cả trong cửa sổ ngữ cảnh thông thường, mà tiếp tục ép giá trong điều kiện tiên quyết là ngữ cảnh 1M + khả năng Agent.
Theo giá chính thức của DeepSeek:
Đầu vào trúng cache của V4-Flash là 0.2 nhân dân tệ / triệu tokens, đầu vào không trúng cache là 1 nhân dân tệ / triệu tokens, đầu ra là 2 nhân dân tệ / triệu tokens;
Đầu vào trúng cache của V4-Pro là 1 nhân dân tệ / triệu tokens, đầu vào không trúng cache là 12 nhân dân tệ / triệu tokens, đầu ra là 24 nhân dân tệ / triệu tokens.
Đặt nó vào các mô hình nội địa cùng loại để xem:
So với Alibaba Qwen3.6-Plus ở mức 256K-1M, giá đầu ra của V4-Pro khoảng bằng một nửa của nó, V4-Flash còn thấp hơn.
So với Xiaomi MiMo Pro Series ở mức 256K-1M, cả V4-Flash và V4-Pro đều rẻ hơn rõ rệt.
Ngữ cảnh của Kimi K2.6 là 256K, so với đó, ngữ cảnh của V4-Pro dài hơn, giá rẻ hơn; V4-Flash thì trực tiếp ép chi phí gọi tần suất cao xuống một cấp độ khác.
Điều này có ý nghĩa cực lớn đối với ứng dụng doanh nghiệp.
Bởi vì ngữ cảnh 1M, có nghĩa là mô hình có thể một lần đọc hết kho mã, gói hợp đồng dày, bản cáo bạch hàng trăm trang, biên bản họp dài hạn, hoặc trạng thái lịch sử tích lũy khi một Agent thực hiện nhiệm vụ liên tục.
Trước đây nhiều ứng dụng doanh nghiệp mắc kẹt ở đây, khả năng mô hình đủ, nhưng ngữ cảnh không đủ; ngữ cảnh đủ, giá lại quá đắt; giá có thể chấp nhận, khả năng mô hình lại không đủ ổn.
Ví dụ, một doanh nghiệp làm Agent nghiên cứu đầu tư, để mô hình đồng thời đọc báo cáo năm, báo cáo tài chính, cuộc gọi họp báo cáo tài chính, báo cáo ngành, tin tức đối thủ cạnh tranh và biên bản nội bộ.
Khi ngữ cảnh chỉ có 128K hoặc 256K, hệ thống thường phải liên tục cắt lát, truy xuất, tóm tắt, thông tin bị mất trong nhiều lần nén.
Ngữ cảnh 1M có thể để mô hình giữ lại nhiều tài liệu gốc hơn, giảm bỏ sót và đứt đoạn.
Lại ví dụ Agent mã.
Nó không phải viết vài dòng mã một lần, mà là đọc kho, hiểu phụ thuộc, sửa file, chạy test, sửa chữa lại theo báo lỗi. Quá trình này sẽ tiêu tốn tokens nhiều lần.
Nếu mỗi bước đều đắt, Agent chỉ có thể làm demo, nhưng nếu tokens đủ rẻ, nó mới có thể bước vào quy trình nghiên cứu phát triển thực tế.
Đây cũng là giá trị công nghiệp của V4.
Nó chưa chắc là mô hình mạnh nhất, nhưng có thể trở thành mô hình được sử dụng tần suất cao nhất của doanh nghiệp.
DeepSeek một lần nữa biến AI từ đồ chơi độc quyền của một số ít đại gia, thành công cụ sản xuất có thể triển khai quy mô hóa cho hàng ngàn ngành hàng.
Giá trị thực sự của V4
Khi ngữ cảnh 1M với giá cực thấp tiến vào tuyến đầu công nghiệp, giá trị thực sự của DeepSeek V4 mới lộ rõ.
Tất cả những điều này, được xây dựng trên nền tảng năng lực tính toán nội địa chưa trưởng thành.
Đối mặt với khoảng cách hệ thống của hệ sinh thái chip nội địa, đội ngũ DeepSeek không chọn đợi hệ sinh thái trưởng thành rồi mới lên sóng.
Họ liên tục trì hoãn cửa sổ ra mắt, đầu tư hàng tháng trời, triển khai điều chỉnh liên hợp sâu với các đối tác như Huawei, độ khó kỹ thuật như vậy, vượt xa tưởng tượng của bên ngoài.
Chính vì vậy, việc V4 đạt được năng lực suy luận và Agent gần với mô hình đóng hàng đầu trên nền tảng tính toán nội địa, càng trở nên khó khăn hơn.
V4 dùng chính mình chứng minh, dù đối mặt với khoảng cách giai đoạn của hệ sinh thái phần cứng, đội ngũ Trung Quốc vẫn có thể thông qua đầu tư kỹ thuật cực điểm và sáng tạo phối hợp phần cứng phần mềm, chạy ra hiệu suất cạnh tranh.
Tất nhiên, khoảng cách với việc hoàn toàn trưởng thành vẫn còn.
Độ hoàn thiện của chuỗi công cụ nền tảng Ascend, độ ổn định của cụm siêu quy mô lớn, và tối ưu hóa sâu cho nhiều kịch bản dọc hơn, đều cần các bên công nghiệp tiếp tục nỗ lực chung.
Nhưng thành công của V4, đã lát một con đường có thể tham khảo cho các mô hình tiếp theo.
Nó đã bơm một mũi tiêm tăng lực cho việc tự chủ tự kiểm soát của toàn bộ chuỗi cung ứng AI.
Trong bối cảnh môi trường bên ngoài đầy bất định, sự dẻo dai có thể đột phá trong hạn chế này, đáng được tôn trọng hơn các chỉ số tham số đơn thuần.
"Không bị dụ bởi danh tiếng, không sợ bị phỉ báng, đi theo đạo, ngay ngắn sửa mình".
Câu văn này từ phía chính thức DeepSeek, chính là chú thích tốt nhất cho nó.





