Văn | Khoa học kỹ thuật không được lạnh
Ngày 24 tháng 4, một chiếc giày đã rơi xuống đường đua mô hình lớn trong nước. Phiên bản xem trước DeepSeek-V4 chính thức ra mắt và đồng thời mở nguồn, trực tiếp đưa ngữ cảnh siêu dài 1M (một triệu chữ) thành cấu hình xuất xưởng của dịch vụ chính thức.
Nếu đặt vào một năm trước, khả năng xử lý văn bản dài cấp độ này vẫn là quyền lợi độc quyền được khóa sau bức tường trả phí doanh nghiệp của các hãng lớn nước ngoài. Giờ đây, nó được trải trực tiếp trên bàn của cộng đồng mã nguồn mở, trở thành cơ sở hạ tầng mà nhà phát triển có thể lấy tùy ý. Đối với những nhà phát triển thường xuyên thức khuya xử lý kho mã dài dòng hoặc hợp đồng pháp lý phức tạp, đây chắc chắn là một tin tốt.
Nhưng đằng sau sự hạ cấp công nghệ này, thông cáo chính thức đã giữ lại một câu rất kiềm chế: "Bị giới hạn bởi năng lực tính toán cao cấp, hiện tại khả năng thông lượng dịch vụ của DeepSeek-V4-Pro còn rất hạn chế".
Đối với những người đã quen nhìn các hãng nói về dự trữ năng lực tính toán trong các buổi ra mắt, sự thẳng thắn này toát lên một sự lạnh lùng hiếm thấy.
Mô hình lớn đánh vào hiệp hai, trong ngành đều rõ ai nắm bao nhiêu chip phần cứng cao cấp. Thay vì duy trì sự thịnh vượng ở cấp độ tham số, tốt hơn nên làm rõ hiện trạng ngành. Động thái lần này của DeepSeek thực chất là từ bỏ sự ám ảnh về chạy điểm số thuần túy, tìm ra một giải pháp thỏa hiệp giữa đột phá thuật toán cốt lõi, hệ sinh thái năng lực tính toán dị thể còn đang hoàn thiện trong nước và môi trường thương mại thực tế của doanh nghiệp.
Ngành công nghiệp AI Trung Quốc đang cởi bỏ lớp áo ngoài đốt tiền mù quáng thời kỳ đầu, bước vào một thời đại "sổ sách năng lực tính toán" cực kỳ thực tế.
Sổ sách năng lực tính toán bản Pro tính thế nào?
Cụ thể nhìn vào V4-Pro bị giới hạn thông lượng rõ ràng đó. Là flagship trong hệ thống, V4-Pro sở hữu tổng tham số lên tới 1.6T, nhưng khi suy luận chỉ cần kích hoạt 49B tham số. Thiết kế thưa thớt cực độ này không phải là một mô hình tủ kính chỉ để trưng bày, dưới sự kiểm tra khắt khe của dây chuyền sản xuất thực tế, nền tảng công nghệ của nó có khả năng phòng thủ cực mạnh.
Khả năng đảm nhận mã phức tạp và suy luận logic là viên đá thử vàng để kiểm tra xem mô hình lớn có thể thực sự bước vào các khâu sản xuất cốt lõi hay không. Trong môi trường đánh giá Agentic Coding (mã hóa tác nhân thông minh), biểu hiện thực chiến của V4-Pro đứng vững ở hàng đầu trong các mô hình mã nguồn mở hiện tại.
DeepSeek đã sớm kết nối nó vào đường ống mã nội bộ, biến nó thành công cụ năng suất mà các kỹ sư tuyến đầu phụ thuộc nặng. Phản hồi từ nhân viên R&D cho thấy, trải nghiệm tạo mã và sửa lỗi của nó vượt trội hơn Sonnet 4.5, trong các tình huống không cần suy nghĩ sâu đã tiếp cận Opus 4.6, nhưng vẫn có khoảng cách so với chế độ suy nghĩ của Opus 4.6.
Đằng sau biểu hiện thực chiến này là sự đào sâu cực độ của nhóm nghiên cứu vào chiều sâu thuật toán. Trong đánh giá kiến thức thế giới thử thách chất lượng làm sạch dữ liệu huấn luyện trước và mật độ kiến thức, V4-Pro dẫn đầu hầu hết các mô hình mã nguồn mở hiện có, hiện chỉ kém một chút so với mô hình đóng hàng đầu Gemini-Pro-3.1. Còn về toán, STEM (Khoa học, Công nghệ, Kỹ thuật, Toán học) và đánh giá mã kiểu thi đấu, nó đã giành được tư cách thi đấu cùng sân với các hãng lớn đóng hàng đầu thế giới.
Để có được sức chiến đấu này, rõ ràng không dựa vào việc chồng chất card năng lực tính toán đơn thuần. Các nhóm trong nước hiểu rõ, thực sự đọ dự trữ card đồ họa cao cấp là không thực tế. V4-Pro có thể xử lý ngữ cảnh siêu lớn 1M với bộ nhớ hiển thị hạn chế, sự hỗ trợ nền tảng là nhóm R&D đã tái cấu trúc sâu cơ chế chú ý. Họ đã thực hiện một phương án nén chú ý hoàn toàn mới, nén cường độ cao ở chiều token và kết hợp với công nghệ chú ý thưa DSA đặc trưng của họ (DeepSeek Sparse Attention).
Lộ trình công nghệ gốc này, cùng với thuật toán cửa sổ trượt và nén KV Cache được giới thiệu lần đầu, đã kiểm soát hiệu quả chi phí tính toán và chiếm dụng bộ nhớ do xử lý chuỗi dài mang lại. Để nhà phát triển thực sự có thể gọi khả năng của nó trong nghiệp vụ, nhóm R&D đã chuyên làm thích ứng nền tảng cho các công cụ Agent chủ lưu như Claude Code, OpenClaw.
Tài liệu kỹ thuật thậm chí chỉ rõ, khi xử lý tác vụ phức tạp, nhà phát triển có thể trực tiếp bật chế độ suy nghĩ, đặt tham số reasoning_effort thành max. Sự tối ưu hóa hệ thống cấp độ này dưới tài nguyên tính toán hạn chế, chính là chứng minh cho ngành rằng, ngay cả khi năng lực tính toán cao cấp bị giới hạn, nhóm trong nước vẫn có thể dựa vào thiết kế kiến trúc gốc để mở rộng biên giới hiệu suất của mô hình.
Lượng kích hoạt 13B đã chặn ai?
Những người chăm chú vào nút cổ chai thông lượng của bản Pro, thường bỏ qua điểm tựa thương mại ẩn sau của DeepSeek, bản Flash. Có ý kiến trong ngành cho rằng đây chỉ là sản phẩm thỏa hiệp dưới tình trạng thiếu năng lực tính toán, cách nhìn này rõ ràng đánh giá thấp sự cân nhắc dài hạn của ban quản lý. Đây là một lần chốt vị trí thực tế đối với hệ sinh thái hạ nguồn sau khi tính toán chi phí chặt chẽ.
Theo thông tin mã thích ứng được công khai, tổng tham số của bản Flash được duy trì ở mức lớn 284B, nhưng lượng tham số kích hoạt của nó bị chặn chính xác ở 13B.
13B, trong ngữ cảnh các đối thủ cố đẩy tham số lên quy mô nghìn tỷ, có vẻ không nổi bật. Nhưng điều này thể hiện logic kinh tế học của kiến trúc chuyên gia hỗn hợp (MoE) trong triển khai thương mại: tổng tham số quyết định bề rộng kiến thức của mô hình, còn tham số kích hoạt trực tiếp quyết định chi phí điện và băng thông bộ nhớ mà máy chủ cần chi trả mỗi lần gọi interface.
Ép lượng kích hoạt xuống 13B, trực tiếp tách mô hình lớn ra khỏi các trung tâm trí tuệ tính toán đắt đỏ hàng đầu. Nhu cầu về bộ nhớ hiển thị đơn card và đỉnh năng lực tính toán của nó rất kiềm chế. Kết quả kiểm tra thực tế cho thấy, bản Flash duy trì tốc độ phản hồi và tỷ lệ chính xác ổn định khi ứng phó với khối lượng lớn, tần suất cao các tác vụ đơn giản hàng ngày, năng lực suy luận thông dụng nền tảng không có sự sụt giảm rõ rệt. Đối với những nhà phát triển vừa và nhỏ và doanh nghiệp đuôi dài cần xử lý hàng nghìn hàng vạn lần gọi API mỗi ngày, đây mới là công cụ năng suất giá cả phải chăng thực sự dùng được, chạy được.
Logic ngành sâu hơn nằm ở chỗ, chip năng lực tính toán dị thể chủ lưu trong nước hiện nay, vẫn đang trong giai đoạn đuổi kịp về hiệu suất đơn card tuyệt đối. Hệ thống tính toán mang đầy đủ lượng kích hoạt rất dễ chạm tường bộ nhớ, dẫn đến hiệu suất chạy thấp; nhưng đối mặt với bản Flash chỉ có lượng kích hoạt 13B, những chip này lại có thể vận hành trơn tru ở mức tiêu thụ điện trung bình thấp.
Bước đi này của DeepSeek đã làm sống lại lượng tài nguyên năng lực tính toán trung và thấp cấp dư thừa lớn trong nước, cung cấp một bãi thử nghiệm phù hợp cao cho chip nội địa đang rất cần kịch bản triển khai. Logic xây dựng cơ sở hạ tầng hướng xuống và bao dung này, phù hợp với thực tế thương mại hiện tại hơn nhiều so với việc chỉ leo bảng xếp hạng các bài kiểm tra.
Chip nội địa có đón nhận được không?
Điều gây thảo luận rộng rãi trong ngành từ lần ra mắt này, là nhãn triển khai toàn ngăn xếp nội địa mà nó đưa ra. Trong một thời gian dài trước đây, tồn tại sự lệch pha nhất định giữa công ty thuật toán và nhà sản xuất chip nội địa: công ty mô hình lo ngại hệ sinh thái phần cứng không hoàn thiện sẽ kéo tiến độ R&D, nhà sản xuất chip thì thiếu mô hình lớn tiên phong nhất để tối ưu sâu. Lần này, thế bế tắc đã được phá vỡ về mặt thực chất.
Huawei Computing nhanh chóng lên tiếng, xác nhận toàn bộ series sản phẩm siêu nút Ascend hỗ trợ đầy đủ mô hình mới. Xét từ chi tiết kỹ thuật, chip nền tảng Ascend dựa vào kernel hợp nhất và công nghệ song song đa luồng, giảm hiệu quả chi phí tính toán của hệ thống, từ đó ổn định hiệu suất suy luận trong các tình huống văn bản dài. Cambricon cũng nhanh chóng hoàn thành thích ứng Day 0 và mở nguồn mã nền tảng, Hãi Quang DCU đồng thời tuyên bố thông suốt vòng khép kín.
Nhưng chúng ta cần vạch ra biểu tượng thịnh vượng của hệ sinh thái, xem xét sức cản thực tế khi khâu vá phần mềm phần cứng trong phòng máy. Lấy chip series Ascend 950 làm ví dụ, theo tin trong ngành, chip này có 112GB HBM tự nghiên cứu, băng thông 1.4TB/giây, tiêu thụ điện đơn card đạt 600 watt. Ở độ chính xác suy luận cụ thể (như FP4), hiệu suất đơn card của nó đã thể hiện cực mạnh, đạt 2.87 lần so với H20 của Nvidia. Nhưng trong khoảng độ chính xác huấn luyện thông dụng FP16 hoặc FP32 yêu cầu cao hơn, khoảng cách hiệu suất giữa phần cứng nội địa và Nvidia vẫn tồn tại.
Ngoài ra, cái gọi là "thích ứng Day 0", khoảng cách với vận hành không tổn thất nghiệp vụ cấp doanh nghiệp, vẫn cần vượt qua chi phí ngầm do chuỗi cung ứng không minh bạch mang lại. Tiêu chuẩn kết nối tốc độ cao của phần cứng siêu nút cực kỳ khép kín, dòng chảy của linh kiện cốt lõi giống như một hộp đen thông tin. Rào cản ở khâu mua sắm này, chắc chắn làm cho việc triển khai và bảo trì quy mô lớn hệ thống năng lực tính toán trở nên phức tạp hơn.
Đồng thời, hiện hệ thống này phụ thuộc cao vào đơn đặt hàng tập trung lớn của số ít tổ chức lớn trong nước. Sự thiếu hụt đơn hàng thị trường nước ngoài, có nghĩa là cuộc chiến đột phá năng lực tính toán này chỉ có thể đánh trong vòng tuần hoàn nội bộ. Vòng khép kín thương mại đơn nhất này, khiến hiệu suất vận hành của toàn bộ hệ thống phối hợp mềm cứng, cấp thiết cần trải qua sự tôi luyện của môi trường thương mại đa dạng hơn.
Việc leo dốc sản lượng năng lực tính toán cao cấp ăn chặt, trực tiếp dẫn đến DeepSeek thừa nhận thẳng trong thông cáo, bản Pro muốn giảm giá lớn, còn cần chờ siêu nút ra mắt hàng loạt vào nửa cuối năm. Mô hình lớn và chip nội địa thực sự đã hoàn thành khớp nối vật lý ban đầu, nhưng dưới sự chênh lệch công nghệ và ràng buộc chuỗi cung ứng, tư thế chạy vội đầy thương tích này, chính là mặt cắt sinh tồn chân thực nhất của hệ sinh thái năng lực tính toán nội địa.
Người đi rồi công nghệ có còn chạy được không?
Lùi tầm nhìn về cạnh tranh thương mại thực tế, sự ra đời của DeepSeek-V4 là một phòng thủ chiến lược cực kỳ chính xác. Nửa năm qua, tình thế của công ty này luôn ở trạng thái áp lực cao. Đường đua phía C biến thành biển đỏ, các hãng đứng đầu sử dụng lượng vốn khổng lồ để triển khai dày đặc. Dữ liệu từ QuestMobile thể hiện tình thế cạnh tranh rõ ràng: Tính đến tháng 3 năm 2026, Doubao đạt 345 triệu hoạt động hàng tháng (MAU), Qianwen 166 triệu, DeepSeek giữ vững thị phần cơ bản của mình với 127 triệu.
Cạnh tranh lưu lượng bên ngoài kịch liệt, đội ngũ kỹ thuật nội bộ cũng đối mặt với thử thách biến động. Cạnh tranh moi móc trong ngành diễn ra nóng bỏng, nhân viên nòng cốt của nhiều tuyến nghiệp vụ liên tiếp ra đi. Theo lý lịch công khai và thông tin ngành, tác giả cốt lõi của mô hình ngôn ngữ lớn thế hệ thứ nhất đã xác nhận gia nhập Tencent, người đóng góp cốt lõi V3 đi tới Xiaomi, nhà nghiên cứu cốt lõi R1 nhậm chức tại ByteDance, lực lượng cốt lõi hướng đa phương thức cũng đã xác nhận hướng đi mới. Theo tin đồn trong ngành, tác giả cốt lõi hướng OCR Ngụy Hạo Nhiên cũng đã rời đi.
Biến động của thành viên R&D cốt lõi, chắc chắn sẽ dẫn đến sự xem xét nghiêm ngặt về sức sau R&D của họ: Công ty dựa vào kỹ thuật này, khả năng đổi mới của kiến trúc nền tảng có bị ảnh hưởng không?
Ở thời điểm này, việc phát hành bản xem trước V4 trở thành sự hồi đáp trực tiếp nhất. Nó chứng minh với thị trường rằng, công ty đã thiết lập một đường ống R&D hệ thống hóa có khả năng chống chịu rủi ro. Ngay cả khi đối mặt với điều chỉnh cơ cấu nhân sự, logic tiến hóa công nghệ của nó vẫn có thể duy trì vận hành chính xác. Tính đàn hồi tổ chức dựa trên nền tảng hệ thống kỹ thuật này, nhanh chóng nhận được phản hồi tích cực từ thị trường vốn.
Gần đây, DeepSeek bị phát hiện tìm kiếm gọi vốn với định giá không thấp hơn 10 tỷ USD, kế hoạch gom tiền để bổ sung dự trữ. Theo phương tiện ngành dẫn nguồn tin gần gũi giao dịch, tin đồn thị trường dự đoán một gã khổng lồ internet đứng đầu sẽ rót vốn, hoặc sẽ đẩy cao định giá vòng này. Nếu thương vụ này cuối cùng được ký kết, sẽ viết lại kỷ lục định giá của đường đua mô hình lớn trong nước, vượt qua biểu hiện trước đó của Moon's Dark Side. Trong thời kỳ đàm phán gọi vốn then chốt, đưa ra thành quả thực chất về ngữ cảnh triệu chữ và thích ứng toàn ngăn xếp nội địa, là nước đi hợp lý của ban quản lý để ổn định cục diện chiến lược, hồi đáp nghi ngờ bên ngoài.
Viết ở cuối
Trong ngữ cảnh thương mại khoa học kỹ thuật với khái niệm thay đổi thường xuyên, các nhóm sẵn sàng tập trung vào xây dựng cơ sở hạ tầng nền tảng luôn khan hiếm. Việc phát hành DeepSeek-V4, đã xác lập một tông điệu thực tế và lạnh lùng cho cuộc cạnh tranh ở hiệp hai của mô hình lớn.
Đối mặt với nút cổ chai năng lực tính toán, họ không chọn che đậy, mà ném tình trạng cung cầu thực tế của phần cứng cao cấp nội địa cho thị trường; đối mặt với nhu cầu triển khai hạ nguồn, họ sử dụng bản Flash với lượng kích hoạt 13B, cung cấp không gian sinh tồn cho chip năng lực tính toán nội địa đang trong giai đoạn đuổi kịp; đối mặt với sự vây堵 lưu lượng bên ngoài và cạnh tranh nhân tài, họ dùng khả năng xử lý văn bản dài cụ thể để đưa ra hồi đáp ở cấp độ ngành.
Văn cổ "Tuân Tử" được trích dẫn trong ngày ra mắt của chính thức rất sâu sắc: "Không bị bởi danh tiếng dụ dỗ, không sợ bị phỉ báng, đi theo đạo mà làm, ngay ngắn sửa mình."
Mô hình có thể mở nguồn, nhưng năng lực tính toán không miễn phí. Lần này DeepSeek giao nộp, không phải là một mô hình mạnh hơn, mà là một giải pháp về cách năng lực được phân phối lại sau khi năng lực tính toán trở thành ràng buộc. Trong thực tế năng lực tính toán vẫn không hoàn hảo, đây có lẽ mới là hướng tiến hóa tiếp cận gần hơn với bản chất ngành.







