Biên soạn: Bruce
Gần đây, toàn bộ giới công nghệ và đầu tư đều đang dõi theo cùng một sự kiện: Ứng dụng AI đang "giết chết" SaaS truyền thống như thế nào. Kể từ khi @AnthropicAI trình làng Claude Cowork, cho thấy nó có thể dễ dàng giúp bạn viết email, làm PPT, phân tích bảng tính Excel, một cơn hoảng loạn về "cái chết của phần mềm" đã bắt đầu lan rộng. Điều này thực sự đáng sợ, nhưng nếu ánh nhìn của bạn chỉ dừng lại ở đây, thì có lẽ bạn đã bỏ lỡ trận động đất thực sự.
Nó giống như việc tất cả chúng ta đều ngước nhìn cuộc không chiến của những chiếc máy bay không người lái trên trời, nhưng không ai để ý rằng toàn bộ mảng lục địa dưới chân chúng ta đang âm thầm dịch chuyển. Cơn bão thực sự, ẩn giấu bên dưới mặt nước, ở một góc khuất mà đa số mọi người không nhìn thấy: nền tảng sức mạnh tính toán (compute) chống đỡ toàn bộ thế giới AI, đang trải qua một "cuộc cách mạng thầm lặng".
Và cuộc cách mạng này, có thể khiến bữa tiệc lớn do người bán xẻng AI: NVIDIA @nvidia, tổ chức một cách công phu, kết thúc sớm hơn tất cả những gì mọi người tưởng tượng.
Hai con đường cách mạng đang hội tụ
Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là sự đan xen của hai hướng công nghệ thoạt nhìn có vẻ độc lập. Chúng giống như hai cánh quân đang hợp vây, tạo thành thế gọng kìm tấn công vào quyền bá chủ GPU của NVIDIA.
Con đường thứ nhất, là cuộc cách mạng thu gọn thuật toán.
Bạn đã bao giờ nghĩ, một bộ não siêu việt khi suy nghĩ giải quyết vấn đề, có thực sự cần huy động tất cả các tế bào não không? Rõ ràng là không. DeepSeek đã hiểu ra điều này, họ tạo ra kiến trúc MoE (Mixture of Experts - Mô hình Hỗn hợp Chuyên gia).
Bạn có thể tưởng tượng nó như một công ty, trong đó có hàng trăm chuyên gia ở các lĩnh vực khác nhau. Nhưng mỗi lần họp để giải quyết vấn đề, bạn chỉ cần mời hai hoặc ba người liên quan nhất, thay vì để mọi người cùng nhau động não. Đây chính là điểm thông minh của MoE: nó cho phép một mô hình khổng lồ, mỗi lần tính toán chỉ kích hoạt một phần nhỏ các "chuyên gia", từ đó tiết kiệm đáng kể sức mạnh tính toán.
Kết quả sẽ thế nào? Mô hình DeepSeek-V2, trên danh nghĩa có 2360 tỷ "chuyên gia" (tham số), nhưng mỗi lần làm việc, chỉ cần kích hoạt 21 tỷ trong số đó, chưa đầy 9% tổng số. Trong khi đó, hiệu suất của nó lại có thể sánh ngang với GPT-4 - mô hình cần vận hành 100% công suất. Điều này có ý nghĩa gì? Năng lực của AI và lượng sức mạnh tính toán nó tiêu thụ, đã tách rời!
Trước đây, chúng ta mặc định rằng AI càng mạnh thì càng đốt nhiều card đồ họa. Bây giờ, DeepSeek cho chúng ta thấy, thông qua các thuật toán thông minh, có thể đạt được hiệu quả tương tự với chi phí chỉ bằng một phần mười. Điều này tương đương với việc trực tiếp đặt một dấu hỏi lớn lên tính chất bắt buộc phải có của GPU NVIDIA.
Con đường thứ hai, là cuộc cách mạng "đổi đường" của phần cứng.
AI làm việc chia thành hai giai đoạn: huấn luyện (training) và suy luận (inference). Huấn luyện giống như đi học, cần đọc vạn quyển sách, lúc này GPU - loại card tính toán song song "dùng sức mạnh để tạo kỳ tích" - quả thực rất hữu dụng. Nhưng suy luận giống như việc chúng ta sử dụng AI hàng ngày, coi trọng tốc độ phản hồi hơn.
GPU khi suy luận có một khuyết điểm bẩm sinh: bộ nhớ của nó (HBM) là gắn ngoài, dữ liệu đi qua đi lại có độ trễ. Nó giống như một đầu bếp, nguyên liệu đều để trong tủ lạnh ở phòng bên cạnh, mỗi lần nấu ăn đều phải chạy qua lấy, dù nhanh đến mấy cũng không thể nhanh được. Và các công ty như Cerebras, Groq đã mở một con đường khác, thiết kế các chip suy luận chuyên dụng, hàn trực tiếp bộ nhớ (SRAM) lên chip, nguyên liệu để ngay bên cạnh, đạt được khả năng truy cập "không độ trễ".
Thị trường đã bỏ phiếu bằng tiền thật. OpenAI một mặt phàn nàn GPU của NVIDIA suy luận không tốt, mặt khác ngoảnh đầu lại ký một hợp đồng lớn trị giá 100 tỷ USD với Cerebras, chuyên thuê dịch vụ suy luận của họ. Bản thân NVIDIA cũng hoảng loạn, ngay lập tức bỏ ra 200 tỷ USD để mua lại Groq, chính là để không bị tụt lại phía sau trong đường đua mới này.
Khi hai con đường hội tụ: Tuyết lở chi phí
Được rồi, bây giờ chúng ta đặt hai điều này cùng nhau: sử dụng mô hình DeepSeek đã được "thu gọn" về mặt thuật toán, chạy trên một chip Cerebras "không độ trễ" về phần cứng.
Chuyện gì sẽ xảy ra?
Một trận tuyết lở về chi phí.
Đầu tiên, mô hình sau khi thu gọn rất nhỏ, có thể một lần nạp toàn bộ vào bộ nhớ đi kèm chip. Thứ hai, không có nút thắt cổ chai từ bộ nhớ ngoài, tốc độ phản ứng của AI sẽ nhanh đến kinh ngạc. Kết quả cuối cùng là: chi phí huấn luyện giảm 90% nhờ kiến trúc MoE, chi phí suy luận giảm thêm một bậc độ lớn nữa nhờ phần cứng chuyên dụng và tính toán thưa thớt (sparse computing). Tính ra, tổng chi phí để sở hữu và vận hành một AI đẳng cấp thế giới, có thể chỉ bằng 10%-15% so với giải pháp GPU truyền thống.
Đây không phải là cải tiến, đây là sự chuyển đổi mô hình (paradigm shift).
Ngai vàng của NVIDIA, đang bị âm thầm rút tấm thảm
Bây giờ bạn nên hiểu, tại sao điều này lại nghiêm trọng hơn "nỗi hoảng loạn Cowork".
Giá trị thị trường hàng nghìn tỷ USD của NVIDIA ngày nay, được xây dựng trên một câu chuyện đơn giản: AI là tương lai, và tương lai của AI phải dựa vào GPU của tôi. Nhưng bây giờ, nền tảng của câu chuyện này đang bị lung lay.
Ở thị trường huấn luyện, ngay cả khi NVIDIA tiếp tục độc quyền, nhưng nếu khách hàng chỉ cần dùng một phần mười số card để làm việc, thì quy mô tổng thể của thị trường này cũng có thể bị thu hẹp đáng kể.
Ở thị trường suy luận, chiếc bánh lớn gấp mười lần thị trường huấn luyện, NVIDIA không chỉ không có lợi thế tuyệt đối, mà còn phải đối mặt với sự vây ráp của các cao thủ từ nhiều nơi như Google, Cerebras. Ngay cả khách hàng lớn nhất của họ là OpenAI cũng đang "phản bội".
Một khi Phố Wall nhận ra rằng, "cái xẻng" của NVIDIA không còn là lựa chọn duy nhất, thậm chí không phải là lựa chọn tốt nhất, thì định giá được xây dựng trên kỳ vọng "độc quyền vĩnh viễn", sẽ xảy ra chuyện gì? Tôi nghĩ mọi người đều rõ.
Vì vậy, con thiên nga đen lớn nhất trong nửa năm tới, có thể không phải là ứng dụng AI nào lại tiêu diệt ai, mà là một tin tức công nghệ thoạt nhìn có vẻ không đáng chú ý: chẳng hạn như một bài báo mới về hiệu quả thuật toán MoE, hoặc một báo cáo cho thấy thị phần của chip suy luận chuyên dụng tăng mạnh, âm thầm tuyên bố cuộc chiến sức mạnh tính toán bước vào giai đoạn mới.
Khi cái xẻng của "người bán xẻng" không còn là lựa chọn duy nhất, thì thời kỳ hoàng kim thuộc về anh ta, có lẽ cũng sẽ kết thúc.