Tác giả: Bruce
Gần đây, toàn bộ giới công nghệ và đầu tư đều đang dõi theo cùng một sự kiện: Ứng dụng AI đang "giết chết" SaaS truyền thống như thế nào. Kể từ khi @AnthropicAI trình làng Claude Cowork, cho thấy nó có thể giúp bạn viết email, làm PPT, phân tích bảng Excel một cách dễ dàng, một nỗi hoảng loạn về "phần mềm đã chết" bắt đầu lan rộng. Điều này thực sự đáng sợ, nhưng nếu ánh mắt của bạn chỉ dừng lại ở đây, thì có lẽ bạn đã bỏ lỡ trận động đất thực sự.
Nó giống như việc tất cả chúng ta đều ngước nhìn cuộc không chiến của những chiếc máy bay không người lái trên trời, nhưng không ai để ý rằng toàn bộ mảng lục địa dưới chân chúng ta đang âm thầm dịch chuyển. Cơn bão thực sự ẩn giấu bên dưới mặt nước, ở một góc khuất mà đa số mọi người không nhìn thấy: nền tảng sức mạnh tính toán (compute) chống đỡ toàn bộ thế giới AI, đang trải qua một "cuộc cách mạng thầm lặng".
Và cuộc cách mạng này có thể khiến bữa tiệc lớn do người bán xẻng AI: NVIDIA @nvidia, tổ chức một cách công phu, kết thúc sớm hơn tất cả những gì mọi người tưởng tượng.
Hai con đường cách mạng đang hội tụ
Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là sự đan xen của hai hướng công nghệ tưởng chừng độc lập. Chúng giống như hai cánh quân đang hợp vây, tạo thành thế gọng kìm tấn công vào quyền bá chủ GPU của NVIDIA.
Con đường thứ nhất, là cuộc cách mạng thu nhỏ thuật toán.
Bạn đã bao giờ nghĩ, một bộ não siêu việt khi suy nghĩ về vấn đề, có thực sự cần huy động tất cả các tế bào não không? Rõ ràng là không. DeepSeek đã hiểu ra điều này, họ tạo ra kiến trúc MoE (Mô hình hỗn hợp chuyên gia - Mixture of Experts).
Bạn có thể tưởng tượng nó giống như một công ty, nuôi dưỡng hàng trăm chuyên gia trong các lĩnh vực khác nhau. Nhưng mỗi lần họp để giải quyết vấn đề, bạn chỉ cần mời hai hoặc ba người liên quan nhất, thay vì để mọi người cùng động não. Đây chính là điểm thông minh của MoE: nó cho phép một mô hình khổng lồ, mỗi lần tính toán chỉ kích hoạt một phần nhỏ các "chuyên gia", từ đó tiết kiệm đáng kể sức mạnh tính toán.
Kết quả sẽ ra sao? Mô hình DeepSeek-V2, trên danh nghĩa có 236 tỷ "chuyên gia" (tham số), nhưng mỗi lần làm việc, chỉ cần kích hoạt 21 tỷ trong số đó, chưa đến 9% tổng số. Trong khi đó, hiệu suất của nó lại có thể sánh ngang với GPT-4, thứ cần vận hành 100% công suất. Điều này có nghĩa là gì? Năng lực của AI và lượng sức mạnh tính toán nó tiêu thụ, đã tách rời!
Trước đây, chúng ta đều mặc định AI càng mạnh thì càng đốt nhiều card. Bây giờ, DeepSeek nói với chúng ta, thông qua các thuật toán thông minh, có thể đạt được hiệu quả tương tự với chi phí chỉ bằng một phần mười. Điều này tương đương với việc trực tiếp đặt một dấu hỏi lớn lên tính chất nhu cầu cứng (must-have) của GPU NVIDIA.
Con đường thứ hai, là cuộc cách mạng "đổi đường" phần cứng.
AI làm việc chia thành hai giai đoạn: huấn luyện (training) và suy luận (inference). Huấn luyện giống như đi học, cần đọc vạn quyển sách, lúc này GPU - loại card tính toán song song "dùng sức mạnh để tạo kỳ tích" - quả thực rất hữu dụng. Nhưng suy luận giống như chúng ta sử dụng AI hàng ngày, coi trọng tốc độ phản hồi hơn.
GPU khi suy luận có một khuyết điểm bẩm sinh: bộ nhớ của nó (HBM) là ngoại vi, dữ liệu đi về có độ trễ. Nó giống như một đầu bếp, nguyên liệu đều để trong tủ lạnh ở phòng bên cạnh, mỗi lần nấu ăn đều phải chạy qua lấy, nhanh đến mấy cũng không thể nhanh hơn được. Và các công ty như Cerebras, Groq đã lập lò riêng, thiết kế chip suy luận chuyên dụng, hàn trực tiếp bộ nhớ (SRAM) lên chip, nguyên liệu để ngay bên cạnh, đạt được khả năng truy cập "không độ trễ".
Thị trường đã bỏ phiếu bằng tiền thật. OpenAI một mặt phàn nàn GPU của NVIDIA suy luận không tốt, mặt khác ngoảnh đầu lại ký một hợp đồng lớn trị giá 100 tỷ USD với Cerebras, chuyên thuê dịch vụ suy luận của họ. Bản thân NVIDIA cũng hoảng loạn, ngay lập tức bỏ ra 200 tỷ USD để mua lại Groq, chính là để không bị tụt lại phía sau ở đường đua mới này.
Khi hai con đường hội tụ: Tuyết lở chi phí
Được rồi, bây giờ chúng ta đặt hai việc này cùng nhau: sử dụng một mô hình DeepSeek đã được "thu nhỏ" về thuật toán, chạy trên một chip Cerebras "không độ trễ" về phần cứng.
Chuyện gì sẽ xảy ra?
Một trận tuyết lở chi phí.
Đầu tiên, mô hình sau khi thu nhỏ rất nhỏ, có thể một lần đưa toàn bộ vào bộ nhớ đi kèm chip. Thứ hai, không có nút thắt cổ chai về bộ nhớ ngoài, tốc độ phản ứng của AI sẽ nhanh đến kinh ngạc. Kết quả cuối cùng là: chi phí huấn luyện giảm 90% nhờ kiến trúc MoE, chi phí suy luận giảm thêm một bậc độ lớn nhờ phần cứng chuyên dụng và tính toán thưa thớt (sparse computing). Tính ra, tổng chi phí để sở hữu và vận hành một AI đẳng cấp thế giới, có thể chỉ bằng 10%-15% so với giải pháp GPU truyền thống.
Đây không phải là cải tiến, đây là dịch chuyển mô hình (paradigm shift).
Ngai vàng của NVIDIA, đang bị âm thầm rút tấm thảm
Bây giờ bạn nên hiểu, tại sao điều này còn chí mạng hơn "nỗi hoảng loạn Cowork".
Giá trị thị trường hàng nghìn tỷ của NVIDIA ngày nay, được xây dựng trên một câu chuyện đơn giản: AI là tương lai, và tương lai của AI phải dựa vào GPU của tôi. Nhưng bây giờ, nền tảng của câu chuyện này đang bị lung lay.
Ở thị trường huấn luyện, ngay cả khi NVIDIA tiếp tục độc quyền, nhưng nếu khách hàng chỉ cần một phần mười số card để làm việc, thì quy mô tổng thể của thị trường này cũng có thể thu hẹp đáng kể.
Ở thị trường suy luận, chiếc bánh lớn gấp mười lần huấn luyện, NVIDIA không chỉ không có lợi thế tuyệt đối, mà còn đối mặt với sự vây ráp của các vị thần từ Google, Cerebras,... Ngay cả khách hàng lớn nhất của họ là OpenAI cũng đang phản bội.
Một khi Phố Wall nhận ra rằng, "cái xẻng" của NVIDIA không còn là lựa chọn duy nhất, thậm chí không phải là lựa chọn tốt nhất, thì định giá được xây dựng trên kỳ vọng "độc quyền vĩnh viễn", sẽ xảy ra chuyện gì? Tôi nghĩ mọi người đều rõ.
Vì vậy, con thiên nga đen lớn nhất trong nửa năm tới, có thể không phải là ứng dụng AI nào lại tiêu diệt ai, mà là một tin tức công nghệ thoạt nhìn không đáng chú ý: chẳng hạn như một bài báo mới về hiệu suất thuật toán MoE, hoặc một báo cáo cho thấy thị phần của chip suy luận chuyên dụng tăng mạnh, âm thầm tuyên bố cuộc chiến sức mạnh tính toán bước vào giai đoạn mới.
Khi cái xẻng của "người bán xẻng" không còn là lựa chọn duy nhất, thì thời kỳ hoàng kim thuộc về anh ta, có lẽ cũng sẽ kết thúc.