Trong 5 tháng qua, doanh thu MaaS của Alibaba Cloud đã tăng gấp 15 lần, đây chỉ là một khía cạnh trong quá trình Alibaba Cloud tái cấu trúc chính mình. Tại hội nghị thượng đỉnh, Alibaba Cloud đã tuyên bố hoàn thành việc nâng cấp toàn diện "chip - cloud - model - suy luận" lên Agent hóa, đồng thời ra mắt trang web sản phẩm AI mới "Qianwen Cloud", máy chủ siêu nút tích hợp chip AI tự nghiên cứu Zhenwu M890, và mô hình flagship mới nhất Qwen3.7-Max.
Theo lời Liu Weiguang, Phó Tổng giám đốc kỳ cựu của Alibaba Cloud: "Chúng tôi đang xây dựng nhà máy AI lớn nhất Trung Quốc." Phép ẩn dụ "nhà máy" gợi ý một logic sản xuất hoàn chỉnh: chip là nguyên liệu thô, cloud là phân xưởng, model là máy móc, nền tảng suy luận là dây chuyền lắp ráp, và sản phẩm cuối cùng là Token.
Bản chất của lần tái cấu trúc này là chuyển đổi toàn bộ hệ thống được xây dựng trong 17 năm qua xoay quanh việc "con người sử dụng cloud" sang hệ thống mới "Agent tiêu thụ Token".
Vì sao lại đánh bài chip vào lúc này
Trước đây, Alibaba Cloud hiếm khi nhấn mạnh về chip trong các sự kiện công khai. Tại hội nghị thượng đỉnh lần này, không chỉ ra mắt chip AI mới thế hệ mới kết hợp huấn luyện và suy luận Zhenwu M890, mà còn công bố lộ trình chip trong 2 năm tới một cách chưa từng có, với hai thế hệ sản phẩm Zhenwu V900 và Zhenwu J900 lần lượt ra mắt từng năm.
Zhenwu M890 được trang bị bộ nhớ video 144GB, băng thông kết nối liên chip 800GB/s, hiệu suất gấp 3 lần Zhenwu 810E thế hệ trước. Kết hợp với chip kết nối ICN Switch tự nghiên cứu, 128 chip AI có thể tạo thành một máy, độ trễ P2P được giảm xuống dưới 150 nano giây.
Nhưng ngoài thông số, thông tin quan trọng hơn là quy mô. Dòng Zhenwu đã xuất xưởng tổng cộng 560.000 chip, đã được triển khai cho hơn 400 khách hàng thuộc hơn 20 ngành, bao gồm viễn thông, FAW, Pufa Bank.
Liu Weiguang liên tục dùng Google để so sánh. Sự liên kết sâu sắc giữa TPU của Google và Gemini đã giúp Google đạt được tỷ lệ hiệu suất/chi phí tối ưu trong khung công cụ của riêng mình. Alibaba Cloud tất nhiên muốn đi theo con đường tương tự. Ông tóm tắt logic cạnh tranh thành một câu: "Nếu tương lai cạnh tranh dựa trên việc mỗi chip có thể chạy được nhiều Token chất lượng cao hơn so với đối thủ, thì chúng ta chiến thắng."
Cộng với CPU Yitian, NIC thông minh Panmai, chip điều khiển lưu trữ Zhenyue, bản đồ chip của T-Head đã mở rộng từ điểm đơn lẻ sang phủ sóng toàn diện từ tính toán, mạng đến lưu trữ. Khi nhu cầu suy luận bùng nổ theo cấp số nhân, chỉ có nắm giữ chip trong tay mình mới kiểm soát được chi phí biên cho mỗi Token.
Lý lẽ không phức tạp. Các công ty mô hình có thể so kè về thông số, nhưng các nhà cung cấp cloud cuối cùng sẽ so về Token của ai rẻ hơn, ổn định hơn, nhanh hơn. Chip là điểm khởi đầu của cuộc chiến chi phí này.
Bản thân cloud cũng phải được viết lại
Chip giải quyết vấn đề "chạy được", nhưng nhu cầu của Agent đối với cloud còn vượt xa khả năng tính toán.
Logic tương tác của các sản phẩm cloud truyền thống được thiết kế cho con người: mở bảng điều khiển, xem menu, cấu hình tham số, nhấn nút. Cách này hoàn toàn không dùng được cho Agent. Agent không xem trang web, không nhấn nút; nó cần mô tả khả năng có cấu trúc, giao thức gọi chuẩn hóa và phản hồi có thể dự đoán được.
Li Feifei, CTO của Alibaba Cloud, đã dùng một phép so sánh để minh họa vấn đề: khối lượng công việc của cloud truyền thống là ổn định, một ECS có thể chạy vài tháng thậm chí vài năm; nhưng khối lượng công việc của Agent là "co giãn không theo quy luật, vòng đời ngắn, tăng đột biến tức thời rồi biến mất". Một Agent sau khi hoàn thành nhiệm vụ, sandbox sẽ bị hủy. Yêu cầu tiếp theo có thể đến sau vài mili giây, cũng có thể vài giờ sau mới đến.
Để đáp ứng điều này, Alibaba Cloud đã làm ba việc.
Thứ nhất, Skill hóa, MCP hóa và CLI hóa các sản phẩm cloud. Nói đơn giản là đóng gói mỗi sản phẩm cloud thành giao diện chuẩn hóa mà Agent có thể gọi trực tiếp, giống như gọi hàm vậy.
Thứ hai, xây dựng môi trường chạy chuyên dụng cho Agent - sandbox nhẹ, đa Agent phối hợp, ghi nhớ xuyên nhiệm vụ, đường dẫn luân chuyển dữ liệu.
Thứ ba, xây dựng lại logic điều phối, chuyển từ "điều phối tài nguyên" sang "điều phối nhiệm vụ", bởi vì khi vô số Agent đồng thời xử lý, cách thức tổ chức tài nguyên truyền thống sẽ không chịu nổi.
Liu Weiguang cho biết, một số ứng dụng AI sau khi triển khai sẽ tự động kích hoạt tài nguyên cloud ở backend - máy ảo, instance cơ sở dữ liệu, môi trường sandbox, toàn bộ quá trình không cần sự can thiệp của con người. Lượng tài nguyên một khách hàng tự động kích hoạt trong một ngày tương đương với thao tác thủ công trong hai tuần trước đây.
"Điều này đã tương đương với việc Agent tự sử dụng cloud." Liu Weiguang đưa ra một mối quan hệ chuyển đổi được tính toán nội bộ: Tiêu thụ Token có thể được quy đổi theo tỷ lệ thành mức sử dụng GPU, và sự tăng trưởng của mỗi card GPU sẽ kéo theo sự tăng trưởng tương ứng của CPU. Điều này có nghĩa là sự tăng trưởng doanh thu từ Token không phải là ăn mòn doanh thu cloud truyền thống, mà đang kéo nó đi, với điều kiện nền tảng cloud có thể tiếp nhận được khối lượng công việc của Agent.
Vì vậy, Alibaba Cloud không phải đang thêm một lớp khả năng AI lên hệ thống cũ, mà là viết lại hoàn toàn từ cách thức tương tác, logic điều phối, mô hình tính phí đến hình thái sản phẩm.
Mô hình không phải để trò chuyện
Tầng thứ ba của quá trình tái cấu trúc toàn diện là mô hình. Qwen3.7-Max đã đứng đầu bảng xếp hạng toàn cầu Arena trong số các mô hình trong nước, vượt qua Kimi-K2.6, DeepSeek-v4-pro, GLM-5.1. Điểm nhấn của lần ra mắt này là định nghĩa lại của Alibaba về hướng phát triển năng lực mô hình.
Zhou Jingren, người đứng đầu mô hình lớn Alibaba's Tongyi, cho biết: "Trước đây chúng tôi theo đuổi việc mô hình 'nói hay', bây giờ yêu cầu mô hình 'làm được'."
Nhìn vào thực tiễn của Alibaba Cloud với chip, trên chip Zhenwu M890 mà nó chưa từng tiếp xúc trong quá trình huấn luyện, Qwen3.7-Max chỉ dựa vào một bản mô tả nhiệm vụ, đã làm việc tự chủ trong 35 giờ từ con số 0, tự hoàn thành việc viết và tối ưu hóa một kernel tính toán AI cấp sản xuất. Hiệu suất cuối cùng được cải thiện gấp 10 lần so với phiên bản chính thức. Toàn bộ quá trình không có sự can thiệp của con người, không có hướng dẫn trung gian.
Điều này minh chứng cho năng lực cốt lõi của mô hình trong các tình huống Agent: thực thi tự chủ đường dài, nhận một nhiệm vụ, tự phân tích, tự lập kế hoạch, tự viết mã, tự gỡ lỗi, làm việc liên tục 35 giờ không ngừng.
Để hỗ trợ nhu cầu suy luận ở cấp độ này, nền tảng Bailian cũng được nâng cấp tương ứng: điều phối pooling nâng cao hiệu suất sử dụng GPU, bộ nhớ đệm ngữ cảnh loại bỏ tính toán lặp lại, điều phối co giãn thông lượng ứng phó với đỉnh xử lý đồng thời.
Về hệ sinh thái, Bailian duy trì tiếp cận mở, ngoài ma trận mô hình Qianwen, còn triển khai các mô hình của bên thứ ba như GLM-5.1 của Zhipu, M2.7 của MiniMax, Kimi K2.6 của Moonshot AI.
Liu Weiguang đề cập: "Trên thực tế, khách hàng khi sử dụng sẽ không chỉ dùng một mô hình, mà là sự kết hợp đa mô hình. Chúng tôi cung cấp sự kết hợp, khách hàng tìm ra sự phối hợp phù hợp nhất với mình trên nền tảng." Tại hiện trường hội nghị thượng đỉnh, các lãnh đạo cấp cao của sáu công ty mô hình hàng đầu trong nước đã cùng đứng lên sân khấu, tạo nên một cảnh tượng như một "liên minh AI trong nước".
Trong vòng ba tháng gần đây, mô hình flagship Qianwen đã liên tục lặp lại ba phiên bản 3.5, 3.6 và 3.7. Chính nhịp độ phát hành này đang truyền tải một tín hiệu: cuộc đua về năng lực mô hình còn lâu mới kết thúc, và Alibaba dự định xây dựng lợi thế lâu dài bằng cách tích hợp dọc chip tự nghiên cứu và mô hình tự nghiên cứu.
Ván cược thực sự của cuộc tái cấu trúc này
Nhìn lại, logic cơ bản của lần tái cấu trúc toàn diện này của Alibaba Cloud thật đơn thuần và rõ ràng. Khi tốc độ tăng trưởng doanh thu AI vượt xa dịch vụ cloud truyền thống, khi Token có khả năng thay thế ECS trở thành dòng sản phẩm lớn nhất, khi Agent bắt đầu tự động kích hoạt tài nguyên cloud mà không cần con người đăng nhập vào bảng điều khiển, toàn bộ hệ thống kỹ thuật được thiết kế cho con người đã đến lúc phải thay đổi.
Tuy nhiên, độ khó ở cấp độ thực thi lại là chuyện khác. Bản thân Liu Weiguang cũng thừa nhận, việc chuyển đổi "nói thì dễ, làm thì rất khó". Trước đây, đội ngũ bán hàng giao tiếp với bộ phận IT của khách hàng, bây giờ làm MaaS phải nói chuyện với bộ phận nghiệp vụ thậm chí CEO.
"Khả năng đối thoại, kinh nghiệm sống của bạn hoàn toàn là một yêu cầu ở một tầng khác." Alibaba Cloud đã thiết lập nhân viên bán hàng MaaS chuyên trách cho khách hàng lớn, tách biệt với nhân viên bán hàng IaaS truyền thống, với chỉ tiêu đánh giá và tác chiến độc lập.
Các chỉ số đánh giá cũng đang thay đổi, không chỉ nhìn vào lưu lượng gọi, mà còn nhìn vào "Token chất lượng cao", Token giải quyết vấn đề thực tế, chứ không phải Token trò chuyện vô bổ. Ba chỉ số cốt lõi: tăng trưởng hàng ngày về số lượng khách hàng trả phí, số lượng hệ thống nghiệp vụ cốt lõi tích hợp mô hình, hiệu quả hoàn thành vòng khép kín nhiệm vụ tự chủ của Agent.
Những điều chỉnh ở cấp độ tổ chức và cơ chế này thường có thể nói lên nhận định thực tế của một công ty rõ hơn cả các thông báo kỹ thuật. Alibaba Cloud muốn xây dựng lại cơ cấu doanh thu, quan hệ khách hàng và hệ thống bán hàng. Liu Weiguang cho biết, "Trước đây khi chúng tôi làm cloud, ngân sách IT của khách hàng có thể tính toán được, bao nhiêu máy chủ offline, chuyển lên cloud sẽ tốn khoảng bao nhiêu tiền, có thể thấy được đề bài. Nhưng làm MaaS, đáp án cho đề bài này bạn không biết, sau khi bước vào, kết quả có thể vượt quá tưởng tượng của bạn."
Đề bài không thấy được, đáp án cũng không chắc chắn, nhưng Alibaba Cloud vẫn quyết định tháo rời và viết lại toàn bộ hệ thống, bởi vì điều duy nhất chắc chắn là: AI là cơ hội lớn hơn gấp mười, thậm chí trăm lần so với trước đây.
Đây có lẽ là thông tin đáng chú ý nhất tại hội nghị thượng đỉnh lần này: không phải chip nào có nhiều tính toán hơn, hay mô hình nào xếp hạng thứ mấy, mà là nhà cung cấp cloud lớn nhất Trung Quốc, đang với tư thế tích cực gần như một công ty khởi nghiệp, đặt cược vào một tương lai mà nó tin chắc sẽ đến.(Tác giả bài viết | Zhang Shuai, Biên tập | Yang Lin)








