Trong hai năm qua, logic tự sự của nửa đầu ngành AI chủ yếu xoay quanh "cuộc chiến mô hình lớn" do các đại công ty khởi xướng. Thông số mô hình từ hàng trăm tỷ tiến lên hàng nghìn tỷ, chi phí huấn luyện tăng từ vài chục triệu đô la lên hàng trăm triệu đô la, cụm GPU mở rộng từ vài nghìn card lên vài chục nghìn card. Mọi người đều bàn luận xem mô hình của ai mạnh hơn, ai tiến gần hơn đến AGI, dường như đích đến của cạnh tranh AI được thể hiện qua hiệu suất của chính mô hình lớn.
Cho đến năm 2026, logic thúc đẩy ngành AI đã thay đổi. Báo cáo mới nhất của JPMorgan cho rằng, thứ thực sự thúc đẩy sự mở rộng liên tục của cơ sở hạ tầng AI trong tương lai, không còn là việc huấn luyện mô hình, mà là nhu cầu suy luận (Inference) AI khổng lồ. Thứ tiêu thụ nhiều năng lực tính toán nhất trong tương lai, không chỉ là huấn luyện mô hình lớn, mà là các AI Agent tràn ngập khắp toàn cầu. Mỗi lần gọi, mỗi lần tương tác, mỗi lần thực thi nhiệm vụ, về bản chất đều đang tiêu thụ Token. Ngành công nghiệp AI đang từ "thời đại mô hình", bước vào "thời đại công nghiệp Token".
Bởi vì thứ thực sự thúc đẩy thế giới AI vận hành trong tương lai, không chỉ là bản thân mô hình, mà là hệ thống sản xuất, phân phối, điều phối và tiêu thụ hình thành xung quanh Token. Đặc biệt sau khi AI Agent bắt đầu xuất hiện trên quy mô lớn, việc Token được tạo ra theo thời gian thực, phân phối xuyên khu vực, điều phối động và tiêu thụ hiệu quả như thế nào, sẽ trở thành vấn đề cốt lõi mới nhất của toàn bộ ngành công nghiệp AI.
Như Huang Renxun gần đây đã đề xuất, AI không phải là một ngành phần mềm đơn giản, mà là một hệ thống cơ sở hạ tầng giống như điện lực và internet. Trong cấu trúc "chiếc bánh năm tầng" của ông, ngành công nghiệp AI được chia thành: năng lượng, chip, cơ sở hạ tầng, mô hình và ứng dụng. Khi ngành công nghiệp AI dần chuyển từ "thời đại huấn luyện" sang "thời đại suy luận", GoodVision AI có xu hướng hiểu toàn bộ chuỗi công nghiệp kinh tế AI là một "cấu trúc bánh bảy tầng" vận hành xung quanh Token:
Tầng thứ nhất: Điện lực – Nền tảng năng lượng của thời đại AI
Tầng thứ hai: AIDC – Nhà máy Token
Tầng thứ ba: GPU – Thiết bị sản xuất Token
Tầng thứ tư: LLM – Động cơ sản xuất Token
Tầng thứ năm: Phân phối Token – "Lưới điện" của thời đại AI
Tầng thứ sáu: Tối ưu hóa & Điều phối thông minh Token – Bộ não của thời đại AI
Tầng thứ bảy: AI Agent – Thiết bị đầu cuối tiêu thụ Token
Từ năng lượng, GPU, đến AIDC, nút biên, rồi đến suy luận mô hình và điều phối thông minh, ngành công nghiệp AI đang hình thành một "hệ thống công nghiệp Token" chưa từng có.
Nhưng ở giai đoạn hiện tại, hệ thống này vẫn chưa thực sự trưởng thành.
Có người sở hữu GPU tiên tiến nhất, nhưng lại bị hạn chế bởi năng lượng; có người xây dựng AIDC khổng lồ, nhưng lại thiếu điều phối hiệu quả; có người phát triển AI Agent mạnh mẽ, nhưng lại đối mặt với chi phí suy luận cao và độ trễ; có người nắm giữ các nút biên, nhưng không thể hình thành mạng lưới phối hợp thống nhất. Toàn bộ chuỗi công nghiệp tuy phát triển với tốc độ cao, nhưng giữa các tầng vẫn tồn tại rất nhiều sự chia cắt, dư thừa và nút thắt hiệu suất.
Và chỉ khi bảy tầng cơ sở hạ tầng này thực sự được thông suốt, phối hợp và kết nối với nhau, ngành công nghiệp AI mới thực sự từ "thời đại công cụ" ngày nay, tiến tới "thời đại ứng dụng quy mô lớn" thuộc về thế giới thông minh.
Tầng bánh thứ nhất: Điện lực – Năng lượng của thời đại AI
Cách mạng công nghiệp tranh giành than đá và dầu mỏ, thời đại internet tranh giành lưu lượng và máy chủ, còn thời đại AI, cuộc chiến ở tầng đáy đang quay trở lại với năng lượng.
Bởi vì AI cuối cùng tiêu thụ điện. Lượng điện tiêu thụ của một trung tâm dữ liệu AI lớn, đã tương đương với một thành phố cỡ trung. Các AIDC (Trung tâm dữ liệu AI) mới xây dựng trên khắp thế giới, đang đối mặt với cùng một vấn đề: GPU có thể mua, đất đai có thể xây, nhưng nguồn cung điện không theo kịp, việc điều phối lưới điện cũng không theo kịp.
Đây cũng là lý do tại sao, ngày càng nhiều công ty AI bắt đầu quan tâm trở lại đến cơ sở hạ tầng năng lượng. Tại GTC 2026, Huang Renxun thậm chí định nghĩa trung tâm dữ liệu tương lai là "nhà máy Token". Phía thượng nguồn của nhà máy đó sẽ thúc đẩy sự ra đời của một ngành công nghiệp năng lượng siêu cấp.
Tại thị trường Trung Quốc, các công ty như Trường Giang Điện Lực, Hạt Nhân Trung Quốc, Quảng Hạch Trung Quốc, Tam Hiệp Năng Lượng, Long Nguyên Điện Lực, Hoa Điện Tân Năng Lượng,... lần lượt đại diện cho các hướng năng lượng cốt lõi như thủy điện, hạt nhân, phong điện và quang điện. Trong đó, điện hạt nhân và thủy điện với khả năng cung cấp điện ổn định, đang trở thành nguồn năng lượng cơ sở quan trọng nhất cho AIDC; còn phong điện và quang điện thì hưởng lợi từ nhu cầu tăng cao về điện xanh và ESG của ngành AI. Cùng với sự thúc đẩy của "Đông Số Tây Toán" và việc xây dựng các trung tâm dữ liệu AI lớn, mối quan hệ phối hợp giữa căn cứ năng lượng mới và trung tâm năng lực tính toán đang nhanh chóng được tăng cường.
Tại thị trường Mỹ, các gã khổng lồ năng lượng truyền thống như NextEra Energy, Dominion Energy, Duke Energy, Southern Co., Exelon,... cũng đang hưởng lợi từ sự mở rộng của trung tâm dữ liệu AI. Trong đó, NextEra là công ty điện xanh hàng đầu Bắc Mỹ; Dominion nắm giữ nguồn tài nguyên truyền tải điện cốt lõi của "hành lang trung tâm dữ liệu" Bắc Virginia; Exelon thì dựa vào khả năng cung cấp điện ổn định của điện hạt nhân, trở thành đối tượng hưởng lợi quan trọng từ nhu cầu "điện lực ổn định cao 24/7" của thời đại AI. Nhìn chung, ngành điện lực toàn cầu đang dần nâng cấp từ dịch vụ công ích truyền thống, trở thành tầng tài nguyên cốt lõi của thời đại cơ sở hạ tầng AI.
Nhìn chung, cục diện cạnh tranh ở tầng này đang từ "cạnh tranh giá điện" của các công ty năng lượng truyền thống, biến thành "cạnh tranh quyền khóa điện lực" giữa trung tâm dữ liệu AI, nhà cung cấp đám mây và công ty năng lượng ở hạ nguồn. Ai có thể khóa chặt nguồn năng lượng dài hạn, ổn định, chi phí thấp, người đó nắm giữ viên ngọc rồng đầu tiên cho việc sản xuất Token.
Tầng bánh thứ hai: AIDC – Nhà máy nguyên liệu Token
Một chiếc GPU đơn lẻ không có ý nghĩa, thứ thực sự quan trọng là cụm cỡ lớn. Do đó AIDC đã xuất hiện.
Nó giống như nhà máy luyện thép, nhà máy điện và nhà máy dây chuyền sản xuất của thời đại công nghiệp, tập trung hàng nghìn hàng vạn tấm GPU lại, hình thành năng lực sản xuất Token ổn định. Nhưng vấn đề của nhà máy cũng bắt đầu xuất hiện: chu kỳ xây dựng AIDC truyền thống thường kéo dài từ 18 đến 36 tháng, mở rộng lưới điện thậm chí cần lâu hơn. Khi nhu cầu AI tăng trưởng theo cấp số nhân, tốc độ xây dựng IDC thời đại cũ, đã không thể đáp ứng nền kinh tế Token mới.
Tại thị trường chứng khoán Mỹ, Equinix là một trong những nhà điều hành trung tâm dữ liệu hàng đầu toàn cầu, sở hữu hơn 240 trung tâm dữ liệu tại hơn 30 quốc gia. Ưu thế cốt lõi của họ không chỉ là số lượng phòng máy, mà là khả năng kết nối toàn cầu và tài nguyên mạng độ trễ thấp, do đó trở thành nút cơ sở hạ tầng quan trọng cho việc triển khai năng lực tính toán AI.
Digital Realty thì thông qua nền tảng PlatformDIGITAL tham gia vào cơ sở hạ tầng AI, đối tượng phục vụ bao gồm nhà cung cấp dịch vụ đám mây lớn và các tổ chức tài chính.
Tại thị trường Trung Quốc, Nhuận Trạch Khoa Kỹ là một trong những nhà điều hành AIDC điển hình nhất trên thị trường chứng khoán A. Nghiệp vụ chính của họ đã dần nâng cấp từ IDC truyền thống sang trung tâm năng lực tính toán AI, năng lực cạnh tranh cốt lõi nằm ở phòng máy quy mô lớn, tài nguyên điện lực và khả năng vận hành bảo trì AIDC. Các doanh nghiệp như Áo Phi Dữ Liệu, Thủ Đô Tại Tuyến, lần lượt tiếp tục mở rộng theo hướng trung tâm dữ liệu khu vực, cơ sở hạ tầng đám mây và dịch vụ lưu trữ năng lực tính toán AI. Trung Khoa Thúc Quang thì trong nghiệp vụ AIDC có xu hướng hợp tác với lĩnh vực chính phủ - doanh nghiệp và nghiên cứu khoa học.
Mà một loại người chơi khác đến từ "chuyển đổi mỏ đào". Các công ty như CoreWeave, IREN, Applied Digital, Cipher Mining, ban đầu nhiều công ty trong số này liên quan đến khai thác tiền mã hóa, nhưng cùng với nhu cầu GPU AI bùng nổ, họ nhanh chóng chuyển hướng sang cơ sở hạ tầng năng lực tính toán AI. IREN chủ trương mô hình "điện xanh + năng lực tính toán AI", xây dựng trung tâm dữ liệu GPU mật độ cao thông qua năng lượng tái tạo. Applied Digital và Cipher Mining cũng đang chuyển đổi từ mỏ đào truyền thống sang cơ sở hạ tầng tính toán hiệu năng cao AI.
Ngoài ra, xu hướng mới bắt đầu xuất hiện: AI Factory biên hóa, nhỏ gọn hóa, mô-đun hóa. Giống như thời đại internet từ máy tính lớn tiến tới điện toán đám mây, năng lực tính toán AI cần từ các nút trung tâm siêu lớn, dần lan tỏa đến các nút biên khu vực hóa.
Do đó, GoodVision AI đã chọn một con đường khác: xây dựng AI Factory nhẹ hơn, mô-đun hóa, có thể sao chép nhanh chóng. So với AIDC truyền thống lớn, GoodVision AI nhấn mạnh hơn đến khả năng triển khai khu vực hóa, hiệu suất cụm GPU mật độ cao, cũng như sự phối hợp đồng bộ giữa năng lượng và năng lực tính toán.
Logic cốt lõi của họ không phải là xây dựng một trung tâm dữ liệu siêu lớn duy nhất, mà là triển khai nhanh các nút AI Factory tại các khu vực dân cư mật độ cao trên toàn cầu, thông thường là các phòng máy năng lực tính toán suy luận nhỏ cỡ 2-4MW. Mô hình này không chỉ có thể tiếp cận nhanh hơn nguồn tài nguyên năng lượng địa phương, mà còn phù hợp hơn với xu hướng nhu cầu suy luận AI trong tương lai lan tỏa về phía biên.
Nếu nói AIDC truyền thống giống nhà máy luyện thép lớn thời đại công nghiệp, thì thứ GoodVision AI xây dựng, lại giống "nhà máy Token khu vực hóa" của thời đại AI – nhẹ hơn, linh hoạt hơn, gần người dùng hơn, cũng phù hợp hơn với hướng phát triển mạng suy luận phân tán toàn cầu trong tương lai.
Tầng bánh thứ ba: GPU – Thiết bị sản xuất Token
Nếu nói điện lực là năng lượng, thì GPU chính là thiết bị sản xuất. Trong những năm đầu bùng nổ AI, GPU chủ yếu phục vụ huấn luyện; nhưng trong tương lai, nhu cầu lớn hơn đến từ suy luận. Bởi vì huấn luyện chỉ thuộc về một số ít công ty đầu ngành, còn suy luận sẽ thâm nhập vào mọi ứng dụng, mọi thiết bị, mọi thiết bị đầu cuối. Robot cần suy luận, lái xe tự động cần suy luận, kính AI cần suy luận, thậm chí sự hợp tác giữa mỗi AI Agent trong tương lai, cũng đang tiêu thụ Token theo thời gian thực.
NVIDIA hiện vẫn là cốt lõi tuyệt đối của ngành công nghiệp chip AI toàn cầu. Các sản phẩm GPU như H100, B200, Blackwell,... gần như định nghĩa tiêu chuẩn huấn luyện và suy luận AI toàn cầu hiện nay. Quan trọng hơn, NVIDIA không chỉ bán chip, mà còn thông qua hệ thống phần cứng phần mềm hoàn chỉnh như CUDA, TensorRT, DGX, HGX để xây dựng hệ sinh thái, do đó đối thủ cạnh tranh của họ không chỉ cần thách thức hiệu năng GPU, mà còn cần thách thức toàn bộ hệ sinh thái phần mềm AI.
AMD hiện là đối thủ cạnh tranh GPU chủ yếu nhất, sản phẩm cốt lõi bao gồm MI300X và các GPU AI khác. So với NVIDIA, AMD nhấn mạnh hơn đến hệ sinh thái mở và nền tảng phần mềm ROCm, hy vọng thông qua cách thức mở hơn để thu hút nhà phát triển AI và khách hàng doanh nghiệp.
Broadcom và Marvell thì đại diện cho một hướng khác – ASIC và kết nối tốc độ cao. Khi kịch bản suy luận AI ngày càng phức tạp, ngày càng nhiều doanh nghiệp bắt đầu thử nghiệm chip ASIC tùy chỉnh, để đạt được tỷ lệ hiệu suất/năng lượng cao hơn và chi phí thấp hơn.
Intel thì thông qua CPU máy chủ và thẻ tăng tốc AI Gaudi tham gia vào thị trường AI, hy vọng tận dụng hệ sinh thái CPU của mình để tham gia cạnh tranh cơ sở hạ tầng AI trở lại.
Tại thị trường Trung Quốc, Hàn Vũ Kỷ là một trong những doanh nghiệp chip AI nội địa mang tính đại diện nhất, chủ trương dòng chip AI Tư Nguyên, và xây dựng khung AI tự nghiên cứu Neuware. Hải Quang Tin Tức thì có quyền sử dụng kiến trúc AMD Zen, tập trung bố trí thị trường DCU và suy luận AI.
Các công ty GPU nội địa như Moore Thread, Toại Nguyên Khoa Kỹ, Mộc Hi Cổ Phần, Bích Nhận Khoa Kỹ,... đại diện cho hướng "thay thế nội địa" chip AI Trung Quốc. Họ phổ biến nhấn mạnh tương thích hệ sinh thái CUDA, và thử nghiệm xây dựng cụm GPU nội địa.
Từ hệ sinh thái CUDA đến bộ nhớ HBM, rồi đến Tensor Core, cốt lõi của toàn bộ ngành công nghiệp AI, thực chất là không ngừng nâng cao "hiệu suất sinh Token trong một đơn vị thời gian". Đồng thời, GPU và cơ sở hạ tầng đằng sau như máy chủ, mô-đun quang, làm mát bằng chất lỏng, thiết bị chuyển mạch,... cũng liên quan mật thiết đến hiệu suất sản xuất Token.
Những thứ này không sáng chói như NVIDIA, OpenAI, các công ty ứng dụng AI, nhưng chúng quyết định toàn bộ thế giới AI có thể thực sự vận hành hay không. Giống như cách mạng công nghiệp không chỉ cần động cơ hơi nước, mà còn cần đường sắt, lưới điện và cảng biển. Cách mạng AI, cũng sẽ không chỉ là một cuộc cách mạng phần mềm. Nó là một lần nâng cấp chuỗi công nghiệp toàn cầu bao trùm năng lượng, chip, mạng lưới, điện toán đám mây và cơ sở hạ tầng.
Vertiv là công ty hàng đầu toàn cầu về UPS và quản lý điện lực trung tâm dữ liệu, cung cấp hệ thống cấp điện, phân phối điện tủ máy và điều hòa chính xác cho trung tâm dữ liệu.
Anh Uy Khắc thì là công ty hàng đầu về làm mát bằng chất lỏng và hệ thống kiểm soát nhiệt độ trên thị trường A, khách hàng bao gồm các công ty internet lớn như BAT. Khi công suất GPU ngày càng cao, làm mát bằng chất lỏng đang trở thành tiêu chuẩn quan trọng của AIDC.
Các công ty như Trung Hằng Điện Khí, Khoa Hoa Dữ Liệu, Khoa Sĩ Đạt, thì có vị trí quan trọng trong lĩnh vực UPS, hệ thống nguồn điện và cấp điện IDC.
Về hướng mạng lưới và mô-đun quang, các công ty như Trung Tế Sáng Sáng, Tân Dịch Thịnh, Thiên Phu Thông Tín,... hưởng lợi từ nhu cầu thông tin tốc độ cao bên trong cụm AI bùng nổ.
Còn về hướng máy chủ nguyên chiếc, các công ty như Dell, HPE, Supermicro, Lenovo, Lãng Triều Tin Tức,... thì đảm nhận việc lắp ráp và giao hàng quy mô lớn máy chủ AI.
Tầng này tuy không trực tiếp đối mặt với người dùng cuối, nhưng lại quyết định cơ sở hạ tầng AI có thể thực sự vận hành ổn định hay không. Làm mát bằng chất lỏng, UPS, mô-đun quang, thiết bị chuyển mạch, lưu trữ năng lượng và máy chủ nguyên chiếc, giống như đường sắt, lưới điện và cảng biển của thời đại công nghiệp, đang trở thành mô hình kinh doanh "bán xẻng" thực sự của thế giới AI.
Tầng bánh thứ tư: LLM – Động cơ sản xuất Token
LLM (Mô hình ngôn ngữ lớn) thì quyết định Token được hiểu, sinh ra và tổ chức như thế nào. Hai năm qua, các công ty như OpenAI, Anthropic, Google, Meta, xAI, DeepSeek,... đã khơi mào "cuộc đua mô hình lớn" toàn cầu. Thông số mô hình từ hàng trăm tỷ tiến lên hàng nghìn tỷ, năng lực mô hình cũng từ sinh thành văn bản, dần mở rộng sang đa phương thức, suy luận, mã code, hợp tác Agent và trí nhớ dài hạn.
Nhưng cùng với sự phát triển dần của ngành, thị trường cũng bắt đầu nhận ra: điều thực sự quan trọng trong tương lai, không còn chỉ là "ai sở hữu mô hình lớn nhất", mà là ai có thể liên tục vận hành mô hình với chi phí thấp hơn, hiệu suất cao hơn. Bởi vì bản thân mô hình không trực tiếp tạo ra giá trị, thứ thực sự tạo ra giá trị, là quá trình suy luận sau khi mô hình được gọi liên tục.
Điều này cũng có nghĩa, LLM đang từ "thể hiện năng lực mô hình" trong quá khứ, dần tiến hóa thành "động cơ sản xuất Token" trong thế giới AI.
Các mô hình nguồn đóng và nguồn mở như OpenAI, Anthropic, Google Gemini, Meta Llama,... đang tranh giành cửa vào hệ sinh thái AI tương lai; còn các người chơi mới nổi như DeepSeek, thì thông qua cách thức chi phí thấp hơn, hiệu suất suy luận cao hơn, bắt đầu tái định hình cục diện cạnh tranh ngành. Hiện nay cạnh tranh ở tầng LLM, cũng dần không còn chỉ đơn thuần theo đuổi cạnh tranh thông số lượng, tiêu chuẩn đánh giá dần chuyển hướng sang so sánh nhiều chiều:
Chi phí Token
Hiệu suất suy luận
Năng lực Context
Đa Agent phối hợp
Trí nhớ dài hạn
Năng lực phối hợp giữa mô hình và cơ sở hạ tầng
Bởi vì điều thực sự quan trọng của thời đại AI, một lần nữa không chỉ là xem mô hình lớn có "thông minh" hay không, mà là mô hình có thể được vận hành liên tục, trên quy mô lớn, với chi phí thấp trên phạm vi toàn cầu hay không. GoodVision AI ở tầng này cũng có phương án tối ưu hóa riêng: thông qua hợp tác với nhà sản xuất mô hình lớn, triển khai mô hình lớn tại phòng máy AI Factory, thực hiện từ nghiệp vụ cho thuê năng lực tính toán truyền thống sang cung cấp trực tiếp dịch vụ Token; không chỉ có thể nâng cao lợi nhuận gộp nghiệp vụ, trải nghiệm sử dụng của người dùng cũng thân thiện hơn.
Tầng bánh thứ năm: Phân phối Token – "Lưới điện" của thời đại AI
Sau khi AIDC được xây dựng, vấn đề tiếp theo xuất hiện: những năng lực tính toán này, làm thế nào được cả thế giới sử dụng?
Do đó, nền tảng cho thuê năng lực tính toán bắt đầu xuất hiện. Chúng giống như "hệ thống lưới điện" của thời đại AI, chia nhỏ, phân phối nguồn tài nguyên GPU vốn tập trung, rồi cho thuê theo nhu cầu cho nhà phát triển, doanh nghiệp và ứng dụng AI.
AWS, Azure, Google Cloud, Alibaba Cloud, Tencent Cloud vẫn là người chơi mạnh nhất ở tầng này. Họ sở hữu cơ sở hạ tầng điện toán đám mây lớn nhất toàn cầu, và đang dần đưa tài nguyên GPU AI vào hệ thống IaaS của chính mình.
Nhưng đồng thời, một loạt "đám mây nguyên bản AI" bắt đầu trỗi dậy nhanh chóng. Các công ty như CoreWeave, Nebius, Nscale,... xây dựng nền tảng đám mây GPU chuyên xoay quanh nhu cầu huấn luyện và suy luận AI. So với nhà cung cấp đám mây truyền thống, họ linh hoạt hơn, tập trung hơn vào nhiệm vụ AI, cũng giỏi hơn trong tối ưu hóa cụm GPU.
CoreWeave hiện là một trong những công ty đại diện nhất của NeoCloud. Ban đầu họ tập trung vào khai thác Ethereum, sau đó hoàn toàn chuyển hướng sang dịch vụ đám mây GPU AI, hiện đã trở thành công ty cơ sở hạ tầng AI được NVIDIA hỗ trợ trọng điểm.
Các nền tảng đám mây nhẹ như DigitalOcean, Vultr, thì hướng đến nhà phát triển nhỏ và vừa cùng công ty khởi nghiệp, nhấn mạnh triển khai nhanh và dịch vụ GPU chi phí thấp.
Tại thị trường Trung Quốc, ngoài các gã khổng lồ, các công ty như Ưu Khắc Đắc, Kim Sơn Vân, Thủ Đô Tại Tuyến,... đều là nhà cung cấp chủ lực trên thị trường đám mây GPU và cho thuê năng lực tính toán AI. Cục diện cạnh tranh ở tầng này rất giống lưới điện thời kỳ đầu: làm thế nào để phân phối hiệu quả năng lực tính toán phân tán.
Tầng bánh thứ sáu: Tối ưu hóa & Điều phối thông minh Token – Bộ não của thời đại AI
Đây có lẽ là tầng "bánh" dễ bị đánh giá thấp nhất nhưng cũng quan trọng nhất. Sau khi lượng sử dụng AI Agent bùng nổ, mọi người phát hiện, không phải mọi nhiệm vụ, đều đáng để gọi mô hình lớn đắt nhất. Nhiều nhiệm vụ đơn giản, mô hình nhỏ cục bộ có thể hoàn thành; nhiều nhiệm vụ thời gian thực, phù hợp hơn với suy luận biên; nhiều nhiệm vụ riêng tư, thậm chí không thể tải lên đám mây. Sau vấn đề "có năng lực tính toán hay không", lại thêm một vấn đề, tức là "làm thế nào sử dụng năng lực tính toán thông minh hơn".
Cùng với sự tăng trưởng theo cấp số nhân của nhu cầu Token, "để mô hình phù hợp, trên năng lực tính toán phù hợp, xử lý nhiệm vụ phù hợp." là chìa khóa để Token được sử dụng hợp lý, hiệu quả. Đây chính là hướng mà GoodVision AI đang nỗ lực ngoài việc bố trí nhà máy Token AI.
Giống như hệ thống điện lực ngày nay: một số nhu cầu đến từ lưới điện lớn; một số nhu cầu đến từ năng lượng mặt trời trên mái nhà. Mà thứ thực sự quan trọng, là tầng "hệ thống điều phối thông minh" ở giữa.
AI trong tương lai, cũng sẽ là cấu trúc tương tự: nhiệm vụ đơn giản do mô hình nhỏ cục bộ hoàn thành, nhiệm vụ phức tạp gọi mô hình lớn đám mây, nhiệm vụ riêng tư cao xử lý ở phía biên, nhiệm vụ đồng thời cao, thông qua điều phối động đám mây hỗn hợp.
Ngoài Goodvision AI, các công ty như Thanh Vân Khoa Kỹ, Lambda, OpenRouter, Fireworks AI,... cũng là những công ty xuất sắc trong tối ưu hóa và điều phối thông minh Token.
Mà tầng "bánh" này với hai tầng "bánh" trước – AIDC và cho thuê năng lực tính toán, tồn tại người chơi trùng lặp cao độ. Khi quy mô tài nguyên GPU, nút khu vực và nhiệm vụ suy luận không ngừng mở rộng, chỉ đơn thuần "sở hữu năng lực tính toán" đã không đủ để xây dựng rào cản dài hạn. Ngày càng nhiều nhà điều hành AIDC và nền tảng đám mây GPU bắt đầu nhận ra, thứ thực sự quyết định hiệu suất và tỷ suất lợi nhuận trong tương lai, không chỉ là số lượng GPU, mà là làm thế nào để điều phối động mô hình, năng lực tính toán và lưu lượng Token.
Do đó, nhiều nền tảng vốn bố trí AIDC và đám mây GPU, cũng bắt đầu mở rộng sang "tầng điều phối thông minh". Ví dụ các công ty tại thị trường Trung Quốc như Ưu Khắc Đắc, Thủ Đô Tại Tuyến, Trung Khoa Thúc Quang,... đều đang thử nghiệm kết hợp cơ sở đám mây GPU của mình, tài nguyên đa đám mây với năng lực điều phối suy luận, dần từ "bán năng lực tính toán", tiến tới "tối ưu hóa năng lực tính toán".
Tầng bánh thứ bảy: Mô hình & Agent – Người tiêu thụ Token
Tầng này tuy gần người dùng nhất, cũng dễ giành được lưu lượng nhất, nhưng cạnh tranh cũng gay gắt nhất. Tại GTC 2026, Huang Renxun đã đưa ra quan điểm như vậy: trong tương lai mỗi công ty đều sẽ trở thành "người sản xuất Token và người tiêu thụ Token".
Một AI Agent, có thể đồng thời gọi nhiều mô hình, nhiều công cụ, nhiều API, và liên tục tiến hành suy luận, lập kế hoạch và thực thi. Điều này có nghĩa, lượng Token mà AI tiêu thụ trong tương lai, sẽ vượt xa quy mô con người đối thoại với AI ngày nay. Một số người dùng AI nặng hiện nay, tự xây dựng hệ thống đa Agent đồng thời và gọi lẫn nhau, mỗi ngày tiêu thụ 10 tỷ Token hoàn toàn không thành vấn đề.
Tương lai không phải 10 tỷ người sử dụng AI, mà là 100 tỷ, thậm chí 1000 tỷ AI Agent đồng thời làm việc, gọi lẫn nhau. Và nút thắt thực sự, cũng sẽ từ "năng lực mô hình", chuyển hướng sang "hiệu suất điều phối Token".
Các gã khổng lồ công nghệ tự nhiên không cần nói nhiều, Microsoft, Google, Meta, Amazon,... đang thông qua hệ thống văn phòng, tìm kiếm, mạng xã hội và dịch vụ đám mây, dần nhúng năng lực AI vào tất cả sản phẩm.
Các công ty phần mềm doanh nghiệp như Adobe, Salesforce, ServiceNow, Palantir, thì đang thúc đẩy nhanh chóng theo hướng AI Agent cấp doanh nghiệp và quy trình làm việc tự động hóa. Đồng thời, Hugging Face đang trở thành "Github" của thời đại AI. Nó không chỉ là cộng đồng mô hình, mà còn là cơ sở hạ tầng quan trọng của hệ sinh thái phát triển AI toàn cầu.
Tại thị trường Trung Quốc, các công ty như Khoa Đại Tín Phi, Côn Lôn Vạn Duy, Tam Lục Linh, Kim Sơn Bạn Công, Thương Thang Khoa Kỹ,... đang triển khai bố trí xoay quanh trợ lý AI, văn phòng AI và AI Agent.
Khi "chiếc bánh bảy tầng" thực sự định hình, thế giới AI mới thực sự bắt đầu
Ngành công nghiệp AI ngày nay, thực chất vẫn đang ở trong một hệ thống cơ sở hạ tầng chưa hoàn toàn trưởng thành.
Có người sở hữu GPU tiên tiến nhất, nhưng lại bị hạn chế bởi năng lượng; có người xây dựng AIDC khổng lồ, nhưng lại thiếu điều phối hiệu quả; có người phát triển mô hình và Agent mạnh mẽ, nhưng lại đối mặt với chi phí suy luận cao và độ trễ; có người nắm giữ các nút biên, nhưng không thể hình thành mạng lưới phối hợp thống nhất.
Từ điện lực, AIDC, GPU, đến LLM, phân phối Token, điều phối thông minh và AI Agent, toàn bộ chuỗi công nghiệp AI tuy đang phát triển với tốc độ cao, nhưng giữa các tầng vẫn tồn tại rất nhiều sự chia cắt, dư thừa và nút thắt hiệu suất.
Và chỉ khi "chiếc bánh bảy tầng" này thực sự được xây dựng hoàn chỉnh, và bắt đầu vận hành phối hợp hiệu quả, ngành công nghiệp AI mới từ "thời đại công cụ" ngày nay, thực sự bước vào "thời đại ứng dụng quy mô lớn" thuộc về thế giới thông minh.
Thế giới AI trong tương lai, sẽ không còn chỉ là một số ít gã khổng lồ công nghệ huấn luyện mô hình lớn, mà là hàng chục tỷ AI Agent liên tục trực tuyến, liên tục hợp tác, liên tục gọi năng lực tính toán và Token. Mỗi lần đối thoại, mỗi lần suy luận, mỗi lần gọi công cụ, mỗi lần tự động thực thi nhiệm vụ, đằng sau đều tương ứng với sự vận hành phối hợp của năng lượng, GPU, mạng lưới, hệ thống điều phối và nút suy luận.
Và điều này cũng có nghĩa, ngành AI đang từ "logic phần mềm" trong quá khứ, dần tiến hóa thành một hệ thống công nghiệp siêu cấp bao trùm năng lượng, chip, điện toán đám mây, mạng biên và điều phối thông minh.
Giống như cách mạng công nghiệp không chỉ cần động cơ hơi nước, mà còn cần đường sắt, lưới điện và cảng biển; cách mạng internet không chỉ cần PC, mà còn cần cáp quang, trung tâm dữ liệu và điện toán đám mây. Dấu hiệu trưởng thành thực sự của cách mạng AI, cũng sẽ không chỉ là một ứng dụng đột phá nào đó, mà là trên phạm vi toàn cầu, một "mạng lưới cơ sở hạ tầng thông minh" có thể liên tục sản xuất, phân phối, điều phối và tiêu thụ Token bắt đầu hình thành.
Và khi bảy tầng cơ sở hạ tầng này cuối cùng thực sự kết nối với nhau, logic cạnh tranh của ngành AI cũng sẽ bị tái cấu trúc triệt để. Công ty quan trọng nhất trong tương lai, có lẽ không còn chỉ là công ty sở hữu mô hình lớn nhất, mà là những công ty có thể kết nối năng lượng, năng lực tính toán, mạng lưới, mô hình và dòng chảy Token.













