Vào ngày 1 tháng 6, tại sự kiện GTC Taipei 2026 tổ chức trong khuôn khổ Triển lãm Máy tính Đài Bắc, NVIDIA đã ra mắt CPU Vera và đồng thời phát hành nền tảng siêu máy tính AI thế hệ mới Vera Rubin, với những khách hàng đầu tiên bao gồm OpenAI và Anthropic.
Đây là lần đầu tiên NVIDIA ra mắt một dòng sản phẩm CPU độc lập, sự tăng trưởng của NVIDIA trong 20 năm qua gần như hoàn toàn dựa trên GPU. CEO NVIDIA, Jensen Huang, cho biết tại buổi ra mắt rằng, trong kỷ nguyên AI Agent, CPU đã trở thành nút thắt cổ chai về hiệu suất của trung tâm dữ liệu, không thể để CPU làm chậm tốc độ sản xuất token của các nhà máy AI.
Trước đó vào tháng 5, CEO AMD, Lisa Su, trong cuộc họp báo kết quả tài chính đã công bố, điều chỉnh tăng gấp đôi dự báo quy mô thị trường server CPU từ 600 tỷ USD lên hơn 1200 tỷ USD, tương ứng với tốc độ tăng trưởng kép hàng năm (CAGR) từ năm 2025 đến 2030 từ 18% lên 35%.
Theo thống kê của IDC, năm 2025, quy mô thị trường máy chủ toàn cầu đạt 4441 tỷ USD, tăng 80,4% so với cùng kỳ, trong đó máy chủ AI đóng góp phần lớn vào mức tăng trưởng. UBS trong báo cáo nghiên cứu ngành bán dẫn gần đây dự đoán, quy mô thị trường tiềm năng của server CPU sẽ tăng từ khoảng 300 tỷ USD năm 2025 lên khoảng 1700 tỷ USD vào năm 2030, tăng gần 5 lần trong 5 năm.
Số liệu từ cơ quan nghiên cứu thị trường Mercury Research cho thấy, trong quý I năm 2026, thị phần doanh thu server CPU của AMD đạt 46,2%, trong khi Intel là 53,8%. Tuy nhiên, thị phần sản lượng của AMD chỉ là 33,2%, Intel vẫn chiếm 66,8%. Điều này có nghĩa là AMD tạo ra doanh thu cao hơn với ít chip hơn, khả năng định giá cao của các sản phẩm nhiều lõi đã được thể hiện rõ trong quý này.
Nhà phân tích chính Lâm Mỹ Bỉnh của Chip ICTIME cho tờ Kinh tế Quan sát biết, CPU là biến số vượt kỳ vọng nhất trong chu kỳ AI hiện tại. AI chuyển từ đối thoại sang Agent, nhu cầu về CPU cho suy luận đã vượt quá nhu cầu cho huấn luyện.
GPU đang "chờ" CPU
Intel và Viện Công nghệ Georgia đã cùng xuất bản một bài báo nghiên cứu vào tháng 11 năm 2025 với tiêu đề "Góc nhìn lấy CPU làm trung tâm về AI dạng Agent (A CPU-Centric Perspective on Agentic AI)". Trong bài báo này, nhóm nghiên cứu đã thử nghiệm thực tế năm loại tác vụ Agent điển hình, kết quả cho thấy thời gian xử lý công cụ ở phía CPU chiếm từ 43,8% đến 90,6% tổng độ trễ.
Một nhà phân tích chứng khoán theo dõi lâu năm về lĩnh vực bán dẫn cho biết, trong giai đoạn huấn luyện mô hình lớn, tỷ lệ khối lượng công việc của CPU chỉ chiếm khoảng một đến ba phần mười, một số tác vụ có thể lên đến gần bốn phần mười, phần lớn tính toán do GPU đảm nhiệm. Điều này là do quá trình tính toán huấn luyện mô hình AI lớn có tính quy tắc cao, hàng trăm triệu tham số thực hiện phép nhân ma trận lặp đi lặp lại trên lượng dữ liệu khổng lồ, kiến trúc song song của GPU được thiết kế cho loại tác vụ này, CPU chỉ đảm nhiệm việc tải dữ liệu, điều phối truyền thông và sao chép kết quả, không liên quan đến các phép tính ma trận cốt lõi.
Nhưng đến giai đoạn suy luận, tỷ lệ này bắt đầu đảo ngược. Tỷ lệ khối lượng công việc do CPU đảm nhiệm tăng lên trên bảy phần mười, và trong các tình huống Agent sẽ còn cao hơn. Bởi vì các tác vụ Agent cần suy luận nhiều bước, gọi các công cụ bên ngoài, thực thi mã, đọc/ghi cơ sở dữ liệu, tìm kiếm web, sau đó sắp xếp kết quả trung gian thành đầu ra cuối cùng.
Trợ lý lập trình, công cụ phân tích dữ liệu, Agent nghiên cứu tự động hóa đều thuộc loại này, và cũng là các tình huống ứng dụng mô hình lớn có tốc độ tăng trưởng nhanh nhất hiện nay. Đặc điểm chung của những công việc này là luồng điều khiển dày đặc, phân nhánh phức tạp, đầu vào/đầu ra thường xuyên, hiệu suất sử dụng của GPU đối với các tác vụ tuần tự, phân mảnh này sẽ giảm đi rõ rệt.
Nhiều chuyên gia trong ngành cho biết, trong các tác vụ Agent, tỷ lệ sử dụng tổng thể của GPU phổ biến dưới 50%, thấp hơn nhiều so với mức 70% đến 85% của dịch vụ suy luận truyền thống. Lượng token tiêu thụ khi triển khai AI theo cách Agent thường gấp 20 đến 30 lần so với đối thoại thông thường, bởi vì đằng sau một lần tương tác người dùng thường bao gồm hàng chục lần gọi công cụ và suy luận trung gian.
Theo dự đoán của IDC, số lượng tác vụ được thực thi hàng năm bởi Agent toàn cầu sẽ tăng từ khoảng 44 tỷ lần vào năm 2025 lên hơn 400 nghìn tỷ lần vào năm 2030.
Ban lãnh đạo Intel trong cuộc họp báo kết quả tài chính quý I năm 2026 cho biết, trong kỷ nguyên AI Agent, số lõi CPU cần thiết cho mỗi gigawatt công suất có thể tăng từ khoảng 30 triệu hiện tại lên 120 triệu. Cơ quan nghiên cứu thị trường Gartner cũng dự đoán, đến năm 2027, 40% dự án Agent sẽ bị thu hẹp hoặc hủy bỏ do chi phí cơ sở hạ tầng vượt quá ngân sách, trong đó một phần đáng kể vượt chi đến từ chi phí phát sinh liên tục ở phía CPU cho việc gọi công cụ và quản lý ngữ cảnh.
Agent tạo ra lượng dữ liệu trung gian lớn khi xử lý cuộc hội thoại dài và tác vụ phức tạp. Hệ thống AI trong quá trình suy luận cần ghi nhớ tất cả nội dung hội thoại trước đó và kết quả gọi công cụ, thuật ngữ ngành gọi là KV Cache (bộ nhớ đệm khóa-giá trị), nó sẽ phình to liên tục theo số lượt hội thoại, nhưng dung lượng lưu trữ đi kèm GPU rất hạn chế, NVIDIA H100 chỉ có 80GB, thế hệ tiếp theo B200 cũng chỉ có 192GB, dữ liệu trung gian từ một tác vụ Agent phức tạp rất dễ vượt quá giới hạn này.
Hiện tại, giải pháp phổ biến trong ngành là chuyển những dữ liệu trung gian này từ GPU sang phía CPU. CPU có thể gắn thêm bộ nhớ DDR5, dung lượng đơn lên đến vài TB, lớn hơn một đến hai bậc so với bộ nhớ GPU.
Liên minh ngành CXL bao gồm các nhà sản xuất chip như Intel, AMD, ARM đã phát hành giao thức CXL 4.0 (Compute Express Link, một tiêu chuẩn mở dùng cho kết nối tốc độ cao giữa các chip) vào tháng 11 năm 2025, cho phép nhiều CPU chia sẻ chung một nhóm bộ nhớ dung lượng lớn, giảm chi phí di chuyển dữ liệu giữa các chip.
Từ đó, CPU không chỉ chịu trách nhiệm điều phối tác vụ, mà còn phải chịu trách nhiệm lưu trữ dữ liệu và quản lý bộ nhớ trong quá trình suy luận AI.
Ngoài ra, bản thân CPU trong vài năm qua cũng trải qua quá trình nâng cấp công nghệ dày đặc. Số lõi của server CPU đã tăng từ 28 lõi năm 2017 lên 288 lõi (Intel Clearwater Forest) và 256 lõi (AMD Venice) vào năm 2026, mật độ tăng gần 10 lần.
Intel đã giới thiệu tập lệnh mở rộng AMX (Advanced Matrix Extensions) vào năm 2023, lần đầu tiên cho phép CPU có đơn vị tính toán ma trận chuyên dụng. Theo dữ liệu thử nghiệm từ phía Intel, trong các tình huống suy luận học sâu, hiệu suất AI của bộ xử lý Xeon thế hệ thứ 4 tích hợp AMX đã tăng gần 10 lần so với thế hệ trước. Hệ thống con bộ nhớ cũng được nâng cấp từ DDR4 lên DDR5, băng thông và dung lượng nền tảng đơn đều tăng gấp đôi.
Việc nâng cấp số lõi và tập lệnh cũng tương ứng với sự thay đổi tỷ lệ phối hợp giữa CPU và GPU. CEO Intel, Pat Gelsinger, trong cuộc họp báo kết quả tài chính quý I năm 2026 cho biết, trong các tình huống huấn luyện thường là 7 đến 8 GPU phối hợp với 1 CPU, trong tình huống suy luận hội tụ về 3 đến 4 GPU phối hợp với 1 CPU, và trong tình huống Agent có thể hội tụ thêm về tỷ lệ 1:1.
CFO của Intel, David Zinsner, bổ sung trong cùng cuộc họp báo rằng, tỷ lệ phối hợp CPU và GPU chung của ngành đã hội tụ từ mức 1:8 trước đây xuống khoảng 1:4.
Lần tăng giá lớn đầu tiên sau hơn một thập kỷ
Sự thay đổi tỷ lệ phối hợp trên đã được truyền dẫn đến định giá sản phẩm.
Người phụ trách thị trường của một nhà phân phối CPU ở Thâm Quyến, Giả Bân, cho phóng viên biết, từ tháng 2 năm 2026, Intel và AMD lần lượt điều chỉnh tăng giá toàn bộ dòng server CPU, mức tăng chung trong khoảng 10% đến 15%, một số server CPU cao cấp cho AI có mức giá cao hơn trên thị trường giao ngay, và có thể sẽ có một đợt điều chỉnh tăng giá mới vào nửa cuối năm.
Giả Bân nói, trong hơn mười năm qua, server CPU cơ bản là "tăng lượng không tăng giá", hiệu suất tăng theo tiến trình công nghệ, nhưng đơn giá duy trì không đổi, mức tăng giá năm nay rất hiếm thấy trong ngành. Tỷ lệ sử dụng công suất sản xuất chính của Intel đã tăng từ mức dưới 80% trước đây lên 100%, nhiều model đang trong tình trạng thiếu hàng, chu kỳ giao hàng từ 3 đến 4 tháng.
AMD cũng đối mặt với tình trạng căng thẳng về năng lực sản xuất. Giả Bân nói, năm 2026 là lần đầu tiên kể từ khi ông vào nghề, ông thấy năng lực sản xuất server CPU của Intel và AMD cơ bản đã được đặt mua hết, "trước đây nguồn cung CPU luôn dồi dào, năm nay thì ngược lại".
Giả Bân còn nhận thấy, nhu cầu của khách hàng về CPU khi mua server AI đang phân hóa thành hai loại. Một loại là CPU bên trong tủ rack phối hợp tính toán với GPU, theo đuổi số lõi cực hạn, trên 128 lõi, giá trung bình trên 4000 USD, trong khi server CPU truyền thống chỉ có giá trung bình hơn 2000 USD. Loại khác là CPU triển khai độc lập bên ngoài tủ rack, dùng để thực thi công cụ, chạy sandbox và điều phối tác vụ cho Agent, không cần hiệu suất cực hạn, khoảng 64 lõi là đủ, nhưng số lượng cần lớn hơn nhiều.
Giả Bân nói, mỗi tác vụ Agent trong điều kiện lý tưởng chiếm độc quyền một CPU, triển khai độc lập hiệu quả hơn phân vùng ảo hóa, CPU bên ngoài tủ có giá trung bình khoảng 3000 USD, "số lõi càng cao thì mức tăng đơn giá càng lớn, không tăng theo tỷ lệ. Vì vậy, dùng sản phẩm tầm trung bên ngoài tủ để trải số lượng, dùng sản phẩm flagship bên trong tủ để đảm bảo hiệu suất, là cách làm phổ biến của khách hàng hiện nay".
Báo cáo ngành bán dẫn ngày 11/6 của Bank of America Securities với tiêu đề "Sự trỗi dậy của các Agent (Rise of the Agents)" đã điều chỉnh tăng dự báo về tổng quy mô thị trường tiềm năng (TAM) của server CPU vào năm 2030 lên trên 1700 tỷ USD, và lần đầu tiên chia thị trường này thành ba phần: CPU điện toán đám mây truyền thống khoảng 300 tỷ USD, CPU nút đầu cụm AI khoảng 700 tỷ USD, CPU nút độc lập cho AI Agent khoảng 700 tỷ USD. Trong đó, phần thứ ba có quy mô gần như bằng 0 vào năm 2025, là thị trường hoàn toàn mới bắt đầu xuất hiện từ năm 2026.
Morgan Stanley trong một báo cáo nghiên cứu ngày 4/6 cũng dự đoán, AI Agent sẽ mang lại nhu cầu mới từ 32,5 tỷ đến 60 tỷ USD cho thị trường server CPU trước năm 2030. Zhongtai Securities trong báo cáo nghiên cứu sâu về CPU phát hành ngày 7/6 đã định nghĩa năm 2026 là "năm nguyên khai CPU hưởng lợi từ sự mở rộng của AI".
Báo cáo nghiên cứu của Bank of America Securities nêu trên cũng liệt kê một so sánh lịch sử về sản lượng: năm 2022, sản lượng CPU AI tương đương 19% sản lượng bộ tăng tốc AI (GPU, v.v.), đến năm 2025 tỷ lệ này tăng lên 51%, dự kiến đến năm 2030 sẽ đạt 127%. Theo dự đoán này, số lượng CPU trong server AI sẽ vượt quá GPU trong vòng 5 năm.
Nhu cầu mới của CPU nội địa Trung Quốc
Thông tin được NVIDIA công bố trong thời gian diễn ra Triển lãm Máy tính Đài Bắc cho thấy, CPU Vera mới nhất của họ dựa trên kiến trúc ARM (một tập lệnh CPU nổi tiếng với tiêu thụ điện năng thấp và hiệu suất năng lượng cao, song song với x86 là hai kiến trúc chủ đạo), có thể triển khai 256 viên trong một tủ rack, sử dụng tản nhiệt chất lỏng.
Trong các tình huống sandbox Agent, hiệu suất của Vera cao gấp 1,8 lần so với bộ xử lý x86. Trong cụm siêu máy tính Vera Rubin mới nhất của NVIDIA (nền tảng trung tâm dữ liệu AI thế hệ tiếp theo của NVIDIA), một POD (đơn vị tính toán hoàn chỉnh tối thiểu bao gồm nhiều tủ rack) gồm 40 tủ rack chứa 1152 GPU Rubin và tối đa 1088 CPU Vera, tỷ lệ phối hợp gần 1:1.
Phía NVIDIA còn đề cập, CPU Grace đã phát hành trước đó đã tích lũy xuất kho gần 2,5 triệu viên, doanh thu liên quan đến CPU năm 2026 có thể đạt gần 200 tỷ USD.
Giả Bân cho rằng, khẩu độ thống kê 200 tỷ USD nêu trên khá rộng, bao gồm doanh thu thuộc về CPU trong nhiều dạng sản phẩm khác nhau, không hoàn toàn giống với doanh thu bán chip CPU riêng lẻ theo nghĩa truyền thống. Nhưng ngay cả khi xem xét sự khác biệt về khẩu độ, đối với một công ty chưa có hoạt động kinh doanh CPU độc lập vào năm 2024, quy mô này đã không nhỏ.
Lâm Mỹ Bỉnh cho rằng, ý nghĩa tín hiệu của việc NVIDIA làm CPU lớn hơn bản thân sản phẩm, trước đây server AI lấy GPU làm trung tâm, CPU chỉ là phụ trợ, khi công ty GPU lớn nhất thế giới tự tay làm CPU và khóa những khách hàng đầu tiên là OpenAI và Anthropic, vị thế thị trường của CPU đã hoàn toàn khác so với hai năm trước.
Theo báo cáo tài chính quý I năm 2026 của AMD, doanh thu nghiệp vụ trung tâm dữ liệu của công ty đạt 5,775 tỷ USD, lần đầu tiên vượt quá 5,1 tỷ USD của Intel trong cùng kỳ. Hơn nữa, Lisa Su trong cuộc họp báo kết quả tài chính đã đề ra mục tiêu năm năm: doanh thu hàng năm của trung tâm dữ liệu hướng đến 100 tỷ USD.
CEO Intel, Pat Gelsinger, cũng đã nhiều lần công khai thể hiện sự tin tưởng vững chắc vào vai trò cốt lõi của CPU trong kỷ nguyên AI.
Đây cũng là một cơ hội cho các doanh nghiệp trong chuỗi cung ứng CPU của Trung Quốc. Giả Bân cho biết, các nhà cung cấp dịch vụ đám mây hàng đầu trong nước năm nay đang đẩy mạnh việc mua sắm server CPU, một mặt là để mua CPU phối hợp với GPU cho việc xây dựng trung tâm dữ liệu AI mới, mặt khác là do tỷ lệ phối hợp CPU và GPU đã hội tụ từ mức 1:8 trước đây xuống 1:4 hoặc cao hơn, số lượng CPU cần thiết cho cùng một trung tâm dữ liệu nhiều hơn gấp đôi so với năm ngoái.
Trên thực tế, tại Trung Quốc, một chuỗi cung ứng tương đối hoàn chỉnh đã hình thành xoay quanh server CPU.
Hygon Information (688041.SH) là một trong những nhà sản xuất server CPU kiến trúc x86 nội địa có sản lượng lớn nhất hiện nay. Theo báo cáo tài chính liên quan, doanh thu năm 2025 của Hygon Information là 14,377 tỷ nhân dân tệ, tăng 56,92% so với cùng kỳ; doanh thu quý I năm 2026 là 4,034 tỷ nhân dân tệ, tốc độ tăng trưởng hàng năm cải thiện thêm lên 68,06%.
Theo thông tin công khai, Huawei Kunpeng đi theo hướng tự nghiên cứu toàn diện ARM, Kunpeng 920/950 phối hợp sâu với chip AI Ascend, chủ yếu phục vụ hệ sinh thái tự có của Huawei và thị trường tin học hóa ứng dụng nội địa (Xinchuang).
Về các chip hỗ trợ, sản phẩm chính của Montage Technology (688008.SH) là chip giao diện bộ nhớ (chip chuyển tiếp tín hiệu giữa server CPU và thanh bộ nhớ). Theo thông tin công khai, chip giao diện bộ nhớ của họ đứng đầu thế giới với thị phần 36,8% vào năm 2024; một dòng sản phẩm khác là chip PCIe Retimer (dùng để khuếch đại và sửa chữa tín hiệu trong truyền dữ liệu tốc độ cao), thị phần toàn cầu năm 2024 là 10,9%, đứng thứ hai.
Ở khâu đóng gói kiểm thử và sản xuất, theo thông tin công khai, Tongfu Microelectronics (002156.SZ) là một trong những đối tác đóng gói kiểm thử quan trọng nhất của AMD trên toàn cầu.
Lý Bân cho phóng viên biết, hệ sinh thái phần mềm của chip nội địa đang tiến gần đến một điểm tới hạn. Ông lấy một ví dụ: trong ngày DeepSeek V4 được phát hành, nhiều nhà sản xuất chip nội địa đã hoàn thành việc thích ứng trong cùng một ngày, trong khi chu kỳ thích ứng của DeepSeek R1 trước đó cần 1 đến 2 tháng. Tốc độ thích ứng tăng mạnh cho thấy công cụ phần mềm và lớp driver của chip nội địa đang trưởng thành nhanh chóng, điều này có lợi cho toàn bộ chuỗi cung ứng CPU và bộ tăng tốc nội địa.
Theo quan điểm của Lâm Mỹ Bỉnh, logic hưởng lợi của CPU nội địa chia thành hai tầng: một tầng là sự tăng trưởng ngành do nhu cầu server CPU toàn cầu tăng mang lại, tầng khác là sự thay thế nội địa được thúc đẩy bởi chính sách tin học hóa ứng dụng nội địa (Xinchuang).
Theo yêu cầu của tài liệu liên quan do Ủy ban Quản lý và Giám sát Tài sản Nhà nước (SASAC) ban hành năm 2022, các doanh nghiệp trung ương và quốc doanh phải hoàn thành cải tạo hệ thống tin học hóa bằng sản phẩm nội địa trước cuối năm 2027. Phóng viên trong quá trình phỏng vấn cũng được biết, tỷ lệ nội địa hóa server CPU cao cấp trong nước hiện vẫn còn thấp, không gian thay thế rộng lớn. Còn chưa đầy 2 năm nữa là đến thời điểm chính sách, cửa sổ giao hàng CPU Xinchuang đang thu hẹp, đây là một lần kiểm tra tập trung về độ trưởng thành sản phẩm và khả năng xuất hàng của các nhà sản xuất CPU nội địa như Hygon Information, Loongson Technology (688047.SH).
Lâm Mỹ Bỉnh cho rằng, chu kỳ tăng giá CPU hiện tại khác với trước đây, mức tăng đến từ nhu cầu hoàn toàn mới của AI Agent đối với CPU, chứ không phải nhu cầu thay thế do nâng cấp tiến trình công nghệ thúc đẩy.
Phán đoán của Ứng Chí Vĩ cũng tương tự. Ông nói, vài năm gần đây sự chú ý của thị trường hầu như tập trung toàn bộ vào GPU, nhưng khi ứng dụng AI thực sự bước vào giai đoạn triển khai quy mô lớn, chức năng điều phối và quản lý do CPU đảm nhiệm chỉ ngày càng nặng nề hơn. Theo quan điểm của ông, đây không phải là CPU sẽ thay thế GPU, GPU vẫn quan trọng, nhưng điều thực sự tạo ra khoảng cách tiếp theo là khả năng phối hợp giữa CPU và GPU, chứ không phải thông số hiệu suất của một viên chip đơn lẻ.
Bài viết này từ tài khoản công chúng WeChat: Kinh tế Quan sát , tác giả: Trịnh Thần Diệp








