Hai năm qua, lõi phần cứng AI hầu như chỉ có một thứ: GPU.
Từ đào tạo mô hình lớn, đến cụm suy luận, cho đến điện toán từ thiết bị đến đám mây, cả ngành công nghiệp đều đang thảo luận xem ai có thể lấy được nhiều GPU hơn, ai có thể nhồi nhiều card tính toán hơn vào trung tâm dữ liệu. Có thể nói, toàn bộ ngành công nghiệp AI đang xoay quanh GPU, điều này cũng thúc đẩy giá cổ phiếu của NVIDIA liên tục lập kỷ lục mới.
Nhưng tại COMPUTEX 2026, Intel đã đưa ra một đánh giá khác: Giai đoạn tiếp theo của AI, không thể chỉ nhìn vào GPU. Cốt lõi của đánh giá này, chính là từ khóa mà Pat Gelsinger (Tạm hiểu: chú thích tiếng Việt thường gọi là Giám đốc điều hành) nhấn mạnh nhiều lần trong bài phát biểu chính: Agentic AI, tức là tác nhân thông minh mà chúng ta thường nói đến.
Nguồn ảnh: Intel
Tác nhân thông minh đang thay đổi hệ sinh thái tính toán
Sự khác biệt giữa tác nhân thông minh và AI truyền thống thực sự rất lớn, AI truyền thống sử dụng giống như một cỗ máy hỏi đáp theo lượt, trong khi tác nhân thông minh thì cần phải đi vào quy trình làm việc thực tế, chủ động hoàn thành vòng lặp "suy nghĩ, lập kế hoạch, hành động, phản ánh". Nói cách khác, nó cần học cách đọc dữ liệu, gọi công cụ, thực thi nhiệm vụ và kiểm tra kết quả, sau đó liên tục điều chỉnh bước tiếp theo dựa trên phản hồi.
Điều này có nghĩa là suy luận AI không còn chỉ là một "giao dịch một lần", mà đã trở thành một hệ thống tự quyết định và tự suy luận chạy liên tục, điều này cũng hoàn toàn thay đổi cách vận dụng điện toán. Vì vậy, quan điểm cốt lõi nhất của Intel lần này là: Agentic AI sẽ định hình lại tỷ lệ điện toán trong trung tâm dữ liệu.
Hiện tại, ở giai đoạn đào tạo mô hình tiên tiến, tỷ lệ CPU và GPU có thể gần bằng 1:8, GPU đảm nhận áp lực tính toán tuyệt đại đa số. Nhưng khi bước vào chế độ suy luận của tác nhân thông minh, CPU sẽ cần chịu trách nhiệm cho các công việc như sắp xếp nhiệm vụ, gọi công cụ, di chuyển dữ liệu và phối hợp hệ thống, lúc này tỷ lệ CPU và GPU sẽ dần tiến tới 1:1, thậm chí cần mật độ CPU cao hơn để phân giải nhiệm vụ một cách nhanh chóng.
Thực tế, khi một tác nhân thông minh không chỉ tạo ra một đoạn câu trả lời, mà cần liên tục gọi mô hình, công cụ và hệ thống bên ngoài, thì trạng thái làm việc của nó hoàn toàn khác với AI truyền thống. Intel đã đề cập đến một dữ liệu trong bài phát biểu: So với suy luận đơn luồng, lượng Token tiêu thụ của một tác nhân thông minh có thể tăng lên tối đa 1000 lần.
Nguồn ảnh: Intel
Nói cách khác, tác nhân thông minh mang lại không phải là sự tăng trưởng đơn thuần về lượng suy luận, mà là tải hệ thống phức tạp hơn, tần suất cao hơn và phân mảnh hơn. Nếu lại ném tất cả các tải này cho GPU giải quyết, thì vừa kém hiệu quả vừa đắt đỏ.
Và bộ xử lý Xeon 6+ mà Intel công bố lần này được chế tạo dựa trên quy trình 18A của Intel, trang bị tối đa 288 nhân hiệu suất cao, và đi kèm bộ nhớ đệm cấp 3 cao nhất 576MB, hướng đến nhu cầu tải như cloud-native, AgenticAI và mạng cường độ cao, có thể cung cấp hiệu suất năng lượng cao hơn và hiệu năng ổn định hơn.
Trong giải pháp mà Intel đưa ra, một giá làm mát bằng chất lỏng chiếm 32U không gian tính toán, có thể cung cấp 36864 lõi; công suất tiêu thụ của giá chỉ khoảng 100kW, đủ để triển khai các tác nhân thông minh mật độ cao. Mặc dù 100kW trông có vẻ đáng sợ, nhưng so với các giá máy chủ có hiệu năng tương đương trước đây, công suất tiêu thụ đã giảm mạnh.
Và bên cạnh Xeon 6+, còn có một thứ đáng chú ý hơn: việc Intel tái chia tách kiến trúc suy luận.
Trong bài phát biểu, Intel thông báo hợp tác với SambaNova, Vista Equity Partners, Cambium Capital và các đối tác khác, chính thức ra mắt giải pháp suy luận tách rời hoàn toàn mới. Giải pháp này chạy trên VectorCore Compute Agent Cloud, do bộ xử lý Intel Xeon 6 chịu trách nhiệm sắp xếp và thực thi, sau đó thông qua SambaNova SN40 RDU chịu trách nhiệm giải mã, và cuối cùng do GPU NVIDIA Blackwell chịu trách nhiệm điền sẵn.
Nguồn ảnh: Intel
Giải pháp mới này được thiết kế đặc biệt cho tải tác nhân thông minh. Khác với nhiều hệ thống AI trước đây có thói quen giao hầu hết công việc trong chuỗi suy luận cho GPU, trong hệ thống này, CPU, RDU, GPU sẽ mỗi bên đảm nhận một chức năng, lần lượt chịu trách nhiệm cho các khâu khác nhau như điều phối hệ thống, giải mã, điền sẵn, giúp mỗi giai đoạn suy luận chạy trên phần cứng phù hợp nhất, tối đa hóa hiệu quả.
Và sau khi giới thiệu xong Xeon 6+, bộ xử lý Core Ultra thế hệ thứ 3 được công bố cách đây không lâu cũng một lần nữa xuất hiện. Nó là một mắt xích khác trong hệ sinh thái AI của Intel - lõi AI phía thiết bị đầu cuối. Trong bài phát biểu, máy chủ hỗn hợp cục bộ mà Intel và Perplexity trình diễn, chính là được xây dựng dựa trên Core Ultra thế hệ 3 và máy chủ đám mây Xeon 6+.
Nguồn ảnh: Intel
Nó có thể phân bổ động tải công việc giữa cục bộ và đám mây dựa trên khả năng và đặc tính chức năng của thiết bị, từ đó giảm thêm sự phụ thuộc vào điện toán đám mây. Đây cũng là hình thức lý tưởng của AIPC trong tương lai: thông qua phân bổ hiệu năng động, vừa giảm chi phí Token, vừa đảm bảo tính tức thời của nhiệm vụ và tính riêng tư của dữ liệu được bảo vệ.
Ngoài PC, Intel còn tiếp tục mở rộng Core Ultra thế hệ thứ 3 sang lĩnh vực máy chơi game cầm tay và điện toán biên, bộ xử lý Arc G3 series mới được phát hành hướng đến thiết bị chơi game cầm tay, được tối ưu hóa dựa trên kiến trúc cùng thế hệ, sẽ ra mắt vào cuối tháng này (GPU tích hợp mà người dùng máy cầm tay mong đợi nhất sắp ra mắt).
Từ phổ thông đến tùy chỉnh, Intel cũng muốn trở nên "có mặt ở khắp mọi nơi"
Và ngoài bộ xử lý phổ thông, Intel lần này còn nhấn mạnh đến chip tùy chỉnh, đây cũng là lĩnh vực kinh doanh mà Pat Gelsinger đảm nhận vai trò CEO của Intel đã luôn thúc đẩy.
Intel cho rằng chip tùy chỉnh sẽ có thị trường rộng lớn trong tương lai, bởi vì khi AI đi vào các ngành công nghiệp khác nhau, khách hàng sẽ ngày càng không hài lòng với điện toán phổ thông, để theo đuổi hiệu quả và hiệu năng cao hơn, họ sẽ dần có xu hướng chọn chip tùy chỉnh để duy trì lợi thế cạnh tranh của mình.
Trong bài phát biểu, Intel đã đề cập, đang hợp tác với Google để ra mắt IPU, loại chip này rất quan trọng đối với nhà cung cấp dịch vụ đám mây để nâng cao hiệu năng cơ sở hạ tầng. Đồng thời, Intel cũng hợp tác với khách hàng viễn thông như Ericsson để cung cấp chip cơ sở hạ tầng không dây tiên tiến trên toàn cầu.
Đây thực chất là một chủ đề khác trong bài phát biểu của Pat Gelsinger: Intel không còn chỉ dựa vào một con chip phổ thông để chiến thắng thị trường, mà đóng gói chip, hệ thống, phần mềm và hợp tác ngành thành một bộ giải pháp toàn diện, và có thể tùy chỉnh tự do theo nhu cầu của các doanh nghiệp khác nhau, từ đó tối đa hóa lợi thế của Intel.
Nguồn ảnh: Intel
Theo đánh giá của Leikeji, Intel thực chất đang định nghĩa lại vị trí sinh thái của mình: trung tâm dữ liệu cần CPU chịu trách nhiệm sắp xếp tác nhân thông minh, hệ thống suy luận cần sự tách rời dị thể để giảm chi phí, PC cần xử lý AI cục bộ cho các vấn đề riêng tư và tuân thủ, biên và thực thể thông minh cần chip hiệu suất năng lượng cao, khách hàng ngành công nghiệp thì cần chip tùy chỉnh.
Bằng cách đáp ứng nhu cầu của doanh nghiệp ở các lĩnh vực khác nhau, các liên kết khác nhau, Intel sẽ trở nên "có mặt ở khắp mọi nơi" hơn cả NVIDIA.
Tất nhiên, áp lực trước mắt của Intel vẫn rất lớn, lợi thế của NVIDIA trong bộ tăng tốc AI và hệ sinh thái phần mềm vẫn rõ ràng, AMD cũng liên tục tấn công trong CPU máy chủ và chip AI. Để Intel có thể đi thông con đường này, cuối cùng vẫn phải xem tốc độ sản xuất hàng loạt của 18A và giải pháp cấp giá của Xeon 6+ có nhanh chóng triển khai được hay không, cũng như khách hàng có thực sự nhìn thấy lợi ích rõ rệt từ bộ giải pháp mới này hay không.
Nhưng ít nhất lần này, hướng đi của Intel rõ ràng hơn trước đây.
Có thể nói, khi AI bước vào thời đại tác nhân thông minh, cạnh tranh từ lâu đã không còn chỉ là so sánh hiệu năng đỉnh của một con chip đơn lẻ, mà liên quan đến tối ưu hóa hiệu quả phối hợp của toàn bộ hệ thống tính toán. GPU vẫn quan trọng, nhưng CPU, thiết bị biên, AI cục bộ và chip tùy chỉnh cũng sẽ trở nên then chốt một lần nữa.
Và điều Intel muốn nắm bắt, chính là cửa sổ thời gian phân công lại cơ sở hạ tầng AI này.













