Hai năm qua, các nhà sản xuất PC khi quảng cáo "AI PC" thường nhắc đến một thông số: hiệu năng NPU. Nhưng dù là 45 TOPS của Intel Lunar Lake hay 50 TOPS của AMD Strix Point, những con số này vẫn dừng ở một mức độ tương đối khiêm tốn. Chúng có thể làm xóa phông, giảm tiếng ồn, chạy các mô hình nhỏ phía máy, nhưng cũng chỉ đến vậy.
Ngày 31/5, tại hội nghị GTC 2026, NVIDIA đã giới thiệu siêu chip RTX Spark, đẩy con số này lên 1 petaflop, tức 1000 TOPS. Không phải tăng 30% hay 50%, mà là vượt lên một bậc độ lớn.
Cùng lúc đó còn có những thông tin khác: Microsoft nâng cấp cơ chế bảo mật gốc của Windows để phối hợp với RTX Spark và đưa môi trường thời gian chạy sandbox mã nguồn mở OpenShell của NVIDIA vào nền tảng Windows; Adobe thông báo tái cấu trúc Photoshop và Premiere từ nền tảng, tối ưu hóa riêng cho kiến trúc bộ nhớ thống nhất của RTX Spark; Sáu OEM đầu tiên xác nhận sẽ ra mắt máy tính xách tay mỏng nhẹ và máy tính để bàn nhỏ gọn trang bị con chip này vào mùa thu năm nay.
Điều NVIDIA làm tại GTC lần này không phải là ra mắt một con chip mới. Họ đang cố gắng đặt ra một tiêu chuẩn phần cứng mới cho danh mục "Máy tính Cá nhân AI".
Khi GPU trở thành nhân vật chính của PC
Đầu tiên hãy xem chính con chip này. Theo dữ liệu NVIDIA công bố tại GTC, RTX Spark tích hợp một GPU kiến trúc Blackwell với 6144 nhân CUDA, đi kèm là CPU Grace 20 nhân kiến trúc Arm được đồng thiết kế với MediaTek, sản xuất trên tiến trình 3nm của TSMC. Thay đổi then chốt nằm ở kiến trúc bộ nhớ: bộ nhớ thống nhất dung lượng tối đa 128GB, CPU và GPU chia sẻ chung một nhóm bộ nhớ, dữ liệu không cần phải di chuyển qua lại giữa hai bên.
Điều này trái ngược với logic kiến trúc PC trước đây.
Cấu trúc cơ bản truyền thống của PC là "CPU x86 làm bộ xử lý chính, GPU rời là phụ kiện tùy chọn". Ngay cả khái niệm AI PC nổi lên trong những năm gần đây, cách làm của Intel và AMD cũng là tích hợp một NPU vào CPU, như một mô-đun phụ trợ tăng tốc AI, với hiệu năng phổ biến ở mức 40-50 TOPS. GPU vẫn là thành phần "gắn ngoài".
RTX Spark phân phối lại quyền lực. SoC này biến GPU thành nhân vật chính, CPU lùi xuống vai phụ. NVIDIA đưa ra hiệu năng AI là 1 petaflop FP4, tương đương 1000 TOPS, gấp hơn 20 lần hiệu năng NPU tích hợp trong AI PC thế hệ trước. Đây không phải là tăng tốc trên cùng một đường đua, mà là sự khởi đầu của một đường đua khác.
Tốc độ theo chân của các OEM xác nhận nhận định này. Theo thông báo chính thức của NVIDIA và báo cáo tiếp theo của DIGITIMES, ASUS, Dell, HP, Lenovo, Microsoft Surface và MSI sẽ ra mắt máy tính xách tay mỏng nhẹ và máy tính để bàn nhỏ gọn trang bị RTX Spark vào mùa thu năm nay, các model của Acer và Gigabyte sẽ theo sau. Hầu như tất cả các thương hiệu PC Windows chủ đều đã tham gia.
RTX Spark không phải là sản phẩm sinh ra từ con số không. Đầu năm 2025, chip cùng lõi Blackwell và Grace này từng xuất hiện dưới dạng Project DIGITS và DGX Spark, nhưng khi đó định vị là siêu máy tính để bàn Linux dành cho nhà phát triển, kích thước gần bằng một máy tính để bàn cỡ nhỏ. Một năm sau, kiến trúc này được nén vào không gian tản nhiệt của laptop mỏng nhẹ, hệ điều hành chuyển từ Linux sang Windows, đối tượng người dùng mở rộng từ nhà phát triển AI sang người dùng phổ thông và doanh nghiệp. Đây mới là thay đổi đáng chú ý nhất trong ra mắt cấp tiêu dùng tại GTC 2026: NVIDIA không phát hành một món đồ chơi cho nhà phát triển, mà đang mở cánh cửa thị trường tiêu dùng.
Mô hình 120B chạy trên máy, đã đủ dùng chưa
Các con số hiệu năng và bộ nhớ cuối cùng phải trả lời một câu hỏi: có thể làm được gì?
Câu trả lời NVIDIA đưa ra tại buổi ra mắt là, RTX Spark hỗ trợ chạy cục bộ mô hình lớn 120B tham số, với cửa sổ ngữ cảnh có thể đạt tới triệu token. 120B là khái niệm gì? Để so sánh, thực tiễn phổ biến hiện tại cho phần cứng tiêu dùng chạy mô hình cục bộ là, RTX 4090 24GB VRAM thông qua nén lượng tử hóa có thể chạy mô hình cấp 30B đến 40B tham số. Một số mô hình nhỏ hơn, như mô hình 9B, có thể chạy nhanh trên card đồ họa cấp tiêu dùng. Từ 9B lên 120B, bước nhảy này đã vạch lại tiêu chuẩn "đủ dùng" cho AI phía máy.
128GB bộ nhớ thống nhất là tiền đề cho tất cả điều này. Trên kiến trúc PC truyền thống, CPU có bộ nhớ hệ thống riêng, GPU có VRAM riêng, giữa hai bên có ranh giới vật lý. Một mô hình lớn vượt quá dung lượng VRAM hoặc không thể chạy, hoặc cần chia tách mô hình phức tạp và trao đổi bộ nhớ, tốc độ giảm mạnh. Kiến trúc bộ nhớ thống nhất xóa bỏ nút cổ chai này, dữ liệu mô hình được đặt trực tiếp vào nhóm 128GB được chia sẻ, cả CPU và GPU đều có thể truy cập. Apple đã chứng minh tính khả thi cấp tiêu dùng của lộ trình công nghệ này trên Apple Silicon, giờ đây NVIDIA mang nó đến phe Windows.
Ngoài suy luận mô hình lớn, các trường hợp sử dụng NVIDIA liệt kê còn bao gồm chỉnh sửa video 12K, render cảnh 3D trên 90GB, chơi game dò tia (ray tracing) ở độ phân giải 1440p với hơn 100fps. Điểm chung của những kịch bản này là lượng dữ liệu xử lý một lần cực lớn, PC truyền thống hoặc cần thời gian chờ gấp nhiều lần thời gian xử lý, hoặc không thể chạy được.
Giữa "hỗ trợ chạy" và "sử dụng trơn tru" vẫn có một khoảng cách. NVIDIA không công bố tốc độ suy luận thực tế của mô hình 120B trên RTX Spark, cũng không đưa ra dữ liệu độ trễ token đầu tiên trong kịch bản ngữ cảnh triệu token. Chỉ số quan trọng quyết định tốc độ suy luận ngữ cảnh dài là băng thông bộ nhớ. Để tham khảo, DGX Spark cùng sử dụng lõi GB10 trong thực nghiệm có băng thông bộ nhớ khoảng 301GB/s. Mức băng thông này chạy mô hình 120B là được, nhưng khi xử lý cửa sổ ngữ cảnh cấp triệu token, người dùng có thể cần chờ vài giây mới thấy token đầu ra đầu tiên. Phiên bản laptop của RTX Spark có thể do hạn chế công suất mà băng thông thực tế sẽ được điều chỉnh phần nào.
Thêm một chiếc "lồng an toàn" cho AI Agent
Một nội dung cốt lõi khác ngoài hiệu năng, là sự hợp tác giữa NVIDIA và Microsoft ở cấp độ hệ thống. Phần này có thể là nội dung dễ bị bỏ qua nhất trong các ra mắt cấp tiêu dùng tại GTC 2026, nhưng lại có ảnh hưởng sâu nhất tới ngành công nghiệp.
Một máy tính có thể chạy mô hình 120B, nếu giao cho một AI Agent có thể tự chủ thao tác desktop, nhấn nút, đọc ghi file, thì rủi ro bảo mật không còn ở mức "liệu có mất dữ liệu không" nữa, mà là "liệu agent có làm điều bạn không mong muốn không". Vấn đề này không giải quyết, doanh nghiệp không thể triển khai loại thiết bị này cho nhân viên.
Giải pháp Microsoft và NVIDIA đưa ra là hai lớp phòng thủ. Lớp thứ nhất, Microsoft nâng cấp cơ chế bảo mật gốc của Windows, cung cấp giám sát và ràng buộc hành vi AI Agent từ cấp hệ điều hành. Lớp thứ hai, NVIDIA chính thức đưa môi trường thời gian chạy OpenShell vào nền tảng Windows. Theo tài liệu chính thức của NVIDIA, OpenShell là một môi trường thời gian chạy sandbox mã nguồn mở, cung cấp sự cô lập cấp nhân hệ thống. Nó khoanh vùng một phạm vi hoạt động có thể kiểm soát cho AI Agent, agent có thể tự chủ thực hiện nhiệm vụ trong phạm vi này, nhưng quyền bị hạn chế chặt chẽ, không thể vượt ranh giới truy cập file lõi hệ thống, kết nối mạng hoặc dữ liệu nhạy cảm của người dùng.
Ý nghĩa của sự kết hợp này đối với việc mua sắm doanh nghiệp là rõ ràng. Trước đó, khái niệm "AI Agent cục bộ" này chỉ dừng ở giai đoạn trình diễn công nghệ. Phần cứng chạy được, nhưng khung bảo mật thì trống rỗng. Không bộ phận IT doanh nghiệp nào dám đưa thiết bị trong trạng thái này vào danh sách mua sắm. NVIDIA và Microsoft chèn một lớp cô lập tiêu chuẩn hóa giữa phần cứng và ứng dụng, biến "có thể dùng" thành "có thể quản lý".
Chi phí hiệu năng của chính OpenShell là một biến số cần theo dõi. Việc cô lập sandbox thường dẫn đến một mức độ tổn hao hiệu năng nhất định, cụ thể ảnh hưởng bao nhiêu đến tốc độ suy luận hoặc phản hồi hệ thống, NVIDIA hiện chưa công bố dữ liệu. Độ phức tạp triển khai ở phía quản lý IT doanh nghiệp, khả năng tương thích với các chính sách bảo mật hiện có, những vấn đề thực tế khi triển khai cần được kiểm chứng sau khi thiết bị OEM ra mắt.
Tại sao Adobe sẵn sàng "tái cấu trúc từ nền tảng"
Mức độ phối hợp của các nhà cung cấp phần mềm thường là tín hiệu phong vũ biểu để đánh giá xem một nền tảng phần cứng mới có đứng vững được không.
Động thái Adobe thông báo trong thời gian GTC là tín hiệu lớn nhất từ phía phần mềm trong đợt ra mắt này. Theo xác nhận từ blog chính thức của NVIDIA và lãnh đạo Adobe, Adobe đã khởi động việc tái cấu trúc nền tảng Photoshop và Premiere, tối ưu hóa riêng cho kiến trúc bộ nhớ thống nhất của RTX Spark, tuyên bố hiệu năng xử lý AI và đồ họa có thể tăng gấp 2 lần.
"Tái cấu trúc từ nền tảng" không phải là thêm plugin hay làm một lớp thích ứng. Trên PC truyền thống, CPU và GPU có không gian bộ nhớ riêng, khi xử lý một file PSD siêu lớn hoặc timeline video 8K, dữ liệu phải di chuyển qua lại liên tục giữa hai nhóm bộ nhớ, đây là nơi lãng phí hiệu năng nhiều nhất. Bộ nhớ thống nhất của RTX Spark cho phép CPU và GPU chia sẻ trực tiếp cùng một không gian 128GB, thay đổi cấu trúc này có giá trị thực tế với quy trình làm việc của người sáng tạo chuyên nghiệp. Adobe động đến code nền tảng vì điều này, chứng tỏ họ công nhận hướng kiến trúc này không phải là một chiêu tiếp thị nhất thời.
Tuy nhiên, điểm chuẩn so sánh cho việc "tăng tốc 2 lần" này là gì, cả NVIDIA và Adobe đều không công bố. So với bộ xử lý x86 cùng thế hệ cộng card đồ họa rời, hay so với giải pháp NPU của AI PC thế hệ trước? Kết quả sẽ hoàn toàn khác nhau. Trước khi điều kiện kiểm tra chuẩn được công khai, hàm lượng vàng của con số này chỉ có thể được đánh dấu hỏi.
Các công ty cùng thông báo hỗ trợ còn có Blackmagic Design, ComfyUI, llama.cpp, OTOY cùng nhiều nhà phát hành game. Việc ComfyUI và llama.cpp theo chân đáng chú ý, vì chúng là những công cụ mã nguồn mở năng động nhất trong quy trình làm việc AI cục bộ hiện tại. Sự hỗ trợ sớm từ cộng đồng nhà phát triển thường phản ánh tiềm năng hệ sinh thái của một nền tảng một cách chân thực hơn so với lời hứa của các hãng lớn.
NVIDIA đang sử dụng hệ sinh thái CUDA và kiến trúc bộ nhớ thống nhất để xây dựng trải nghiệm tích hợp phần mềm-phần cứng tương tự như Apple trong phe Windows. Khác biệt là, bức tường của Apple do chính họ xây, còn NVIDIA cần thuyết phục Microsoft và các ISV (Nhà cung cấp Phần mềm Độc lập) cùng xây. Việc Adobe sẵn sàng động thủ từ nền tảng, ít nhất cho thấy viên gạch đầu tiên của bức tường này đã được đặt.
Ngoài các thông số trên giấy
Quay lại một câu hỏi thực tế nhất: những thiết bị này cuối cùng có mua được không, và trải nghiệm khi mua về là gì?
Theo thông tin NVIDIA công bố, các thiết bị RTX Spark đầu tiên sẽ ra mắt vào mùa thu năm nay, bao gồm máy tính xách tay mỏng nhẹ và máy tính để bàn nhỏ gọn từ ASUS, Dell, HP, Lenovo, Microsoft Surface và MSI. Các model của Acer và Gigabyte sẽ theo sau sau đó. Tất cả OEM đều chưa công bố mức giá cụ thể và ngày ra mắt chính xác.
Quan trọng hơn giá cả là vài ẩn số ở cấp độ vật lý. Nhét một con chip có hiệu năng 1 petaflop vào laptop mỏng nhẹ, cân bằng công suất và tản nhiệt thế nào? Hiệu năng hàng ngày và thời lượng pin của RTX Spark trong các tác vụ văn phòng phi AI ra sao? Băng thông thực tế của 128GB bộ nhớ thống nhất trong dạng laptop liệu có bị thu hẹp đáng kể do hạn chế công suất?
Những câu hỏi này là thử thách thực sự của việc sản xuất hàng loạt. Hiệu năng đỉnh của một con chip trên mẫu kỹ thuật và biểu hiện thực tế 8 giờ mỗi ngày trong tay người tiêu dùng, thường là hai chuyện khác nhau. NVIDIA tại buổi ra mắt nhấn mạnh hiệu suất năng lượng của RTX Spark, nhưng không đưa ra con số TDP cụ thể hoặc dữ liệu thời lượng pin.
Từ góc độ cấu trúc ngành PC, sự xuất hiện của RTX Spark đánh dấu một mô hình phân công mới đang hình thành. Ba mươi năm qua, quyền lực lõi chip PC nằm trong tay các nhà sản xuất bộ xử lý x86, các nhà sản xuất GPU dù ngày càng quan trọng nhưng vẫn là "phụ kiện cắm vào bo mạch chủ". Lần này NVIDIA đưa ra là một SoC hoàn chỉnh, tích hợp tất cả từ CPU, GPU đến bộ điều khiển bộ nhớ, phần CPU kiến trúc Arm do MediaTek thiết kế. Cấu trúc quyền lực của chuỗi cung ứng PC, đang chuyển từ "CPU x86 cộng với GPU tùy chọn" sang "nền tảng SoC lấy GPU làm trung tâm".
Sự chuyển hướng này sẽ không hoàn thành trong một ngày. Chiến lược định giá của OEM, biểu hiện hiệu suất năng lượng thực tế của sản phẩm, tiến độ thích ứng phần mềm ISV, chu kỳ xác minh mua sắm của khách hàng doanh nghiệp, mỗi khâu đều quyết định RTX Spark sẽ trở thành tọa độ mới của ngành công nghiệp PC, hay chỉ là một trình diễn công nghệ khởi đầu cao nhưng kết thúc thấp. Câu trả lời ít nhất phải chờ đến mùa thu năm nay.








