Tháng 6 năm 2026, AMD tại AI DevDay ở San Francisco đã xác nhận kế hoạch vận chuyển một thiết bị mới. Cỗ máy này có kích thước tương đương Mac mini của Apple, được trang bị 128GB bộ nhớ thống nhất, và được định vị chính thức là nền tảng phát triển AI tại chỗ. Chỉ vài tháng trước đó, DGX Spark của NVIDIA đã xuất hiện trên bàn làm việc của các nhà phát triển, cũng là một hộp kim loại nhỏ bằng bàn tay, cũng với 128GB bộ nhớ thống nhất, và cũng tuyên bố có thể chạy mô hình lớn 200 tỷ tham số ngay tại máy.
Nền tảng nhà phát triển AMD Ryzen AI Halo, trang bị bộ xử lý Ryzen AI Max+ 395
Báo cáo thực tế từ Tom's Hardware dựa trên HP Z2 Mini G1a đưa ra mức giá tham khảo cho phe AMD: từ $2,949 đến $3,999. Trang web chính thức của NVIDIA hiển thị DGX Spark có giá khởi điểm $3,999, một số phiên bản OEM đã có thảo luận về việc tăng lên $4,679 vào tháng 2/2026. Về giá cả, AMD áp đảo hơn một chút, nhưng đó chỉ là trên bề mặt.
Cùng 128GB, hai con đường khác nhau
Lõi của AMD Ryzen AI Halo là một bộ xử lý Ryzen AI Max+ 395, với 16 nhân Zen 5, 40 đơn vị tính toán GPU kiến trúc RDNA 3.5, cùng một NPU XDNA 2 có hiệu suất 50 TOPS đi kèm. Tài liệu phần cứng chính thức của NVIDIA mô tả DGX Spark theo một logic khác: GB10 Grace Blackwell Superchip, CPU ARM 20 nhân kết hợp GPU kiến trúc Blackwell, không có NPU, nhưng được nhồi thêm một card mạng ConnectX-7 200Gbps. Thiết bị của AMD cung cấp cổng mạng 2.5GbE và WiFi 7; bên phía NVIDIA là 10GbE cộng WiFi 7, cộng thêm chiếc card mạng tốc độ cao đắt tiền đó.
Thông số bộ nhớ có vẻ gần giống nhau. Cả hai đều là LPDDR5x 128GB. Trang sản phẩm của AMD ghi băng thông bộ nhớ là 256 GB/s, trong khi NVIDIA đưa ra con số 273 GB/s. Chênh lệch chưa đến 7%, hầu như không thể cảm nhận được trong hầu hết các tác vụ suy luận.
Lựa chọn hệ điều hành làm lộ ra sự phân kỳ căn bản hơn giữa hai bên. AMD Ryzen AI Halo được cài sẵn Windows 11 Pro, có thể chọn Ubuntu 24.04. Khởi động vào màn hình desktop PC tiêu chuẩn, có cổng Thunderbolt, hỗ trợ đầy đủ thiết bị ngoại vi thông dụng. DGX Spark chạy DGX OS, tùy chỉnh dựa trên Ubuntu, việc đầu tiên sau khi khởi động là cấu hình môi trường CUDA và chuỗi công cụ container của NVIDIA.
The Register đã thực hiện một so sánh thử nghiệm chi tiết vào tháng 12/2025. Kết luận là: trong suy luận mô hình ngôn ngữ lớn đơn lô, tốc độ sinh token của hai máy rất gần nhau. Nhưng ở giai đoạn xử lý prompt, DGX Spark nhanh hơn từ 2 đến 3 lần. Sự chênh lệch này đến từ việc kiến trúc Blackwell hỗ trợ tính toán độ chính xác thấp, cùng với hàng năm tối ưu hóa đường dẫn mã cho pipeline suy luận của NVIDIA. Đánh giá từ ServeTheHome chỉ ra một khía cạnh khác: Card mạng ConnectX-7 của DGX Spark có giá bán lẻ riêng lẻ vượt quá $900, giá trị tiềm năng của nó trong các kịch bản cụm nhiều máy vượt xa phạm vi suy luận đơn máy.
Theo thử nghiệm thực tế của các phương tiện truyền thông như Tom's Hardware, kích thước Ryzen AI Halo là cao 85mm, rộng 168mm, sâu 200mm, nặng 2.3 kg, gần với thể trạng của một trạm làm việc mini truyền thống hơn. Tài liệu chính thức của NVIDIA cho thấy DGX Spark có kích thước 150mm mỗi cạnh, dày 50.5mm, nặng 1.2 kg. Một cái giống như hộp đĩa cứng xếp chồng, một cái giống như bộ định tuyến.
Thanh tiến trình của ROCm, không còn chỉ là "dùng được là được"
Tài liệu phát hành chính thức của AMD cho thấy ROCm 7.2 ra mắt vào tháng 1/2026, phiên bản 7.2.4 sau đó đã được tối ưu hóa riêng cho tính ổn định và hiệu suất của khối lượng công việc suy luận AI. Phoronix đã có bài báo chi tiết vào ngày phát hành.
Đối với các nhà phát triển trong môi trường Linux, quy trình cài đặt ROCm hiện nay đã được đơn giản hóa nhiều so với hai năm trước. Tháng 3/2026, tác giả blog kỹ thuật Kunal Ganglani trong một hướng dẫn sử dụng ROCm chi tiết đã viết rằng, anh ấy chỉ mất khoảng 30 phút để hoàn thành toàn bộ quy trình từ cấu hình hệ thống đến chạy mô hình PyTorch trên RX 7900 XTX, "trong khi vào năm 2024, làm việc tương tự cần vất vả cả nửa ngày". Blog của anh ấy xác nhận ROCm hiện hỗ trợ bốn framework học sâu chính là PyTorch, TensorFlow, JAX, DGL, các engine suy luận như vLLM, Ollama, llama.cpp đều có backend ROCm khả dụng.
Nhưng những tiến bộ này không thể ngăn cản được quán tính của CUDA. Ngăn xếp phần mềm của NVIDIA đã tích lũy 17 năm, số lượng câu hỏi và trả lời liên quan đến CUDA trên Stack Overflow gấp hàng chục lần ROCm. Các phiên bản mới của các thư viện tiên phong như FlashAttention, xFormers thường ra phiên bản CUDA trước, phiên bản chuyển thể ROCm phải chờ vài tuần đến vài tháng. Bất kỳ kernel CUDA tùy chỉnh nào vượt ra ngoài phạm vi API tiêu chuẩn của PyTorch đều cần điều chỉnh thủ công trên nền tảng AMD. Ma trận tương thích chính thức của AMD liệt kê các kết hợp framework và GPU đã được xác minh, nhưng "được xác minh" và "có đủ bài thảo luận cộng đồng để tìm kiếm khi gặp vấn đề" là hai chuyện khác nhau.
Trên mục r/LocalLLaMA của Reddit, các bài thảo luận về việc nên chọn thiết bị nào đã không ngừng từ cuối năm 2025. Một bản tóm tắt thường được trích dẫn nhất đến từ phần kết của blog Ganglani: "Nếu bạn cần mọi thứ hoạt động hoàn hảo ngay từ ngày đầu tiên, hãy mua NVIDIA. Nếu bạn sẵn lòng dành một buổi chiều để giải quyết vấn đề và tiết kiệm $800, ROCm đã sẵn sàng."
AMD dường như rõ điều này. Một năm qua, hành động của công ty này không phải là sao chép mặt trận hào bảo vệ của NVIDIA, mà là xây dựng một lò riêng bên ngoài hào đó.
Tháng 8/2024, AMD thông báo mua lại ZT Systems với giá $49 tỷ. Wall Street Journal xác nhận giao dịch hoàn tất vào tháng 3/2025. Công việc kinh doanh của ZT Systems là giúp các khách hàng trung tâm dữ liệu siêu lớn thiết kế và lắp ráp hệ thống máy chủ AI cấp độ cả giá, khách hàng bao gồm các gã khổng lồ như Microsoft, Meta - những công ty mua hàng chục nghìn GPU mỗi năm. AMD có được là khả năng thiết kế hệ thống từ một GPU đơn lẻ đến cả giá.
Nhưng AMD nhanh chóng đưa ra một quyết định có vẻ mâu thuẫn. Tháng 5/2025, theo thông báo chính thức của Sanmina, AMD đã tách hoạt động sản xuất trung tâm dữ liệu của ZT Systems cho nhà cung cấp dịch vụ sản xuất điện tử này, chỉ giữ lại đội ngũ thiết kế cho mình. Logic rất rõ ràng: AMD không muốn trở thành đối thủ cạnh tranh của chính các khách hàng OEM của mình. Nếu AMD tự sản xuất máy chủ AI, các nhà sản xuất máy chủ bán card đồ họa AMD sẽ ngay lập tức cảnh giác. Giữ lại khả năng thiết kế, gia công sản xuất bên ngoài, động thái này cân bằng giữa việc bổ sung năng lực và quan hệ sinh thái.
Hai việc quan trọng hơn xảy ra trong nửa năm sau đó.
Tháng 10/2025, thông cáo báo chí chính thức của AMD thông báo hợp tác chiến lược với OpenAI, triển khai 6GW GPU AMD Instinct. Lô đầu tiên 1GW dự kiến xuất xưởng vào nửa cuối năm 2026. Trong thỏa thuận này ẩn chứa một điều khoản: OpenAI có thể chọn mua tối đa 10% cổ phần của AMD. Reuters và CNBC trong báo cáo cùng ngày đều nhấn mạnh chi tiết này. Cung cấp cho OpenAI sẽ là thế hệ GPU Instinct tiếp theo, AMD chưa công bố model cụ thể.
Tháng 2/2026, AMD lại phát hành thông cáo báo chí chính thức, thông báo hợp tác mở rộng với Meta, cũng triển khai 6GW GPU. Lần này con chip là phiên bản MI450 tùy chỉnh của Meta, kế hoạch bắt đầu xuất xưởng vào nửa cuối năm 2026. Báo cáo của CNBC trong ngày chỉ ra một chi tiết: ngay trước khi hợp tác này được công bố vài ngày, Meta cũng thông báo thỏa thuận mở rộng mua chip AI với NVIDIA.
Việc Meta cùng ký đơn đặt hàng dài hạn với cả hai bên, bản thân điều này đã có sức thuyết phục hơn bất kỳ so sánh kỹ thuật nào. Đối với các doanh nghiệp đầu tư hàng chục tỷ đô la hàng năm vào cơ sở hạ tầng AI, việc đặt tất cả trứng vào một giỏ là rủi ro không thể chấp nhận được. AMD không cần hiệu suất vượt trội toàn diện so với NVIDIA, chỉ cần cung cấp một lựa chọn khả dụng bên ngoài NVIDIA, là có thể cắt được đơn hàng dưới logic "hai nhà cung cấp". Quy mô của hai hợp đồng 6GW ám chỉ rằng, ít nhất OpenAI và Meta đã đưa AMD vào danh sách đơn hàng đó.
Ứng phó đồng thời của NVIDIA, là một loạt đòn kết hợp
Cùng thời điểm, NVIDIA tung ra một loạt đòn kết hợp trên thị trường doanh nghiệp. DGX Spark được định vị là thiết bị bàn làm việc cho nhà phát triển, nhưng card mạng ConnectX-7 của nó quyết định nó không phải là một trạm làm việc cô lập. Đánh giá từ ServeTheHome phân tích chi tiết giá trị của card mạng này trong việc kiểm chứng nguyên mẫu và gỡ lỗi huấn luyện phân tán, kết luận là mặc dù chậm hơn nhiều so với NVLink cấp trung tâm dữ liệu, nhưng đối với các kịch bản cụm quy mô nhỏ đã đủ dùng. Thiết kế này gắn chặt DGX Spark vào dòng sản phẩm doanh nghiệp lớn hơn của NVIDIA: nhà phát triển dùng Spark làm nguyên mẫu, sau đó di chuyển mã lên DGX Station hoặc instance DGX trên đám mây, cuối cùng triển khai lên các cụm máy chủ trang bị H200 hoặc B200. Một chuỗi công cụ nhất quán từ phần cứng đến phần mềm, từ bàn làm việc đến trung tâm dữ liệu, được hàn chặt vào CUDA.
NVIDIA đồng thời cũng ra mắt bộ phần mềm đăng ký AI Enterprise, đóng gói các công cụ như TensorRT, RAPIDS, máy chủ suy luận Triton, tính phí theo nút. Trang sản phẩm chính thức của NVIDIA liệt kê danh sách đầy đủ các công cụ mà AI Enterprise bao gồm. Đây không phải là bán phần cứng, mà là sau khi các nhà phát triển đã quen với CUDA, biến việc triển khai và vận hành cấp doanh nghiệp thành một công việc phải trả phí liên tục.
So sánh con đường của hai bên, sự phân kỳ đã đủ rõ ràng.
NVIDIA xây dựng một vòng khép kín toàn ngăn xếp từ chip đến hệ thống, phần mềm đến dịch vụ đám mây. Nhà phát triển bước vào vòng khép kín này ngay ngày đầu tiên có thể sử dụng các công cụ đã được tối ưu hóa, cái giá phải trả là bị ràng buộc vào hệ sinh thái của một nhà cung cấp. AMD đi theo một con đường thay thế mở: sử dụng kiến trúc x86 tiêu chuẩn ngành, hỗ trợ hệ thống kép Windows và Linux, biến ROCm thành ngăn xếp mã nguồn mở tương thích với các framework chủ đạo, dùng giá thấp hơn để tranh giành những khách hàng nhạy cảm về chi phí hoặc đã quyết định phân tán rủi ro nhà cung cấp.
Bản thân sản phẩm Ryzen AI Halo là biểu đạt phần cứng tối giản nhất của con đường này. Nó không có card mạng tùy chỉnh, không có hệ điều hành chuyên dụng, không có đơn vị tăng tốc huấn luyện độ chính xác thấp. Nó là một PC thông dụng, tình cờ được nhồi một bộ nhớ thống nhất đủ để chạy mô hình 200B tham số và một bộ GPU khá ổn. Bạn có thể dùng nó chạy suy luận mô hình lớn, cũng có thể tắt terminal để mở Photoshop. Giá $2,949 của HP Z2 Mini G1a mà Tom's Hardware trích dẫn trong báo cáo, thấp hơn nhiều so với mức khởi điểm $3,999 của DGX Spark, nếu đổi sang phiên bản OEM khác, chênh lệch giá có thể lên đến hơn $1,000.
Nhưng mặt trái của tính linh hoạt này là sự thỏa hiệp. Dữ liệu thử nghiệm thực tế của The Register đã cho thấy, một khi rời khỏi kịch bản suy luận đơn lô bước vào các kịch bản cần tính toán song song lớn, ưu thế độ chính xác thấp của kiến trúc Blackwell và ngăn xếp phần mềm được tối ưu hóa qua nhiều năm sẽ nhanh chóng tạo ra khoảng cách. Nếu bạn cần một hộp để bàn có thể chạy Stable Diffusion tạo ảnh, hệ sinh thái CUDA của NVIDIA có cả một bộ công cụ cài là chạy. Kiến trúc RDNA 3.5 của AMD không hỗ trợ định dạng độ chính xác thấp FP4 và FP8, bị thiệt về hiệu suất trên các khối lượng công việc tạo ảnh, điều này do thiết kế kiến trúc RDNA quyết định, không phải cập nhật driver có thể giải quyết.
Vận mệnh của chiếc hộp, không nằm trong chiếc hộp
Thu hẹp dòng thời gian lại, các động thái của AMD trong năm qua tạo thành một con đường khá rõ ràng.
Ở cấp độ phần cứng, Instinct MI300 và MI325X sản xuất hàng loạt, MI350 và MI450 tiến triển theo lộ trình, Ryzen AI Max+ 395 từ chip laptop biến thành APU desktop nhồi vào nền tảng phát triển. Ở cấp độ hệ thống, thông qua việc mua lại ZT Systems có được khả năng thiết kế cấp giá, sau đó tách sản xuất giữ lại nghiên cứu phát triển. Ở cấp độ khách hàng, dùng hai hợp đồng dài hạn cấp 6GW để buộc chặt hai người tiêu dùng sức mạnh tính toán AI lớn nhất toàn cầu, nhân tiện kéo OpenAI vào danh sách cổ đông. Ở cấp độ phần mềm, ROCm lặp với tốc độ khoảng mỗi quý một phiên bản, đuổi kịp sự hỗ trợ của các framework chủ đạo, nhưng việc chuyển thể các thư viện tiên phong và tích lũy cộng đồng vẫn cần thời gian.
Mỗi bước không hề đơn lẻ. Việc mua lại ZT Systems là để có khả năng thiết kế loại cụm AI siêu lớn mà OpenAI và Meta cần, chứ không chỉ bán GPU cho các nhà sản xuất máy chủ. Việc lặp nhanh ROCm là để khách hàng ký hợp đồng 6GW có ngăn xếp phần mềm khả dụng khi triển khai, chứ không giao hàng máy trần. Việc ra mắt Ryzen AI Halo là để mở rộng cùng hệ sinh thái ROCm đó đến đầu cuối desktop, cho phép nhà phát triển dùng một máy $3,000 để gỡ lỗi cục bộ, sau đó triển khai mô hình lên cụm MI450 trên đám mây.
Nhưng điều này không có nghĩa AMD đã đuổi kịp NVIDIA. Hai hợp đồng 6GW là cam kết triển khai trong tương lai, dung lượng năng lượng tính bằng gigawatt phản ánh quy mô quy hoạch cơ sở hạ tầng, không phải số lượng chip đã xuất xưởng. Thông số cụ thể của MI450 đến nay vẫn chưa được công khai, hiệu suất thực tế của chip, tỷ lệ sản phẩm tốt, độ ổn định sau khi triển khai quy mô lớn đều là ẩn số. ROCm trên các framework chủ đạo đã đạt được trạng thái "dùng được", nhưng trạng thái "cộng đồng có thể giúp bạn khi gặp vấn đề" vẫn cần tích lũy lâu hơn. Và sự tích lũy 17 năm của CUDA không thể được tiêu hóa chỉ bằng vài quý lặp nhanh.
Hào bảo vệ của NVIDIA cũng không chỉ nằm ở phần mềm. Card mạng ConnectX-7 của DGX Spark ám chỉ một chiều kích cạnh tranh khác: khi AMD dùng tỷ lệ chi phí/hiệu suất và tính mở để tranh giành nhà phát triển, NVIDIA dùng khả năng mở rộng cụm để khóa chặt các nhóm cần thực hiện huấn luyện phân tán và pipeline suy luận lớn. Mua một DGX Spark là $3,999, mua hai cái cộng với dây mạng là có thể chạy nguyên mẫu phân tán. Trong kịch bản này, ưu thế ngang bằng trong suy luận đơn máy của ROCm bị triệt tiêu.
Sự phân kỳ của hai công ty trong AI, cuối cùng khi rơi vào chiếc hộp nhỏ bằng bàn tay này, biến thành một lựa chọn cụ thể. Bạn mở hộp của AMD, nhận được một môi trường PC quen thuộc, dùng hầu như cùng các lệnh cài đặt PyTorch, tải mô hình, bắt đầu suy luận, quá trình suôn sẻ, cho đến khi bạn cần dùng một thư viện chỉ có backend CUDA. Bạn mở hộp của NVIDIA, nhận được một môi trường chuyên dụng được tối ưu hóa từ phần cứng, driver đến chuỗi công cụ container, khởi động xong mọi thứ đều trong dự kiến, chỉ có điều hóa đơn nhiều hơn hơn một nghìn đô la, và chi phí di chuyển khi đổi nhà cung cấp sau này đã bị khóa chặt trước.
AMD không thách thức trực tiếp đế chế toàn ngăn xếp của NVIDIA. Họ chọn một con đường thực tế hơn: khi khả năng định giá và giao hàng chuỗi cung ứng của NVIDIA không thể đáp ứng nhu cầu của tất cả khách hàng, hãy trở thành một lựa chọn thay thế đủ dùng. Hai hợp đồng 6GW là bằng chứng thuyết phục nhất cho chiến lược này cho đến nay. Ryzen AI Halo là sự mở rộng của chiến lược này ở đầu cuối desktop, không phải theo phong trào làm hộp AI nhỏ, mà là đi thêm một bước dọc theo đường thẳng "dùng hệ sinh thái mở và ưu thế chi phí để tranh giành các nhà phát triển không muốn bị khóa chặt".






