Biên tập & Biên dịch: Deep潮TechFlow
Khách mời: Jensen Huang, CEO NVIDIA
Nguồn Podcast: Bonnie Blockchain
Tiêu đề gốc: 7 Điểm cốt lõi trong bài phát biểu của Jensen Huang tại GTC Taipei 2026, Tóm tắt chiến lược mới nhất của NVIDIA!【Bonnie Blockchain】
Ngày phát: 2 tháng 6, 2026
Tóm tắt chính
Trong bài phát biểu tại GTC Taipei 2026, Jensen Huang tập trung chiến lược giai đoạn tiếp theo của NVIDIA vào một nhận định cốt lõi: AI đã chuyển từ việc tạo nội dung sang kỷ nguyên của các tác nhân (Agent) có thể làm việc, Token không còn chỉ là chỉ số kỹ thuật, mà đã trở thành đơn vị sản xuất doanh thu, lợi nhuận và GDP. Xoay quanh sự thay đổi này, NVIDIA đã giới thiệu Vera Rubin, Vera CPU, bộ công cụ Agent cấp doanh nghiệp, PC thế hệ mới hợp tác với Microsoft, cùng Cosmos 3, Alpamayo 2 và Isaac GR00T hướng đến AI vật lý. Jensen Huang nhấn mạnh, mô hình tính toán trong thập kỷ tới sẽ được cấu thành bởi mô hình, framework Agent, công cụ kỹ năng và runtime, và sẽ lan tỏa từ đám mây, doanh nghiệp, PC cục bộ đến robot, nhà máy, vệ tinh và thiết bị biên. Đối với chuỗi cung ứng Đài Loan, điều này có nghĩa nhà máy AI, hiệu suất năng lượng, tốc độ triển khai hạ tầng và khả năng hợp tác toàn bộ hệ thống (full-stack) sẽ trở thành chìa khóa cho sự tăng trưởng ngành công nghiệp ở làn sóng tiếp theo.
Trích dẫn quan điểm nổi bật
Kỷ nguyên AI Agent đã đến
- "AI hữu ích đã đến, giờ đây AI là bộ tạo lợi nhuận, cũng là bộ tạo GDP. Đằng sau nó không chỉ là mô hình ngôn ngữ lớn (LLM), mà là một mô hình tính toán hoàn toàn mới: Agent."
- "Agent được tạo thành từ mô hình ngôn ngữ lớn và một framework Agent, framework giống như hệ điều hành kết nối bộ nhớ, công cụ, suy luận, lập kế hoạch và hành động."
- "Đột phá của hệ thống Agent đến từ việc mô hình ngôn ngữ lớn đã có thể suy nghĩ, lập luận, lập kế hoạch và sử dụng công cụ, cũng như từ việc framework Agent có thể quản lý bộ nhớ, điều phối quy trình và lên lịch cho các công cụ."
- "Mỗi công ty sẽ trở thành một công ty Agent, mỗi công ty bên trong sẽ chạy Agent, và cũng sẽ cần hệ điều hành Agent của riêng mình."
Token, Nhà máy AI và Kinh tế học Hạ tầng
- "Token giờ là đơn vị doanh thu có lợi nhuận. Công ty AI muốn sản xuất nhiều Token hơn, họ sẽ xây dựng thêm nhiều nhà máy AI, đó chính là lý do nhu cầu tính toán ở Đài Loan bùng nổ."
- "Tính toán là doanh thu, tính toán là lợi nhuận. Không có doanh thu và lợi nhuận, chính là thua lỗ."
- "Nếu một nhà máy AI chỉ có 1 gigawatt điện, giới hạn điện năng chính là 1 gigawatt; trong điều kiện tiên quyết này, thông lượng trên mỗi watt chính là doanh thu, vì mỗi Token đều có giá trị."
- "Chỉ vì chip rẻ hơn mà chọn kiến trúc sai sẽ không chuyển hóa thành lợi nhuận thực sự, bạn cần đảm bảo là doanh thu trên mỗi watt. Mua càng nhiều, kiếm càng nhiều."
Vera Rubin và Sự Chuyển đổi Hạ tầng của NVIDIA
- "Vera Rubin không phải là một con chip, cũng không chỉ là GPU, mà là một hệ thống hoàn chỉnh được xây dựng từ đầu đến cuối (end-to-end)."
- "NVIDIA trước đây là công ty GPU, sau này trở thành công ty hệ thống, và giờ đây đang tiến thêm một bước trở thành công ty hạ tầng, giúp khách hàng xây dựng nhà máy AI."
- "Vera Rubin là dự án kỹ thuật đầy tham vọng nhất trong lịch sử NVIDIA, toàn bộ 40,000 kỹ sư trong công ty đều tham gia vào đó, chuỗi cung ứng Đài Loan cũng cùng tham gia sáng tạo ra hệ thống này."
- "Grace Blackwell được sinh ra để xử lý AI, đặc biệt là suy luận (inference); còn Vera Rubin thì sinh ra để chạy Agent."
Vera CPU và Nhu cầu Tính toán của Agent
- "Trước đây tất cả CPU đều được tạo ra cho con người, con CPU này là dành cho Agent."
- "Agent không có sự kiên nhẫn. Thế giới chúng sống không phải tính bằng giây, mà bằng nano giây. Khi Agent sử dụng công cụ, chúng muốn phản hồi càng nhanh càng tốt; khi truy cập cơ sở dữ liệu, chúng muốn kết quả trả về ngay lập tức."
- "Vera CPU là CPU được tạo ra cho Agent, nó nhấn mạnh hiệu suất đơn luồng, số lệnh mỗi chu kỳ xung nhịp, băng thông mỗi lõi và tổng băng thông hệ thống."
- "Thị trường này chắc chắn sẽ lớn hơn thị trường trước đó, vì số lượng Agent sẽ vượt xa số lượng con người, và Agent rất thiếu kiên nhẫn. Đó chính là NVIDIA Vera CPU."
Máy tính Cá nhân Thế hệ Tiếp theo
- "Mô hình tính toán Agent trong tương lai sẽ chạy trên đám mây AI, bên trong doanh nghiệp, và cũng sẽ chạy trên PC của bạn."
- "Hệ điều hành mới sẽ là hệ điều hành truyền thống cộng với mô hình ngôn ngữ lớn; mô hình ngôn ngữ lớn theo nhiều nghĩa chính là DirectX phiên bản hiện đại, là phần mở rộng thông minh của máy tính."
- "Ứng dụng sẽ được thay thế bởi runtime Agent, ứng dụng hiện đại sẽ trở thành một Agent."
- "NVIDIA và Microsoft đang tái phát minh PC, và tung ra thế hệ máy Windows mới bao phủ máy để bàn, máy tính xách tay và trạm làm việc."
AI Vật lý, Xe tự hành và Robot
- "Mô hình ngôn ngữ được huấn luyện trên dữ liệu từ góc nhìn con người, nhưng robot cần hiểu thế giới từ góc nhìn của chính robot, vấn đề lớn nhất của AI vật lý là dữ liệu."
- "Cosmos 3 là mô hình nền tảng tiên phong cho AI vật lý, có thể hiểu, suy luận, tạo ra, mô phỏng vòng khép kín (closed-loop), thậm chí trở thành chính chiến lược."
- "Có AI rồi, bản thân tính toán cũng sẽ trở thành dữ liệu; có thể dùng Cosmos 3 để huấn luyện nhiều mô hình AI hơn, và tăng cường nó thành mô hình độc quyền của riêng mình."
- "Cho dù là Agent trên đám mây, Agent trên PC, hệ thống lái tự động hay robot hình người, mô hình tính toán đằng sau đều giống nhau: mô hình, framework, công cụ kỹ năng và runtime."
Jensen Huang chỉ định ẩm thực đường phố Đài Loan trở thành chuỗi cung ứng AI
Jensen Huang:
Hệ sinh thái Đài Loan đã phát triển đến quy mô ngày hôm nay, thực sự khó tin. Khi đa số mọi người nói về hệ sinh thái, đầu tiên họ nghĩ đến ngăn xếp phần mềm của chúng tôi, nghĩ đến hệ sinh thái nhà phát triển trên hệ thống tính toán NVIDIA. Nhưng hệ sinh thái của NVIDIA không dừng lại ở đó, nó mở rộng lên đến chuỗi cung ứng Đài Loan, nơi mọi thứ bắt đầu; và mở rộng xuống đến trung tâm dữ liệu, cuối cùng đến người dùng cuối.
Hôm nay, chúng ta hầu như sẽ nói về mọi khâu của hệ sinh thái này. Có quá nhiều người đáng để cảm ơn. Tôi yêu hệ sinh thái ở đây. Có rất nhiều doanh nghiệp ở đây, cũng có rất nhiều đối tác hệ sinh thái mà tôi yêu thích nhất. Đài Loan sở hữu một hệ sinh thái cực kỳ phong phú, đây là hệ sinh thái chuỗi cung ứng tốt nhất toàn cầu.
Kỷ nguyên AI Agent đã đến
Jensen Huang:
Hai năm trước khi tôi đến đây, tôi bắt đầu nói với mọi người về việc AI sẽ chuyển từ AI sinh tạo (Generative AI) sang làn sóng tiếp theo như thế nào, làn sóng AI tiếp theo là AI tác nhân (Agent AI). Hôm nay chúng ta có thể nói, AI Agent đã đến, AI hữu ích đã đến.
Từ góc độ ngành công nghiệp, điều này có nghĩa nhu cầu về Token đang trở nên cực kỳ lớn. Bởi vì nếu AI thực sự có thể làm việc, mọi người sẽ muốn sản xuất nhiều khả năng như vậy hơn. Token giờ đã là đơn vị có lợi nhuận, là đơn vị có thể tạo ra doanh thu. Vì nó có thể kiếm tiền, các công ty AI sẽ muốn xây dựng nhiều Token hơn, tạo ra nhiều Token hơn, xây dựng nhiều nhà máy AI hơn, đây cũng là lý do nhu cầu tính toán ở Đài Loan bùng nổ.
Đây chính là lý do mọi người bận rộn như vậy, hoạt động kinh doanh tốt như vậy. Trên thực tế, nó cũng được phản ánh trên giá cổ phiếu của một số công ty của các bạn. Mô hình tính toán đã thay đổi, mọi thứ đều thay đổi.
Điểm quan trọng đầu tiên: AI hữu ích đã đến, giờ đây AI là bộ tạo lợi nhuận, cũng là bộ tạo GDP. Đằng sau nó, là một mô hình tính toán hoàn toàn mới. Nó không chỉ là mô hình ngôn ngữ lớn, mà là Agent. Hôm nay hầu hết nội dung của chúng tôi, sẽ được xây dựng dựa trên nền tảng này.
Hãy để tôi dành chút thời gian giải thích tôi đang nói gì. Ở đây là một Agent, một ứng dụng Agent. Trước đây, ở đây sẽ là ứng dụng, là mã code, là hệ điều hành, tức là mã code trong ứng dụng chạy trên hệ điều hành. Hôm nay, nó là Agent, được tạo thành bởi một hoặc nhiều mô hình ngôn ngữ lớn, và được đặt trong một framework Agent. Framework này sẽ giúp nó điều phối công việc, khiến nó thực sự hoàn thành các nhiệm vụ có tính sản xuất.
Khi đầu vào đi vào hệ thống, Agent phải hiểu, quan sát, suy luận, hành động, và sử dụng công cụ. Công cụ có thể là bảng tính, trình duyệt web, công cụ xử lý dữ liệu, cũng có thể là công cụ cơ sở dữ liệu. Mỗi lần thông tin lưu chuyển, cho dù là xử lý ngữ cảnh, hiểu điều gì đang xảy ra, suy luận bước tiếp theo nên làm gì, hay hình thành kế hoạch có thể thực thi, đều cần được điều phối bởi một phần mềm nào đó.
Vì vậy, bản chất của Agent chính là một hệ thống như vậy. Nó xử lý bộ nhớ ngắn hạn, tức là bộ nhớ làm việc, cũng xử lý bộ nhớ dài hạn, giống như con người. Hệ thống quản lý bộ nhớ do đó trở nên vô cùng quan trọng. Toàn bộ hệ thống được gọi là Agent. Mô hình ngôn ngữ lớn chịu trách nhiệm suy nghĩ, framework Agent kết nối tất cả mọi thứ, giống như hệ điều hành vậy.
Đây là mô hình tính toán mới, cũng là lý do Agent có thể hoàn thành những nhiệm vụ đáng kinh ngạc. Đây là một đột phá lớn: mô hình ngôn ngữ lớn đã có thể suy nghĩ, lập luận, lập kế hoạch, sử dụng công cụ rất tốt; đồng thời, chúng ta cũng sở hữu framework Agent có thể quản lý bộ nhớ, điều phối quy trình, gọi công cụ. Do đó, bây giờ chúng ta có thể làm nhiều việc mà trước đây không thể.
Token trong Nhà máy AI là gì?
Jensen Huang:
Token, DSX, GPU, CPU, Vera... Chúng tôi đã xây dựng hệ thống thế hệ tiếp theo Vera Rubin. Vera Rubin không phải là một con chip, cũng không chỉ là GPU. Nó bắt đầu từ GPU, nhưng vượt xa hơn GPU. Cả hệ thống end-to-end, mới là Vera Rubin.
Nó bao gồm GPU, Vera Rubin NVLink 72, và được điều phối bởi Vera CPU mà tôi sẽ giới thiệu sau. Nó cũng bao gồm hệ thống lưu trữ Vera mang tính cách mạng, CX9, ngăn xếp phần mềm DOCA của chúng tôi, và bộ xử lý bảo mật tích hợp. Tất cả dữ liệu trong hệ thống, cho dù đang lưu trữ tĩnh, đang truyền tải, hay đang được sử dụng, đều được mã hóa. Toàn bộ hệ thống đều an toàn, bởi vì mô hình AI vô cùng quý giá. Đây cũng là lý do cả bộ hệ thống đều tuân theo tính toán bí mật (confidential computing).
Bất kỳ một hệ thống nào trong số này, nếu tách riêng ra đều đủ để trở thành một cuộc cách mạng hoàn chỉnh. Vera Rubin là dự án kỹ thuật đầy tham vọng nhất trong lịch sử NVIDIA. Toàn bộ 40,000 kỹ sư trong công ty đều tham gia vào công việc của Vera Rubin, chưa kể các bạn ở đây cũng tham gia sáng tạo toàn bộ hệ thống. Vera Rubin thực sự là một kỳ tích, nó không chỉ là một con chip, mà là hệ thống được cấu thành bởi nhiều thành phần.
Thậm chí còn không dừng lại ở đó. Lâu lắm rồi, NVIDIA là một công ty GPU; những năm gần đây, chúng tôi dần tiến hóa thành một công ty hệ thống. Những gì các bạn thấy bây giờ, là hệ thống phức tạp nhất mà chúng tôi từng thiết kế từ đầu. Nhưng rốt cuộc, khách hàng và đối tác của chúng tôi không muốn mua máy tính, họ muốn xây dựng nhà máy AI.
Đây là lý do NVIDIA một lần nữa bắt đầu chuyển đổi. Mọi người có thể thấy, rất nhiều công nghệ của chúng tôi đã mở rộng đến quy mô hạ tầng hoàn chỉnh. Đối tác của chúng tôi cũng đang ở quy mô hạ tầng: nhà máy điện, hệ thống làm mát, nhà cung cấp lưới điện, và nhiều doanh nghiệp công nghiệp, giờ đây đều trở thành một phần trong hệ sinh thái của chúng tôi. Xét cho cùng, chúng tôi muốn xây dựng ngăn xếp công nghệ đầy đủ, giống như trước đây xây dựng GPU, Grace Blackwell, NVLink 72 vậy; bây giờ, chúng tôi muốn xây dựng hệ thống toàn bộ ngăn xếp (full-stack), để khách hàng có thể xây dựng nên hạ tầng AI xuất sắc.
Làm tốt việc này, giúp khách hàng xây dựng và triển khai nhà máy AI, trở nên vô cùng quan trọng. Lý do rất đơn giản: Tính toán là doanh thu, tính toán là lợi nhuận. Không có doanh thu và lợi nhuận, chính là thua lỗ.
Mọi người cần hiểu một điều: khi một hạ tầng AI đi vào hoạt động, nó có thể lên rất nhanh, cũng có thể kéo dài rất lâu; thông lượng có thể rất cao, cũng có thể rất thấp; tính đàn hồi và độ tin cậy có thể tốt, cũng có thể kém; tuổi thọ hiệu quả có thể rất dài, cũng có thể rất ngắn. Bởi vì điều này đại diện cho mức đầu tư 50 tỷ, 60 tỷ, thậm chí 100 tỷ đô la, nên đường cong này vô cùng quan trọng.
Đây cũng là lý do NVIDIA là đối tác tốt. Chúng tôi có khả năng tích hợp đầy đủ, không chỉ làm một trang trình bày, mà thực sự tạo ra toàn bộ hạ tầng, kết nối mọi thứ, và tự mình xây dựng quy mô lớn, đảm bảo hệ thống có thể vận hành tốt. Vì vậy, thời gian Token đầu tiên, thời gian suy luận đầu tiên, thời gian khởi động huấn luyện của chúng tôi đều nhanh hơn.
Thứ hai, thông lượng trên mỗi watt, số Token trên mỗi watt của chúng tôi đạt cấp độ thế giới. Nguyên nhân là chúng tôi tích hợp tất cả mọi thứ, thiết kế từ đầu tất cả mọi thứ, mô phỏng toàn bộ hệ thống, và áp dụng thiết kế hợp tác cực độ (co-design). Giống như tủ rack Vera Rubin vừa được trình diễn, mọi thiết kế đều nhằm đạt được thông lượng đáng kinh ngạc.
Nếu trung tâm dữ liệu, nhà máy của bạn có công suất 1 gigawatt, thì nó sẽ không còn nhiều hơn nữa, đây chính là toàn bộ khả năng phát điện bạn có thể có được. Với công suất 1 gigawatt, thông lượng trên mỗi watt chính là doanh thu, bởi vì mỗi Token đều có thể tạo ra lợi nhuận, mỗi Token đều là doanh thu.
Đây chính là tương lai. Tính toán là doanh thu, hiệu suất trên mỗi watt chính là doanh thu của bạn. Chỉ vì chip rẻ hơn mà chọn kiến trúc sai sẽ không chuyển hóa thành lợi nhuận thực sự, bạn cần đảm bảo là doanh thu trên mỗi watt. Mua càng nhiều, kiếm càng nhiều.
Tôi đang đứng trước mặt mọi người, có thể nói với các bạn: Vera Rubin đã đi vào sản xuất toàn bộ. Quy mô chuỗi cung ứng mà chúng tôi thiết lập cho Vera Rubin, gấp đôi Grace Blackwell. Trước đây lắp ráp một tủ rack Grace Blackwell mất hai giờ, bây giờ chỉ cần năm phút. Vì vậy không chỉ công suất cao hơn, mà thông lượng sản xuất cũng nhanh hơn nhiều, và chúng tôi cần tất cả những điều này để đáp ứng nhu cầu.
Hệ sinh thái này thật phi thường. Để hỗ trợ Grace Blackwell, và chuẩn bị cho việc tăng công suất Vera Rubin, đã có hàng triệu foot vuông công suất được đưa vào vận hành. Tôi muốn cảm ơn mọi người. Vera Rubin đã đi vào sản xuất toàn bộ. Cảm ơn tất cả.
Giới thiệu Hệ thống Vera Rubin
Jensen Huang:
Vera Rubin không chỉ được xây dựng vì AI. Vera Rubin không chỉ được xây dựng để chạy AI, nó được xây dựng để chạy Agent. Đây là một hệ thống dạng Agent. Hãy tưởng tượng độ phức tạp trong đó. Và cũng chính vì vậy, Agent là đột phá cuối cùng trong khoa học máy tính. Nó mất nhiều năm như vậy, cuối cùng mới thực hiện được tiềm năng và trở nên hữu ích. Máy tính có thể chạy nó, lẽ ra cũng phải là máy tính tiên tiến nhất thế giới.
Đó chính là Vera Rubin. Chúng ta hãy xem nào. Hãy mang Vera Rubin lên đây.
Đây là Vera Rubin, Vera Rubin NVLink 72. Đây là một phần của hệ thống thế hệ tiếp theo, tại GTC lần sau, tôi sẽ nói nhiều hơn với mọi người; hôm nay chúng ta còn nhiều nội dung để nói. Đây là tủ rack CPU Vera, 256 CPU, tất cả đều làm mát bằng chất lỏng. Tôi sẽ giới thiệu Vera sau. Đây là hệ thống xử lý lưu trữ Vera BlueField, cũng là hệ thống bảo mật. Tất nhiên, còn có mạng Mellanox của chúng tôi, đây là CPO đầu tiên trên toàn cầu. Đây chính là Vera Rubin, sự kết hợp công nghệ đáng kinh ngạc lại với nhau.
Năm đó chúng tôi tạo ra Hopper, là để tiền huấn luyện (pre-training). Tiền huấn luyện là ứng dụng quan trọng nhất lúc đó, cũng là khối lượng công việc quan trọng nhất mà chúng tôi đối mặt. Sau này khi tạo ra Grace Blackwell, mọi người nói: "Jensen, NVIDIA rất giỏi tiền huấn luyện, suy luận (inference) rất đơn giản." Mọi người còn nhớ không? Lúc đó rất nhiều người nói: "Suy luận rất đơn giản, chúng tôi cũng có thể làm."
Nhưng mọi người biết đấy, suy luận tương đương với tiền bạc. Mô hình rất phức tạp, muốn đồng thời đạt xuất sắc giữa tốc độ phản hồi cực cao, tương tác nhanh và thông lượng cao, rất khó. Đây là lý do chúng tôi tạo ra NVLink 72.
Hôm nay, chi phí Token của NVIDIA là thấp nhất toàn cầu. Không phải thấp hơn 10%, mà thấp hơn vài lần, thậm chí chênh lệch số bậc. Tất cả đều bởi vì chúng tôi đã thực hiện thiết kế hợp tác cực độ, bởi vì chúng tôi hiểu mô hình tính toán và mô hình tính toán của suy luận, và đã tạo ra NVLink 72.
Đến Vera Rubin, mọi việc đã vượt xa suy luận. Bây giờ là suy luận trong hệ thống dạng Agent. Đây chính là Vera Rubin. Không có dây cáp, không có ống mềm, không có quạt. Lần trước tôi trưng bày nó cho mọi người, dây cáp ở khắp mọi nơi.
VERA CPU: CPU cho AI Agent
Jensen Huang:
Vera CPU, là CPU được tạo ra cho thời đại AI. Cho đến nay, tất cả CPU đều được tạo ra cho con người. Chúng ta từng là người dùng, cũng là người thuê. Cách con người sử dụng CPU, là sống trong thế giới tính bằng giây. Chúng ta thuê CPU trên đám mây, càng nhiều lõi CPU, càng có nhiều tài nguyên để cho thuê. Kịch bản sử dụng và kinh tế học của CPU cũ, hoàn toàn khác với Agent.
Agent không có sự kiên nhẫn. Thế giới chúng sống không phải tính bằng giây, mà bằng nano giây. Khi Agent sử dụng công cụ, chúng muốn phản hồi càng nhanh càng tốt; khi truy cập cơ sở dữ liệu, chúng muốn kết quả trả về ngay lập tức. Agent mỗi chờ đợi một khắc, sẽ bị ngăn cản tiến vào bước tiếp theo, rồi bước tiếp theo nữa, rồi bước tiếp theo nữa. Vì vậy, chúng ta phải làm cho CPU độ trễ càng thấp càng tốt, tính tương tác càng cao càng tốt.
Đây là lý do chúng tôi tạo ra Vera CPU cho thời đại AI. Trong hệ thống của chúng tôi, nó có ba công dụng. Loại đầu tiên tất nhiên là dùng để suy nghĩ trong Vera Rubin. Trong tủ rack Vera Rubin, đã có hai CPU. Mọi người biết đấy, chúng tôi đang sản xuất và bán hàng triệu Vera Rubin, cũng đã bán được hàng triệu Grace Blackwell. NVIDIA đã trở thành một trong những nhà sản xuất CPU lớn nhất thế giới.
Hai CPU trong tủ rack Vera Rubin, một trong số đó dùng để điều phối và quản lý GPU, quản lý bộ nhớ cache KV, và xử lý các phần mềm khác nhau đang chạy trong tủ rack. Chúng tôi còn có Grace BlueField, dùng cho bảo mật và cách ly. Phần tính toán Vera thì dùng cho framework Agent, chịu trách nhiệm điều phối mô hình AI, sử dụng công cụ và truy cập cơ sở dữ liệu.
Máy chủ dữ liệu ở đây là Vera BlueField, nó là máy chủ lưu trữ và hệ thống lưu trữ nhanh nhất thế giới. Nó trở nên cực kỳ quan trọng, bởi vì Agent sẽ truy cập bộ nhớ với tốc độ cực cao. Máy chủ lưu trữ và CPU, giờ đây đang nằm trên đường dẫn quan trọng nhất của phần đắt đỏ nhất trong trung tâm dữ liệu.
Lý do phần này đắt nhất, là có lý do chính đáng. Cốt lõi kinh tế học của nhà máy AI là Token, và Token được tạo ra ở đây. Vì vậy, bạn tất nhiên muốn sản xuất và tạo ra càng nhiều Token càng tốt. Giá trị kinh tế đều tập trung ở đây, và CPU cùng hệ thống lưu trữ tuyệt đối không thể trở thành vật cản.
Vì vậy, Vera CPU tạo ra rất nhiều áp lực lên kiến trúc CPU, đây cũng là lý do chúng tôi xây dựng kiến trúc hoàn toàn mới từ đầu. Đây là một CPU thế giới chưa từng thấy, chúng tôi gọi nó là Vera. Đây là CPU được tạo ra cho Agent. Trước đây tất cả CPU đều được tạo ra cho con người, con CPU này là dành cho Agent.
Thứ nhất, số lệnh mỗi chu kỳ xung nhịp (IPC) của Vera phải cực kỳ mạnh, bởi vì chúng ta cần rút ngắn độ trễ, rút ngắn thời gian xử lý. Chúng ta cần hiệu suất đơn luồng, không phải đơn thuần thông lượng. Hiệu suất đơn luồng phải đạt cấp độ thế giới, phải là tốt nhất. Vì vậy IPC của Vera cực cao, đạt trình độ cao nhất toàn cầu: mỗi chu kỳ xung nhịp lấy, giải mã và thực thi 10 lệnh.
Thứ hai, băng thông CPU cần để vào ra dữ liệu phải đạt cấp độ thế giới. Ở đây bao gồm cả băng thông mỗi lõi, cũng như tổng băng thông. Như tôi đã nói trước đó, hệ thống dạng Agent về bản chất là tách rời và phân tán (decoupled and distributed). Khi tính toán tách rời và triển khai phân tán, mạng lưới trở thành vấn đề. Vì vậy, chúng ta phải di chuyển dữ liệu giữa các lõi CPU, giữa CPU và lưu trữ, giữa CPU và GPU càng nhanh càng tốt.
Băng thông xung quanh hệ thống và bên trong lõi CPU đều phải đạt cấp độ thế giới, bởi vì các lõi CPU đang giao tiếp với nhau bằng băng thông cực cao. Chúng không phải được cho thuê từng lõi một, mà tất cả cùng hợp tác. Băng thông mặt cắt ngang (cross-sectional bandwidth) của Vera rất đáng kinh ngạc. Nó là hệ thống đầu tiên hỗ trợ PCI Express Gen 6, cũng là hệ thống đầu tiên trang bị LPDDR5, băng thông đạt 1.2 đến 2 TB mỗi giây, gấp 2 đến 3 lần CPU hiệu suất cao nhất.
Đây là CPU được tạo ra cho Agent. Thị trường này chắc chắn sẽ lớn hơn thị trường trước đó, vì số lượng Agent sẽ vượt xa số lượng con người, và Agent rất thiếu kiên nhẫn. Đó chính là NVIDIA Vera CPU.
Mô hình Tính toán Quan trọng nhất Thập kỷ Tới
Jensen Huang:
Đây thực sự là trang quan trọng nhất. Kết luận cốt lõi ở đây là: Đây là mô hình ứng dụng của thập kỷ tới, cũng là mô hình tính toán của thập kỷ tới. Agent, framework Agent, cùng mô hình ngôn ngữ lớn được framework điều phối, mỗi công ty đều sẽ chạy nó. Mỗi công ty sẽ trở thành một công ty Agent, bên trong mỗi công ty đều sẽ có Agent chạy, mỗi công ty đều sẽ phát hiện, Agent cần hệ điều hành của riêng mình.
Mỗi công ty đều đang hỏi chúng tôi: Làm thế nào để chạy Agent một cách an toàn? Làm thế nào để xây dựng Agent cho khối lượng công việc của mình? Vì vậy, chúng tôi có Bộ công cụ AI Agent Doanh nghiệp NVIDIA. Mọi người thực ra đã xem tôi công khai xây dựng nó từng bước.
Hầu hết mọi việc NVIDIA làm, mọi người đều biết, nếu xem lại bài phát biểu GTC của tôi 5 năm trước hoặc 10 năm trước, bạn sẽ thấy tôi trong nhiều năm qua luôn nói về những điều ngày hôm nay, bởi vì chúng tôi luôn chuẩn bị cho thời khắc này.
Doanh nghiệp muốn xây dựng Agent như một dịch vụ (Agent as a Service), hoặc xây dựng Agent để vận hành, cần bốn thứ. Thứ nhất, cần mô hình. Tất nhiên, mô hình ngôn ngữ lớn càng thông minh càng tốt, càng rẻ càng tốt, càng nhanh càng tốt. Thứ hai, cần một framework để điều phối toàn bộ hệ thống. Thứ ba, những mô hình này muốn sử dụng công cụ, và những công cụ này mang kỹ năng. Tôi vừa trình diễn thư viện CUDA-X, trong tương lai chúng sẽ trở thành công cụ mạnh mẽ cho Agent. Thứ tư, cần một runtime, tức là hệ điều hành kết nối mọi thứ lại với nhau.
Đây chính là Bộ công cụ Agent NVIDIA. Nó bao gồm các mô hình có thể chỉnh sửa, tức là mô hình mã nguồn mở đẳng cấp thế giới của NVIDIA. Tôi còn muốn trình diễn nhiều hơn. Bạn có thể chạy Agent từ bất cứ đâu, có thể chạy các Agent mạnh mẽ như Claude Code, cũng có thể chạy các Agent mạnh mẽ như Codex. Bạn có thể đặt chúng vào một framework có tên Open Shell, để chạy với tính bảo mật cao trong nội bộ doanh nghiệp.
Shell này sẽ bảo vệ Agent, khiến nó luôn bị ràng buộc bởi chính sách bảo mật. Quyền riêng tư được bảo vệ, quyền hạn và đặc quyền được phân định rõ ràng, danh tính cũng được bảo vệ. Vì vậy, Open Shell đang được áp dụng trên toàn cầu. NVIDIA Open Shell là mã nguồn mở, bạn sẽ thấy nhiều công ty áp dụng nó, bao gồm Red Hat, Canonical và Microsoft. Nó sẽ được áp dụng ở khắp mọi nơi.
Đây là một runtime quan trọng, và runtime này được tối ưu hóa hoàn toàn cho nền tảng AI NVIDIA có mặt ở khắp nơi. Bạn có thể chạy Open Shell trên bất kỳ đám mây nào, môi trường tại chỗ, thậm chí trên thiết bị đầu cuối. Bây giờ, bạn có các công cụ và thư viện Agent có thể sử dụng, có mô hình có thể chỉnh sửa hoặc sử dụng trực tiếp, cũng có framework Agent. Những framework Agent này giờ có thể chạy tại chỗ hoặc bất cứ nơi nào khác.
Một trong những trường hợp sử dụng Agent tôi yêu thích nhất, là nhà thiết kế chip. Đây là một trong những công việc quan trọng nhất của NVIDIA. Vì vậy, chúng tôi tất nhiên phải hợp tác với Cadence, xây dựng một siêu Agent thiết kế chip. Nó được điều phối bởi Codex hoặc Claude Code, lấy RTL, sơ đồ kiến trúc, sơ đồ nguyên lý hoặc thông số kỹ thuật làm đầu vào, giúp bạn sửa những nội dung cần sửa. Chúng tôi cùng nhau tạo ra một số siêu Agent, và tối ưu hóa Nemotron cho runtime NVIDIA.
NVIDIA cam kết xây dựng mô hình mở cho thế giới, để các bạn, để tất cả chúng ta đều có thể tạo ra Agent của riêng mình. Hôm nay, chúng tôi công bố Nemotron 3 Ultra, đây là mô hình mở thế hệ tiếp theo của chúng tôi, và rất thông minh. Mô hình Nemotron không chỉ cho bạn mô hình, mà còn cho bạn toàn bộ dữ liệu chúng tôi sử dụng để huấn luyện mô hình.
Bởi vì chúng tôi có một liên minh đối tác mạnh mẽ, mọi người có thể thấy tất cả các đối tác được liệt kê ở đây. Chúng tôi cùng nhau hợp tác, cùng nhau đóng góp dữ liệu. Thông qua những quan hệ đối tác tuyệt vời này, từ mô hình đến kịch bản huấn luyện, đến dữ liệu, tất cả sẽ được mở hoàn toàn cho các bạn. Đây là chính sách hệ thống mô hình mở tốt nhất thế giới, cũng là chính sách hệ thống mô hình mở tốt nhất thế giới. Mục tiêu rất đơn giản: Bạn có thể lấy tất cả nội dung, tiếp tục bổ sung thêm, khiến nó trở nên tốt hơn, và biến nó thành mô hình của riêng bạn.
Nemotron 3 Ultra nhanh hơn 5 lần, chi phí cũng giảm 30%, và hoàn toàn mở. Chúng tôi rất kiên định về điều này. Đây là Nemotron 3, hiện chúng tôi cũng đang phát triển Nemotron 4. Chính bộ công cụ hoàn chỉnh này, được cấu thành bởi mô hình, framework, công cụ kỹ năng và runtime, cho phép mỗi doanh nghiệp toàn cầu đều có thể tạo ra Agent thuộc về mình, giống như Cadence dùng siêu Agent vậy.
Máy tính Cá nhân Thế hệ Mới NVIDIA
Jensen Huang:
Microsoft và NVIDIA sẽ tái phát minh PC. Đây sẽ trở thành PC mới. Tối mai, chắc là tối mai ở đây của chúng ta, tôi sẽ cùng với Satya, nói thêm về công việc chúng tôi cùng nhau thúc đẩy trong ba năm qua. Microsoft và NVIDIA đã mất nhiều thời gian như vậy, suy nghĩ lại triệt để cách PC vận hành, chính là để chuẩn bị sẵn sàng cho thời khắc này.
Như tôi đã đề cập trước đó, mô hình tính toán Agent này sẽ chạy trên đám mây AI, sẽ chạy trong nội bộ doanh nghiệp, cũng sẽ chạy trên PC của bạn. Khi PC có một Agent tự chủ, điều gì sẽ xảy ra? Nó sẽ giúp đỡ bạn, hiểu bạn. Bạn có thể nói chuyện với nó, nó có thể nhìn thấy bạn. Bạn có thể để nó đọc tài liệu, giúp bạn nghiên cứu. Nó còn có thể làm nhiều việc hơn, tôi sẽ trình diễn sau.
Hệ điều hành mới, tất nhiên là hệ điều hành cũ cộng với mô hình ngôn ngữ lớn. Theo nhiều nghĩa, mô hình ngôn ngữ lớn chính là DirectX phiên bản hiện đại. Nó có đầu vào và đầu ra, hiểu prompt, hiểu thị giác máy tính, có thể tạo video, cũng có thể tạo âm thanh. Nó là phần mở rộng thông minh hiện đại của PC, cũng là của máy tính.
Trên đó, như tôi đã nói trước đó, ứng dụng sẽ được thay thế bởi runtime Agent, và ứng dụng hiện đại chính là Agent.
Thưa các bạn, Máy tính xách tay NVIDIA RTX Spark. Cảm ơn. Tôi có quá nhiều thứ trong túi. Được rồi, đây là con chip đáng kinh ngạc nhất thế giới. Đây là N1X mà chúng tôi hợp tác với MediaTek tạo ra. Tôi vừa như thấy Rick. Đây là N1X, một con chip đẹp. Thành thật mà nói, đây là một con chip cần 33 năm mới có thể tạo ra.
Nguyên nhân là, 100% ngăn xếp phần mềm NVIDIA đều có thể chạy ở đây. Bạn muốn làm sinh học số, không vấn đề gì; muốn xử lý địa chấn, không vấn đề gì; muốn làm vật lý thiên văn, không vấn đề gì. Tất cả những thứ liên quan đến CUDA, tất cả vật lý, tất cả sinh học, tất cả hệ gen, tất cả AI, đều không có vấn đề gì. Tất cả đồ họa máy tính, cũng không có vấn đề gì.
Mọi ứng dụng NVIDIA từng tạo ra, cùng mọi ứng dụng Windows từng chạy, Microsoft và NVIDIA đều tối ưu hóa tỉ mỉ, để chiếc máy tính này thực sự có thể chạy mọi thứ từng được thế giới tạo ra. Ngoài ra, bây giờ nó còn có thể chạy Agent. Đây là một chiếc máy tính khó tin, tôi rất tự hào về nó.
Chiếc máy tính này có thể sở hữu mô hình Nemotron 3 Ultra cục bộ, hoặc mô hình siêu Nemotron 3; cũng có thể kết nối với Claude Code, Codex trên đám mây, hoặc mô hình khác; cũng có thể kết nối với mô hình trên mạng. Nó sẽ làm việc, và hoàn thành những việc đáng kinh ngạc. RTX Spark là sự tái phát minh đối với máy tính xách tay, nhưng trên thực tế, Microsoft và NVIDIA đang tái phát minh toàn bộ PC.
Hôm nay, chúng tôi công bố một dòng sản phẩm hoàn toàn mới: Ba máy Windows mang tính cách mạng, bao phủ máy để bàn, máy tính xách tay và trạm làm việc. Chúng 100% tương thích Windows, 100% hỗ trợ CUDA, 100% trang bị NVIDIA AI Tensor Core. Tất cả mọi thứ bạn thấy có thể chạy trên các nền tảng NVIDIA khác nhau toàn cầu, đều có thể chạy ở đây.
Chúng tôi đã chuẩn bị lộ trình cho điều này. Đây là một họ sản phẩm hoàn toàn mới. Mỗi thế hệ kiến trúc, chúng tôi sẽ có máy để bàn, máy tính xách tay, trạm làm việc; thế hệ tiếp theo vẫn sẽ có máy để bàn, máy tính xách tay, trạm làm việc. Tôi rất vui mừng, cũng rất vinh dự là, 100% ngành công nghiệp PC toàn cầu đều tham gia cùng chúng tôi, cùng nhau tái phát minh PC. Đây là một dòng sản phẩm mới, cũng là một khởi đầu mới.
Cosmos 3: Mô hình Nền tảng cho AI Vật lý
Jensen Huang:
Trong kịch bản của mô hình ngôn ngữ, dữ liệu tiếng Anh và các ngôn ngữ khác chúng tôi huấn luyện trên Internet, đều xuất phát từ góc nhìn con người. Chúng do chúng ta viết ra, cũng do chúng ta đọc. Tuy nhiên, nếu muốn tạo dữ liệu cho robot AI, thì phải xuất phát từ cảm nhận và góc nhìn của robot. Đại đa số dữ liệu video trên thế giới là góc nhìn ngôi thứ ba, không phải góc nhìn ngôi thứ nhất.
Vì vậy, đối với hệ thống dạng Agent, hệ thống robot và AI vật lý, dữ liệu là vấn đề khó nhất. Mọi người đã thấy chúng tôi thúc đẩy lên theo những nấc thang này. Chúng tôi bắt đầu từ viễn thao tác (teleoperation), về bản chất chính là con người làm mẫu. Điều này không khác gì đột phá phản hồi con người trong học tăng cường. Sau đó, chúng tôi sử dụng mô phỏng, đây là nơi Omniverse phát huy tác dụng. Điều này cũng tương tự phần thưởng có thể xác minh trong học tăng cường.
Chúng tôi dùng những hệ thống này để khởi động mô hình AI, khởi động mô hình AI vật lý. Cuối cùng, chúng tôi có thể học từ góc nhìn ngôi thứ ba, và chiếu lại nó vào góc nhìn ngôi thứ nhất. Thông qua quá trình khởi động này, cuối cùng chúng tôi có một mô hình nền tảng thế giới, có thể hiểu thế giới vật lý từ bất kỳ góc nhìn nào bạn muốn. Ngôi thứ ba, ngôi thứ nhất, từ ngoài vào trong, từ trong ra ngoài, đều có thể. Đây thực sự là một đột phá lớn.
Hôm nay, chúng tôi công bố Cosmos 3. Cosmos 3 là tiên phong của AI vật lý. Chúng tôi ở tiên phong trên mô hình ngôn ngữ, nhiều người cũng đang nghiên cứu mô hình ngôn ngữ. Nhưng trên AI vật lý, chúng tôi tuyệt đối mạnh nhất toàn cầu. Tôi vô cùng tự hào vì đội ngũ có thể làm được điều này.
Đây là mô hình nền tảng cho tất cả công việc của các bạn. Cho dù bạn muốn tạo robot, robot nhà máy, hay robot làm việc trong nhà máy, chỉ cần liên quan đến thế giới vật lý, bây giờ bạn đều có một đối tác: Cosmos 3. Nó có thể hiểu và suy luận, có thể tạo ra, có thể mô phỏng trong vòng khép kín, thậm chí có thể trở thành chính chiến lược. Nó ở vị trí dẫn đầu trên các bảng xếp hạng toàn cầu. Tôi rất tự hào về Cosmos. Hôm nay, chúng tôi công bố Cosmos 3.
Trước đây là dữ liệu cộng tính toán được AI. Bây giờ chúng ta có AI rồi, tính toán cũng sẽ trở thành dữ liệu. Vì vậy, sử dụng Cosmos 3, huấn luyện một loạt lớn mô hình AI. Cosmos là một hệ thống mô hình mở rất xuất sắc, nó hoàn toàn giống Nemotron. Chúng tôi mở mô hình, mở dữ liệu, thậm chí mở phương pháp huấn luyện, để bạn có thể tăng cường nó cho riêng mình, và biến Cosmos thành mô hình độc quyền của bạn.
Alpamayo 2: Suy luận cho Xe tự hành
Jensen Huang:
Hôm nay, chúng tôi công bố Alpamayo 2, đây là một mô hình mở hướng đến xe tự hành. Chúng tôi đang hợp tác với các công ty ô tô toàn cầu. Nếu nhìn vào những thương hiệu đã tham gia NVIDIA Hyperion, đang xây dựng xe NVIDIA Hyperion, chúng đại diện cho khoảng 80% ô tô toàn cầu. Tức là, những nhà sản xuất này bao phủ khoảng 80% ô tô toàn cầu.
Tương lai sẽ có lượng lớn hệ thống NVIDIA Hyperion, chúng có thể chạy Alpamayo, cũng có thể chạy bất kỳ ngăn xếp công nghệ lái tự động nào khác. Chúng tôi cũng kết nối với dịch vụ di chuyển. Khoảng 97% dịch vụ di chuyển toàn cầu đang kết nối với chúng tôi. Vì vậy, khi chúng tôi triển khai Alpamayo trên runtime Hyperion và hệ điều hành Halos, chúng tôi có thể kết nối với các dịch vụ toàn cầu này.
Isaac GR00T: Robot Hình người
Jensen Huang:
NVIDIA Isaac GR00T là ngăn xếp công nghệ robot hình người của chúng tôi, bao gồm mô hình, tạo dữ liệu, mô phỏng, runtime và hệ điều hành. Nó đại diện cho nền tảng GR00T, tức là nền tảng Isaac GR00T.
Mọi người có thể thấy, mỗi hệ thống của chúng tôi đều tuân theo cùng một mô hình hoàn toàn giống nhau: Cho dù là hệ thống dạng Agent trên đám mây, hệ thống dạng Agent trên PC, hệ thống robot của xe tự hành, hay hệ thống robot của robot hình người, đều là cùng một mô hình.
Tất nhiên, trong mỗi trường hợp, chúng tôi sẽ xây dựng đầy đủ mọi thứ. Chúng tôi làm tích hợp dọc, làm tích hợp triệt để, áp dụng thiết kế hợp tác và thiết kế hợp tác cực độ, sau đó mở nó ra, để mọi người sử dụng bất kỳ phần nào theo nhu cầu của riêng mình. Bạn muốn sử dụng gì, chúng tôi thậm chí sẽ giúp bạn sửa đổi.
Nhưng bây giờ vẫn thiếu một điều: hệ thống robot cần một nền tảng tham chiếu. Những hệ thống robot này quá phức tạp, có lượng lớn động cơ và cảm biến, cũng rất mong manh. Tuy nhiên, chúng tôi cần một cách phân phối những nền tảng tham chiếu này. Giống như chúng tôi đã làm cho PC, DGX, đám mây và xe tự hành, bây giờ chúng tôi cũng sẽ làm như vậy cho robot.
Hôm nay, chúng tôi công bố NVIDIA Isaac GR00T, đây là một nền tảng tham chiếu robot hình người được tích hợp hoàn toàn. Mỗi tay của nó có 25 bậc tự do, bản thân robot có 31 bậc tự do, cao 6 feet, nặng 150 pound. Giống như tôi vậy, chỉ là số đầu tiên nhỏ hơn tôi, số thứ hai lớn hơn tôi, các khía cạnh khác thì tương đương.
Nền tảng này chạy Thor mới, cùng với ngăn xếp phần mềm đầy đủ, ngăn xếp tạo dữ liệu, ngăn xếp mô phỏng dữ liệu và runtime của chúng tôi. Tất cả mọi thứ được tích hợp vào một nền tảng robot, cho mọi người sử dụng. Chúng tôi tạo ra nó cho các nhà nghiên cứu giáo dục đại học và đại học, bởi vì đối với họ, tự mình xây dựng một nền tảng như vậy thực sự quá khó.
Tổng kết
Jensen Huang:
Sáu tháng qua, ngành công nghiệp máy tính đã bị thay đổi triệt để. Nguyên nhân thay đổi là vì cuối cùng Agent đã được hiện thực hóa, và hội tụ với các mô hình tiên phong mới nhất, khiến AI giờ đây có thể thực sự làm công việc hữu ích.
Mô hình tính toán này sẽ lặp đi lặp lại: một Agent được cấu thành bởi mô hình và framework, sử dụng các công cụ mang kỹ năng, và chạy trên một runtime nào đó. Runtime tùy thuộc vào nó đang ở trên đám mây, môi trường doanh nghiệp tại chỗ, PC, hay trong robot. Nhưng mô hình tính toán hoàn toàn giống nhau.
Bạn sẽ sử dụng framework khác nhau tùy theo sở thích của mình, cũng sẽ sử dụng mô hình khác nhau tùy theo sở thích của mình. Bạn sẽ cải thiện chúng cho mục đích độc quyền của riêng mình. Bạn sẽ tạo ra siêu Agent, cho người khác thuê, giúp người khác hoàn thành công việc. Nền tảng dạng Agent, mô hình dạng Agent này, chính là thứ Bộ công cụ AI Doanh nghiệp NVIDIA muốn hỗ trợ. Đối với các bạn, đây là cách tốt để tham gia AI; đối với chúng tôi, đây cũng là cơ hội tăng trưởng lớn.
Vera Rubin đã đi vào sản xuất toàn bộ. Grace Blackwell được tạo ra để xử lý AI, đặc biệt là suy luận; Vera Rubin được tạo ra để chạy Agent. Nó đã đi vào sản xuất toàn bộ. Nó vượt xa hơn một GPU, mà là cả một hệ thống xử lý Agent tách rời, phân tán.
NVIDIA đã thực sự trở thành một công ty hạ tầng. Không chỉ là công ty GPU, không chỉ là công ty hệ thống, mà là công ty hạ tầng. Mục tiêu của chúng tôi là giúp các bạn tạo ra doanh thu tối đa, lợi nhuận tối đa, và làm càng nhanh càng tốt.
Trong thế giới Agent, cách tính toán mới này có nghĩa CPU cũng phải được xây dựng cho Agent, không phải cho con người. CPU được tạo ra cho Agent có nhu cầu đặc biệt của riêng nó. NVIDIA Vera của chúng tôi là một cuộc cách mạng. Tôi rất vui mừng khi thấy tình hình tăng công suất và đơn đặt hàng của nó, nó sẽ trở thành lần ra mắt sản phẩm nhanh nhất, thành công nhất trong lịch sử NVIDIA.
NVIDIA và Microsoft đã tạo ra dòng sản phẩm PC hoàn toàn mới. Đây là một khởi đầu mới. Tất nhiên, cùng một mô hình xử lý dạng Agent, mô hình tính toán dạng Agent mà tôi vừa mô tả, cũng sẽ chạy trên các thiết bị khác nhau. Tôi đã đề cập đến PC, nhưng trong tương lai nó sẽ xuất hiện trong robot, vệ tinh, trạm gốc, nhà máy, đám mây, tại chỗ, thiết bị biên. Hệ thống AI dạng Agent và mô hình tính toán dạng Agent này, sẽ không ngừng được sao chép trong các loại máy tính khác nhau. Hiểu biết của chúng ta về máy tính cá nhân, rất có thể sẽ thay đổi.









