Tháng 3 năm 2026, AMI Labs, do nhà khoa học AI từng là trưởng bộ phận AI của Meta và là người đoạt giải Turing Yann LeCun sáng lập, đã công bố hoàn thành vòng gọi vốn hạt giống trị giá 1,03 tỷ USD.
Gần như cùng thời điểm:
- World Labs do Fei-Fei Li sáng lập đã hoàn thành vòng gọi vốn mới khoảng 1 tỷ USD
- Google DeepMind công bố mô hình thế giới Genie 3
- Tesla tiếp tục đẩy mạnh triển khai robot hình người Optimus trong các nhà máy
Những sự kiện này không xảy ra riêng lẻ, mà cùng chỉ ra một xu hướng ngày càng rõ ràng: AI đang chuyển từ 'hiểu thế giới số' sang 'hiểu và tác động lên thế giới vật lý'.
Nếu năm 2024 là thời kỳ mở rộng của các mô hình ngôn ngữ lớn (LLM), năm 2025 là thời kỳ thăm dò triển khai Agent, thì năm 2026, cốt truyện chính ở Thung lũng Silicon đang chuyển hướng sang một vấn đề cốt lõi hơn: Liệu AI có thể thực sự hiểu 'thế giới vận hành như thế nào' và hoàn thành nhiệm vụ trong thực tế?
Đây không chỉ là sự thay đổi về hướng công nghệ, mà còn có nghĩa là chuỗi giá trị ngành đang được viết lại. Hai năm qua, chiến trường cạnh tranh AI chủ yếu tập trung vào một số ít khâu có ngưỡng cao như mô hình, năng lực tính toán và trung tâm dữ liệu; còn khi AI bắt đầu thực sự bước vào thế giới vật lý, cạnh tranh sẽ không chỉ diễn ra ở tầng mô hình, mà đồng thời mở rộng sang phần cứng, tích hợp hệ thống, thu thập dữ liệu, môi trường mô phỏng, phối hợp chuỗi cung ứng và triển khai thực tế. Nói cách khác, Physical AI mang đến không phải là đột phá đơn điểm, mà là sự tái cấu trúc toàn bộ hệ thống cơ sở hạ tầng.
Cũng chính vì vậy, làn sóng thay đổi này đối với thế giới Hoa ngữ, đặc biệt là các nhà khởi nghiệp, kỹ sư và nhà đầu tư người Hoa, có thể không chỉ là một làn sóng công nghệ mới, mà còn là một cơ hội cấu trúc hiếm có. Khác với cuộc đua trước chủ yếu do nguồn lực huấn luyện mô hình lớn và tư bản siêu hạng dẫn dắt, Physical AI tự nhiên phụ thuộc nhiều hơn vào năng lực tổng hợp: vừa phải hiểu thuật toán, vừa phải thông thạo kỹ thuật; vừa phải có khả năng phối hợp hệ thống, vừa phải đi sâu vào sản xuất, chuỗi cung ứng và các kịch bản ngành. Những đội ngũ vừa có chiều sâu công nghệ, khả năng phối hợp phần cứng và tầm nhìn ngành Trung-Mỹ, ngược lại có cơ hội chiếm vị trí then chốt trong chu kỳ mới này.
Nói cách khác, Physical AI không chỉ là câu chuyện mới của Thung lũng Silicon, nó cũng có thể là tấm vé vào cửa đáng chú ý nhất của người Hoa trong cuộc biến đổi cơ sở hạ tầng công nghệ toàn cầu tiếp theo.
01 Cuộc tranh luận thế kỷ của hai con đường: Phe LLM vs. Phe Mô hình Thế giới
Ba năm qua, mô hình ngôn ngữ lớn (LLM) gần như thống trị con đường phát triển của AI, mô hình cốt lõi của nó là dự đoán token tiếp theo (next-token prediction) dựa trên dữ liệu văn bản khổng lồ. Nhưng ranh giới của mô hình này cũng dần lộ rõ: Nó có thể 'mô tả' thế giới vật lý, nhưng không có sự hiểu biết có thể thực thi; thiếu khả năng mô hình hóa quan hệ nhân quả và ràng buộc vật lý; thể hiện hạn chế trong việc ra quyết định liên tục và nhiệm vụ dài hạn.
Vì vậy, phe phái do Yann LeCun đại diện bắt đầu thúc đẩy một con đường khác: Mô hình Thế giới (World Model) — dự đoán 'trạng thái', chứ không phải 'văn bản'. Sự khác biệt cốt lõi giữa hai bên là, LLM lấy văn bản làm đối tượng học tập, lấy ngôn ngữ làm hình thức đầu ra, bản chất dừng lại ở 'nhận thức và biểu đạt'; còn Mô hình Thế giới lấy trạng thái thế giới vật lý làm đối tượng mô hình hóa, trực tiếp hướng tới vòng khép kín năng lực 'cảm nhận — quyết định — thực thi'.
Đây không phải là đánh giá riêng của LeCun. Quý I/2026, hướng Mô hình Thế giới gần như cùng lúc đón nhận một số tiến bộ then chốt: AMI Labs lấy kiến trúc JEPA làm cốt lõi, đặt cược rõ ràng vào lộ trình dài hạn 'nghiên cứu trước, sản phẩm sau'; World Labs bắt đầu từ 'trí tuệ không gian', cố gắng để AI thực sự hiểu mối quan hệ, che khuất và ràng buộc vật lý trong thế giới ba chiều; Google DeepMind thông qua Genie 3 thúc đẩy việc tạo ra môi trường động có thể tương tác thời gian thực, và sử dụng nó để huấn luyện tác nhân thông minh.
Ba công ty có con đường khác nhau, nhưng đều hướng đến cùng một xu hướng: Bước nhảy vọt tiếp theo của AI, không chỉ là tạo ra văn bản tốt hơn, mà là mô hình hóa thế giới chính xác hơn, và hoàn thành hành động trong đó.
02 Cuộc chiến phần cứng: Ai đang chế tạo 'cơ thể'?
Mô hình Thế giới giải quyết vấn đề 'bộ não' — AI hiểu thế giới vật lý như thế nào. Nhưng nửa chiến trường còn lại của Physical AI cũng không kém phần kịch liệt: Ai sẽ chế tạo 'cơ thể'?
Đến năm 2026, cuộc đua robot hình người đã chuyển hoàn toàn từ 'bản demo phòng thí nghiệm' sang giai đoạn 'sản xuất hàng loạt trong nhà máy'. Một vài con số then chốt:
Tesla Optimus Gen 3: Hơn 1000 đơn vị đã được triển khai tại nhà máy Gigafactory Texas và Fremont, thực hiện các nhiệm vụ xử lý và lắp ráp linh kiện. Đây là triển khai robot hình người quy mô lớn nhất trong lịch sử nhân loại. Tesla đang xây dựng nhà máy chuyên dụng công suất 10 triệu đơn vị/năm tại Giga Texas, mục tiêu giảm giá thành mỗi đơn vị xuống 20.000 USD — trong khi hai năm trước giá trung bình ngành vẫn ở mức 50.000-250.000 USD.
Boston Dynamics Atlas: Atlas phiên bản sản phẩm tại CES 2026, cao 6,2 feet, 56 bậc tự do, có thể nâng vật nặng 110 pound. Điều đáng chú ý hơn là 'linh hồn' của nó — Boston Dynamics thông báo hợp tác với Google DeepMind, tích hợp mô hình cơ sở tiên tiến vào Atlas. Công suất cả năm 2026 đã được Hyundai và Google DeepMind đặt trước, nhà máy công suất 30.000 đơn vị/năm đang được lên kế hoạch.
Figure 03: Figure AI định giá 39 tỷ USD và huy động được 1 tỷ USD (2025), Figure 02 của họ trong 11 tháng chạy thử tại nhà máy BMW Spartanburg đã tham gia sản xuất hơn 30.000 chiếc BMW X3, di chuyển hơn 90.000 linh kiện, tích lũy thời gian chạy 1250 giờ. Figure 03 được nâng cấp toàn diện trên cơ sở này, trang bị 48+ bậc tự do và nền tảng AI Helix độc quyền.
Mind Robotics: Vừa thông báo gọi vốn 500 triệu USD vào tháng 3, tập trung vào triển khai robot AI quy mô công nghiệp.
Nhưng trong cuộc đua phần cứng này, một mắt xích bị đánh giá thấp đang nổi lên: Bàn tay khéo léo (Dexterous Hand).
Chân của robot hình người giải quyết vấn đề di chuyển, thân giải quyết vấn đề tải, nhưng thứ thực sự quyết định robot có thể làm việc trong môi trường phức tạp hay không, là bàn tay. Lấy Tesla Optimus làm ví dụ, chi phí bàn tay chiếm 17% toàn bộ máy, khoảng 9.500 USD — là thành phần đơn lẻ đắt nhất.
Bàn tay khéo léo khó vì một mâu thuẫn cơ bản: Không gian ngón tay quá nhỏ, không thể đặt động cơ lớn; động cơ nhỏ mô-men xoắn không đủ, cần hộp số tỷ số truyền cao để khuếch đại lực; và hộp số tỷ số truyền cao sẽ mang lại sự biến dạng quán tính, mất phản hồi lực và hao mòn cơ khí — ba vấn đề này sẽ 'đầu độc' quá trình học tập của AI từ cấp độ vật lý.
Một loạt công ty mới đang thử nghiệm đột phá điểm nghẽn này. Có công ty sử dụng kiến trúc động cơ từ thông hướng trục để nén tỷ số truyền từ 288:1 xuống 15:1, đạt được bàn tay khéo léo có thể điều khiển ngược hoàn toàn; có công ty thông qua thiết kế đồng bộ găng tay thu thập dữ liệu, cho phép dữ liệu vận hành của con người có thể chuyển dịch không tổn thất lên phần cứng robot. Những đổi mới phần cứng tưởng chừng nhỏ bé này, có thể là một trong những cơ sở hạ tầng then chốt nhất của toàn bộ hệ sinh thái Physical AI.
03 NVIDIA: 'Người bán xẻng' trong kỷ nguyên Physical AI
Mỗi làn sóng công nghệ, đều xuất hiện một 'người bán xẻng'.
Ở thời đại mô hình lớn, NVIDIA dựa vào GPU và hệ sinh thái CUDA để trở thành người hưởng lợi lớn nhất; còn ở thời đại Physical AI, vai trò của họ đang được nâng cấp hơn nữa — không chỉ cung cấp năng lực tính toán, mà còn cố gắng xây dựng toàn bộ cơ sở hạ tầng cho thời đại robot.
Tại hội nghị GTC tháng 3/2026, NVIDIA đã công bố một bộ năng lực nền tảng xoay quanh Physical AI: bao gồm mô hình ngôn ngữ-thị giác-hành động Isaac GR00T dành cho robot hình người, bộ Cosmos dùng để tạo dữ liệu tổng hợp quy mô lớn, và chuỗi công cụ bao phủ huấn luyện, đánh giá và triển khai (như Isaac Lab và OSMO). Những năng lực này không phải là công cụ đơn điểm, mà đang dần hình thành một hệ thống phát triển và vận hành hoàn chỉnh.
Nhiều công ty robot bao gồm Boston Dynamics, Caterpillar, Franka Robotics, LG, NEURA Robotics, đã và đang xây dựng hệ thống thế hệ tiếp theo trên nền tảng của NVIDIA.
Chiến lược của họ cũng rất rõ ràng:
Không trực tiếp tham gia sản phẩm cuối, mà trở thành tiêu chuẩn cơ sở của toàn ngành.
Nếu Physical AI là một thành phố đang được xây dựng, thì NVIDIA đang đồng thời cung cấp xi măng, thép và lưới điện.
04 Dữ liệu: 'Dầu mỏ' khan hiếm nhất của Physical AI
Trong thế giới của mô hình ngôn ngữ lớn, Internet cung cấp dữ liệu văn bản gần như vô hạn. Nhưng trong Physical AI, một vấn đề cơ bản hơn nổi lên:
Dữ liệu điều khiển thế giới thực cực kỳ khan hiếm.
Điều này khiến dữ liệu trở thành một trong những tài nguyên then chốt và khan hiếm nhất của toàn bộ chuỗi ngành.
Hiện tại, ngành chủ yếu khám phá ba con đường.
Con đường dữ liệu thực. Lấy Physical Intelligence làm đại diện, mô hình π0 của họ được huấn luyện dựa trên hơn 10.000 giờ dữ liệu vận hành robot thực, bao phủ nhiều loại hình robot và nhiệm vụ, có thể hoàn thành thao tác phức tạp (như gấp quần áo, lắp hộp giấy, v.v.). Hành động mã nguồn mở của họ, về bản chất cung cấp cho ngành một 'cơ sở huấn luyện trước về điều khiển'.
Con đường dữ liệu tổng hợp. Genie 3 của Google DeepMind và Cosmos của NVIDIA, thử nghiệm thông qua mô hình thế giới để tạo ra lượng lớn môi trường mô phỏng, hoàn thành huấn luyện trong thế giới ảo, sau đó chuyển dịch sang thế giới thực. Thách thức cốt lõi của con đường này là khoảng cách sim-to-real (mô phỏng - thực tế), nhưng với độ chính xác mô phỏng ngày càng nâng cao, khoảng cách này đang dần thu hẹp.
Con đường điều khiển từ xa bằng con người. Thông qua các thiết bị như găng tay thu thập dữ liệu, ánh xạ trực tiếp thao tác của con người lên hệ thống robot. Cách này chất lượng dữ liệu cao nhất, nhưng vẫn còn hạn chế về chi phí và khả năng mở rộng quy mô.
Tesla đang thử nghiệm một con đường hỗn hợp: Thông qua video nhà máy liên tục thu thập hành vi thao tác của con người, và sử dụng để huấn luyện khả năng hành động của Optimus.
Về lâu dài, cục diện cạnh tranh của Physical AI, rất có thể không phụ thuộc vào mô hình của ai tối ưu nhất, mà phụ thuộc vào ai sở hữu nhiều dữ liệu tương tác thế giới vật lý chất lượng cao nhất. Một khi bánh xe dữ liệu bắt đầu quay, rào cản của nó sẽ tăng cường theo cấp số nhân.
05┃ Tiền nói gì: Bức tranh toàn cảnh gọi vốn Physical AI Q1/2026
Con số không biết nói dối. Dưới đây là các sự kiện gọi vốn then chốt trong lĩnh vực Physical AI quý I/2026:
【Tầng Mô hình Thế giới】
· AMI Labs(LeCun)— 1,03 tỷ USD vòng hạt giống, định giá 35 tỷ USD
· World Labs(Lý Phi Phi)— 1 tỷ USD vòng mới, Autodesk đầu tư 200 triệu USD
【Tầng Mô hình Cơ sở】
· Physical Intelligence — Đang đàm phán vòng mới 1 tỷ USD, định giá sẽ vượt 11 tỷ USD
· RLWRLD — 41 triệu USD mở rộng vòng hạt giống
【Robot hình người nguyên chiếc】
· Figure AI — Trước đó định giá 39 tỷ USD, gọi vốn 1 tỷ USD (2025)
· Mind Robotics — 500 triệu USD, triển khai quy mô công nghiệp
· Galaxea — 434 triệu USD, Series B kỳ lân
· Humanoid — 290 triệu USD vòng hạt giống, trực tiếp thành kỳ lân
· Generative Bionics — 70 triệu Euro vòng hạt giống
【Cơ sở hạ tầng và Công cụ】
· NVIDIA — Tiếp tục đầu tư vào nền tảng Isaac GR00T / Cosmos
· RoboForce — 52 triệu USD, nền tảng lao động Physical AI
Chỉ riêng số liệu công khai trên, Q1 đã vượt 6,4 tỷ USD. Và con số này chưa bao gồm đầu tư nội bộ của các đại công ty như Tesla, Hyundai/Boston Dynamics, Google DeepMind.
Dòng chảy vốn nói lên một điều: Physical AI đã vượt qua giai đoạn 'xác minh khái niệm', bước vào giai đoạn 'xây dựng cơ sở hạ tầng'. Các nhà đầu tư không còn hỏi 'robot có dùng được không', mà đang hỏi 'cơ sở hạ tầng của ai có thể giúp robot mở rộng quy mô nhanh nhất'.
06 Suy nghĩ lạnh: Bong bóng hay điểm ngoặt?
Tất nhiên, Thung lũng Silicon không bao giờ thiếu bong bóng. Đối mặt với cơn sốt Physical AI, một vài câu hỏi tỉnh táo đáng để suy ngẫm:
Demo ≠ Triển khai. Như sự đồng thuận của giới chuyên môn tại Davos 2026: Khoảng cách giữa một demo ấn tượng và một hệ thống có thể chạy liên tục 10.000 lần không lỗi, lớn hơn nhiều so với những gì tuyên truyền ám chỉ. Figure 02 trong nhà máy BMW thực sự tham gia sản xuất 30.000 xe, nhưng nó thực hiện việc vận chuyển linh kiện tương đối tiêu chuẩn hóa, chứ không phải lắp ráp khéo léo.
Sim-to-real vẫn là xương. Độ trung thực của mô hình Thế giới đang được nâng cao, nhưng tính phức tạp đuôi dài của thế giới vật lý — thay đổi ánh sáng, khác biệt vật liệu, va chạm ngoài dự kiến — vẫn là thách thức lớn nhất của con đường dữ liệu tổng hợp.
Mô hình kinh doanh chưa thông. Bản thân LeCun nói AMI Labs năm đầu chỉ nghiên cứu. World Labs đang thử nghiệm mô hình miễn phí + trả phí. Physical Intelligence mở nguồn mô hình cốt lõi. Hiện tại doanh thu của những công ty này gần như bằng không, vốn cá cược vào sự độc quyền mô hình sau 3-5 năm nữa.
Tê giác xám về an toàn và quản lý. Khi hàng nghìn hàng vạn robot có khả năng ra quyết định tự chủ bước vào nhà máy thậm chí gia đình, ai sẽ chịu trách nhiệm cho tai nạn? Hiện tại khung quản lý toàn cầu đối với Physical AI gần như là một khoảng trống.
Nhưng chính những vấn đề này cho thấy, chúng ta đang ở giai đoạn đầu của điểm ngoặt công nghệ, chứ không phải đỉnh của bong bóng. Mỗi sự chuyển đổi mô hình thực sự — Internet, điện thoại thông minh, điện toán đám mây — ở giai đoạn đầu đều đi kèm với giai đoạn 'Demo tốt hơn nhiều so với sản phẩm'. Điểm khác biệt then chốt nằm ở: Công nghệ cơ sở có thực sự tiến bộ hay không, không chỉ là PPT tiến bộ.
Từ kiến trúc JEPA của LeCun, đến khả năng tạo thế giới thời gian thực của Genie 3, đến khả năng khái quát hóa 68 nhiệm vụ của π0, đến triển khai nhà máy cấp 1000 đơn vị của Optimus — những tiến bộ Q1/2026 là đột phá kỹ thuật thực sự, không phải lâu đài trên không.
07 Physical AI không phải là một đường đua độc lập, nó là hình thái cuối cùng của AI.
Physical AI không phải là một đường đua mới, nó giống như một hình thái kết cục của AI.
Khi AI chuyển từ 'hiểu thế giới' sang 'bước vào thế giới', thứ thực sự được viết lại không chỉ là ranh giới năng lực mô hình, mà còn là cách thức phân công ngành và phân phối giá trị. Cạnh tranh trong tương lai, sẽ không chỉ diễn ra trong tham số mô hình và cụm năng lực tính toán, mà còn diễn ra ở bản thể robot, bàn tay khéo léo, thu thập dữ liệu, hệ thống mô phỏng, kịch bản ngành và năng lực tổ chức chuỗi cung ứng.
Đây cũng là lý do tại sao, làn sóng này đặc biệt quan trọng đối với người Hoa.
Bởi vì trong hai mươi năm qua, một trong những tích lũy sâu nhất của người Hoa, chưa bao giờ là nhãn hiệu công nghệ đơn chiều, mà là khả năng thực sự kết nối công nghệ tiên phong, thực thi kỹ thuật, sản xuất phần cứng và phối hợp ngành xuyên khu vực. Cho dù là nhà khởi nghiệp, kỹ sư, hay nhà đầu tư và người tổ chức nguồn lực ngành, chỉ cần có thể nắm bắt làn sóng di chuyển từ trí tuệ số sang trí tuệ vật lý này, đều có cơ hội không chỉ tham gia xu hướng, mà còn trở thành một phần của chính xu hướng ở một số tầng then chốt.
Năm 2026, Physical AI có lẽ còn lâu mới chín muồi; nhưng chính vì nó còn ở giai đoạn sớm, cánh cửa mới vừa mở ra. Đối với người Hoa, đây có thể không phải là một chu kỳ 'tham gia theo sau' nữa, mà là một điểm khởi đầu mới có cơ hội đi sâu hơn vào tầng cơ sở hạ tầng, tầng nền tảng và tầng thành phần then chốt.
Bài viết này từ tài khoản WeChat công chúng “Silicon Thỏ Quân” (ID:gh_1faae33d0655), tác giả: Silicon Thỏ Quân
















