Văn bản | Tân Mâu, Tác giả | Lộc Nghiêu
Gần đây có một từ đang được lan truyền sôi nổi trong giới, gọi là "AI Vật lý".
Từ này thực ra đã được Hoàng Nhân Huấn nhắc đi nhắc lại hơn mười lần trong bài phát biểu tại triển lãm CES Las Vegas đầu năm ngoái, nhưng mãi cho đến năm nay, "Physical AI" mới thực sự bùng nổ theo nghĩa đen.
Vậy, "AI Vật lý" thực chất là gì?
Hai ngày trước tôi xem được một video robot tưới hoa, robot trước tiên đi đến vòi nước, vặn van, đổ đầy nước vào bình, sau đó quay người đi đến chậu hoa, điều chỉnh góc độ, tưới nước đều vào, miệng bình không va vào mép chậu hoa, nước cũng không bị văng ra ngoài.
Để một cỗ máy hiểu được việc "bưng một cốc nước", nó phải biết cốc có hình trụ, phải tính toán lực bóp bao nhiêu để không trượt cũng không vỡ, phải hiểu nước là chất lỏng, lắc sẽ bị đổ, phải điều chỉnh góc độ cánh tay trong lúc di chuyển để bù đắp sự dao động của thân thể.
Những điều này, một đứa trẻ ba tuổi bằng trực giác cũng có thể làm được. Nhưng đối với AI, đây là một bước nhảy vọt khổng lồ. Mười năm qua, AI đã học được cách nhìn, nghe, nói chuyện, vẽ tranh, nhưng nó vẫn luôn bị giam cầm trong màn hình. Điều mà AI Vật lý muốn làm, chính là lắp bộ não thông minh này vào một thân thể có thể chạy, nhảy, nắm, thả trong thế giới thực.
Nói một cách đơn giản, AI Vật lý là để AI hiểu và tác động lên thế giới vật lý. Nó không còn chỉ xử lý chữ viết và hình ảnh, mà phải đưa ra động tác chính xác trong môi trường mà trọng lực, ma sát, quán tính đều có tác dụng.
Một sự thật ít được thảo luận trong nước là, cách gọi "Physical AI" này không xuất phát từ bộ phận quan hệ công chúng của một gã khổng lồ chip nào. Khái niệm này lần đầu tiên xuất hiện trong một bài báo năm 2020, đăng trên tạp chí *Nature Machine Intelligence*. Trong bài viết lần đầu tiên hệ thống hóa định nghĩa về Physical AI:
Một loại hệ thống thực thể có khả năng thực hiện các nhiệm vụ thường liên quan đến sinh vật thông minh, cốt lõi nằm ở việc tích hợp sâu các quy luật vật lý vào hệ thống trí tuệ nhân tạo, khiến máy móc không còn là "kẻ mù vật lý", có thể hoàn thành vòng lặp khép kín từ nhận thức đến hành động.
Từ tiếng súng khai hỏa của giới học thuật năm 2020, đến năm 2026 giới công nghiệp toàn diện tiếp sức, giữa chừng cách nhau tròn sáu năm. Sáu năm này, chi phí cảm biến giảm xuống vài bậc, năng lực tính toán AI ở biên từ lý thuyết tiến tới kỹ thuật hóa, độ tin cậy và khả năng sản xuất hàng loạt của robot bản thân cũng âm thầm tiến tới điểm tới hạn – đây mới là lực đẩy ngầm giúp AI Vật lý từ bài báo tiến ra dây chuyền sản xuất.
Từ Trình diễn đến Làm việc
Nếu như mô hình ngôn ngữ lớn năm 2023 giúp AI học được cách trò chuyện, thì từ khóa duy nhất của AI Vật lý năm 2026 chỉ có một: làm việc.
Sự thay đổi của sự việc là có thể thấy rõ bằng mắt thường.
Vào thời điểm này năm ngoái, cách các công ty robot thể hiện cơ bắp vẫn là quay video Demo, thiết lập sẵn cảnh, diễn tập đi diễn tập lại, một cảnh quay đến cùng. Đẹp thì đẹp, nhưng bạn không biết nó đã quay bao nhiêu lần.
Nhưng năm nay, cách chơi hoàn toàn khác. Năm nay, công ty robot Trí Nguyên tại Nam Xương đã làm một việc: ném robot vào một nhà máy thực tế, liên tục làm việc vài giờ đồng hồ, phát trực tiếp toàn bộ. Không có kịch bản định sẵn, không giới hạn cảnh, chính là dây chuyền sản xuất mà công nhân đối mặt hàng ngày. Hàng chục vạn lượt người theo dõi trực tuyến.
Một tháng sau, Trí Nguyên tại Hồng Kông tuyên bố robot hình người đạt sản lượng hàng loạt vạn chiếc. Từ một nguyên mẫu trong phòng thí nghiệm, đến mười nghìn chiếc trên dây chuyền sản xuất nhà máy, vượt qua ngưỡng này, bản chất đã thay đổi.
Lộ trình của Trí Nguyên rất thú vị, đa số công ty khởi nghiệp robot tập trung vào một khâu nào đó, làm bản thân chỉ lo bản thân, làm mô hình lớn chỉ lo mô hình lớn, làm bàn tay khéo léo chỉ lo tay. Trí Nguyên chọn một con đường khác: làm toàn bộ, đồng thời triển khai bốn hướng sản xuất bản thân, mô hình AI, thao tác khéo léo và thu thập dữ liệu, còn đầu tư vào hơn 60 công ty liên quan trong chuỗi công nghiệp.
Cái giá phải trả cho việc này cũng rất trực quan, công ty mẹ có hơn một nghìn nhân viên, đến cuối năm nay dự kiến sẽ đột phá hơn nữa, chỉ riêng tiền lương một năm đã là hàng chục tỷ đến hai mươi tỷ. Con đường này đốt tiền, nhưng một khi thông suốt, hàng rào cũng sâu nhất.
Người sáng lập Trí Nguyên, Đặng Thái Hoa từng đề xuất một khung phân tích gọi là "đường cong XYZ". Ông nói sự phát triển của trí tuệ thân thể chia làm ba giai đoạn: X là giai đoạn phát triển nếm thử, mọi người vẫn đang chơi Demo; Y là giai đoạn triển khai tăng trưởng, robot bắt đầu thực sự vào dây chuyền làm việc; Z là giai đoạn thông minh xuất hiện cuối cùng.
Ông định tính năm 2026 là: "Năm nguyên khai trạng thái triển khai, chính thức từ 'có thể động' tiến tới 'biết làm'." "Có thể động" và "biết làm", chỉ khác một chữ, nhưng khác là toàn bộ lễ trưởng thành của ngành công nghiệp.
Hải ngoại cũng đang chạy nước rút, nhịp độ bên kia Thái Bình Dương không hề chậm chút nào.
Công ty robot hình người Mỹ Figure AI là một cái tên không thể bỏ qua trên đường đua này. Tháng 9 năm ngoái, họ hoàn thành một vòng gọi vốn hơn 10 tỷ USD, định giá lên tới 390 tỷ USD, vào lúc đó là công ty robot hình người có định giá cao nhất toàn cầu.
Một tháng sau, họ phát hành sản phẩm thế hệ mới Figure 03, cao 1 mét 68, nặng khoảng 60 kg, trình diễn các việc nhà như tưới hoa, dọn món ăn, gấp quần áo. Người sáng lập Brett Adcock đặc biệt bổ sung một câu trên mạng xã hội: tất cả động tác đều do robot hoàn thành một cách tự chủ, không có người điều khiển từ xa đằng sau.
Về mặt kỹ thuật, đáng chú ý là Figure đã thực hiện một lần điều chỉnh lộ trình lớn, chấm dứt hợp tác với OpenAI, hoàn toàn chuyển hướng sang hệ thống mạng thần kinh tự nghiên cứu Helix.
Hệ thống này bắt chước nhận thức của con người, tạo thành ba tầng cấu trúc, tầng dưới cùng quản lý cân bằng và phản ứng bản năng, tầng giữa phiên dịch chỉ lệnh từ não thành điều khiển động cơ 200 lần mỗi giây, tầng cao nhất là bộ não logic, chịu trách nhiệm hiểu cảnh và ra quyết định. Kiến trúc ba tầng "bản năng - phản xạ - suy nghĩ" này, tư duy khá tinh tế, tương đương với lắp đặt một hệ thống thần kinh không bị treo cho robot.
Còn một việc đáng nhắc đến. Năm nay, NVIDIA tại hội nghị GTC thông báo một động thái: đạt được hợp tác sâu với bốn gã khổng lồ robot công nghiệp toàn cầu, ABB, KUKA, Yaskawa, Fanuc. Hơn 2 triệu robot công nghiệp đã được lắp đặt trên các dây chuyền sản xuất toàn cầu, sau này có thể thông qua nền tảng mô phỏng của NVIDIA để thực hiện gỡ lỗi ảo và huấn luyện AI.
Bốn công ty này cộng lại chiếm hơn một nửa thị phần robot công nghiệp toàn cầu. Mười năm tới, những robot này sẽ đối mặt với một vòng nâng cấp thay thế từ "lập trình truyền thống" sang "AI dẫn dắt". Tương lai, nền tảng phần mềm nào có thể nhúng vào quá trình này, tương đương với việc nắm giữ tầng "hệ điều hành" của tự động hóa công nghiệp thế hệ tiếp theo. NVIDIA rõ ràng không muốn bỏ lỡ tấm vé thuyền này.
Chuỗi cung ứng chạy nước rút xuyên ngành
Còn một hiện tượng thú vị: các doanh nghiệp trong chuỗi cung ứng ô tô đang ồ ạt tiến vào đường đua AI Vật lý với quy mô lớn.
Tại triển lãm ô tô Bắc Kinh năm nay, các nhà cung cấp ô tô lâu năm như Aptiv, Valeo, Horizon Robotics, Qianxun SI, tập trung trưng bày các giải pháp liên quan đến robot. Lúc đó, nhiều người trong ngành nhận thức được rằng, nhận thức của trí tuệ thân thể và nhận thức của lái xe thông minh ô tô là giống nhau, giải pháp của ô tô có thể trực tiếp áp dụng lên robot hình người.
Suy nghĩ kỹ lại quả thực như vậy. Hệ thống lái xe thông minh ô tô về bản chất là một vòng lặp khép kín nhận thức - quyết định - thực thi của một "robot di động", trong đó ba mô-đun nhận thức thị giác, lập kế hoạch đường đi, điều khiển thời gian thực, về mặt kiến trúc kỹ thuật có nguồn gốc cao độ với robot công nghiệp truyền thống và robot hình người.
Camera, radar, khung gầm điều khiển bằng dây và hệ điều hành thời gian thực trong tay các nhà cung cấp ô tô, chỉ cần điều chỉnh một chút là có thể di chuyển sang lĩnh vực robot. Theo nghĩa này, hàng trăm tỷ USD chi phí nghiên cứu và phát triển mà ngành công nghiệp ô tô đốt trong mười năm qua về mặt thông minh hóa, đang theo cách "tràn ra kỹ thuật" chảy vào đường đua AI Vật lý.
Điều này có lẽ giải thích tại sao các công ty robot Trung Quốc có thể nhanh chóng tiến vào giai đoạn sản xuất hàng loạt. Năng lực sản xuất và quản lý chuỗi cung ứng không mọc ra từ không khí, nhiều thứ đã có sẵn. Những nhà cung cấp linh kiện đã mài dũa trên dây chuyền ô tô hơn chục năm, giờ đang đổi sang một chiến trường mới.
Ở nước ngoài có ví dụ sẵn, lấy Tesla làm ví dụ, robot hình người thế hệ đầu tiên Optimus của họ cũng đang tăng tốc tham gia. Trước đó, Tesla trong cuộc họp báo cáo tài chính quý I năm 2026 đã tuyên bố rõ ràng, công ty sẽ chuyển hướng sang "tương lai lấy AI, taxi tự lái và robot hình người làm cốt lõi", dây chuyền sản xuất robot thế hệ đầu tiên sẽ hạ xuống công suất 1 triệu chiếc, và thay thế dây chuyền sản xuất Model S và Model X hiện có.
Con số 1 triệu chiếc đặt trong ngữ cảnh hiện tại có vẻ phóng đại, nhưng logic của Tesla rõ ràng: họ muốn sao chép kinh nghiệm năng lực sản xuất quy mô lớn và quản lý chuỗi cung ứng tích lũy trong lĩnh vực sản xuất ô tô, trực tiếp áp dụng sang lĩnh vực robot hình người.
Musk muốn không phải là một "robot có thể động", mà là một "công cụ sản xuất hàng loạt" có thể phối hợp tác nghiệp với con người trong nhà máy. Một khi con đường này thông suốt, tác động của nó lên cục diện tự động hóa sản xuất sẽ không kém cạnh tác động của Model 3 lên thị trường xe chạy xăng.
Mô hình Thế giới tại sao năm nay đột nhiên có thể sử dụng được
Nói xong những động thái lớn của các hãng ở tầng công nghiệp, không ngại kéo ống kính vào sâu hơn một tầng, cơ sở kỹ thuật của cuộc đua AI Vật lý này là gì?
Nếu dùng một câu để tổng kết, đó là: đột phá kỹ thuật hóa của Mô hình Thế giới. Tôi nghĩ đây cũng là điểm then chốt nhất để hiểu làn sóng này.
Khái niệm "Mô hình Thế giới" không mới, năm 2018 đã có người đề xuất, ý tưởng cốt lõi rất đơn giản: để AI học được một sự hiểu biết nội bộ về quy luật vận hành của thế giới vật lý, như vậy nó có thể dự đoán "nếu tôi đẩy chiếc cốc này một cái, điều gì sẽ xảy ra". Nhưng trước đây thứ này cơ bản chỉ sống trong bài báo – quá tốn năng lực tính toán, chất lượng sinh ra không ổn định, không thể tương tác thời gian thực.
Bước ngoặt xảy ra trong vòng một năm gần đây. NVIDIA đã ra mắt một loạt mô hình tên là Cosmos, khả năng cốt lõi của nó là từ văn bản hoặc hình ảnh sinh ra dữ liệu động tác tuân theo quy luật vật lý.
Ví dụ: bạn muốn huấn luyện một robot học cách di chuyển thùng trong các điều kiện thời tiết khác nhau, không cần thực sự quay video trong nhà máy vào ban đêm, trời mưa, trời tuyết. Trong môi trường mô phỏng thiết lập thông số, Cosmos có thể trực tiếp sinh ra lượng lớn dữ liệu huấn luyện chân thực cao độ, bao phủ các cảnh cực đoan khác nhau.
Đầu năm nay, đội ngũ Linh Ba của Ant Group đã mở mã nguồn một khung gọi là LingBot-World, chuyên làm mô hình thế giới tương tác. Nó có thể đạt được việc sinh video liên tục ổn định gần 10 phút, độ trễ đầu cuối tương tác kiểm soát trong đơn vị giây. Người dùng có thể như chơi game, dùng bàn phím và chuột để điều khiển nhân vật ảo thời gian thực, mô hình phản hồi tức thì sự thay đổi cảnh. Ý nghĩa ở đây là, Mô hình Thế giới từ "kết xuất ngoại tuyến" biến thành "tương tác trực tuyến", hiệu suất huấn luyện tăng lên một bậc.
Còn công ty khởi nghiệp Cực Giai Thị Giới phát hành nền tảng GigaWorld-1, định vị là "hộp cát số" của thế giới vật lý. Một tháng sau, ABot-PhysWorld của Alibaba trong một chuẩn đánh giá tên là WorldArena đã vượt qua nó, xếp hạng tổng hợp vọt lên vị trí thứ nhất. Cạnh tranh đang tiến lên với đơn vị tháng.
Tầm quan trọng của các dự án mã nguồn mở này không nằm ở thông số cao bao nhiêu, mà ở việc chúng biến một trò chơi "chỉ có gã khổng lồ mới chơi nổi" thành công cụ "nhóm nhỏ cũng có thể sử dụng". Khi có đủ người tạo bánh xe, mới có nhiều xe thực sự chạy.
Lý do Mô hình Thế giới trở thành yếu tố cốt lõi trong thời đại AI Vật lý, là vì nó trả lời câu hỏi luôn treo lơ lửng chưa có lời đáp: làm thế nào để robot học quy luật phức tạp của thế giới vật lý với chi phí thấp, hiệu suất cao?
Chi phí thu thập dữ liệu huấn luyện thế giới thực cực cao, và tự nhiên mang lệch phân phối, bạn khó có thể tập hợp đủ tất cả các cảnh biên như ca đêm trong nhà máy bão tuyết, ứng phó mất điện kho vận, công nhân dây chuyền đột ngột can thiệp trong thực tế. Nhưng dữ liệu tổng hợp có thể. Bằng cách thao tác thông số cảnh bằng từ gợi ý trong môi trường mô phỏng, nhà nghiên cứu có thể trong vài giờ sinh ra video huấn luyện quy mô lớn bao phủ điều kiện cực đoan, điều này theo lộ trình thu thập thực tế truyền thống cần vài tháng thậm chí vài năm.
Hiệu ứng đòn bẩy của đột phá này, có thể vượt qua mọi cải tiến thuật toán đơn lẻ.
Mô hình đã thay đổi
Sự đột phá của Mô hình Thế giới, thực ra chỉ là một phần trong sự tiến hóa của chồng kỹ thuật AI Vật lý. Sự thay đổi của công nghệ nền tảng, đang thúc đẩy việc tái xây dựng kiến trúc toàn ngành công nghiệp robot.
Robot truyền thống dùng kiểu ba đoạn "nhận thức, lập kế hoạch, điều khiển". Đầu tiên cảm biến nhận thức môi trường, kỹ sư viết quy tắc nói cho máy cách lập kế hoạch đường đi, cuối cùng thực thi động tác. Điều này trong môi trường cấu trúc hóa như dây chuyền nhà máy không có vấn đề, nhưng cảnh một phức tạp sẽ lộ ra điểm yếu, máy chỉ biết đi theo kịch bản định sẵn, gặp tình huống chưa thấy sẽ lập tức bị kẹt.
AI Vật lý đi một con đường khác: "nhận thức, suy luận, thực thi". Sau nhận thức không trải qua quy tắc do con người viết cứng, mà do mạng thần kinh đã được huấn luyện tự suy luận ra nên làm gì, sau đó thực thi. Bản chất khác biệt nằm ở chỗ, cái trước là "kỹ sư thay máy suy nghĩ", cái sau là "máy tự hiểu thế giới vật lý".
Tổ chức tiêu chuẩn robot quốc tế năm nay đã phát hành một bản đồ lộ trình kỹ thuật, dự đoán trong vòng ba năm tới, 80% kiểu máy mới sẽ sử dụng kiến trúc mới này, phương án ba đoạn truyền thống sẽ dần rút khỏi dòng chính. Đây không phải sửa chữa nhỏ, mà là thay đường ray toàn bộ mô hình.
Như một chuyên gia trong ngành đã nói, tôi nghĩ tổng kết khá đúng chỗ: AI Vật lý là mô hình cuối cùng của sự phát triển AI, bởi vì nó không chỉ cần hiểu chỉ lệnh của con người, mà còn cần hiểu tất cả quy luật của thế giới vật lý.
Hoàng Nhân Huấn nói thời khắc ChatGPT của phát triển robot đã đến." Theo tôi, thời khắc "ChatGPT" của AI Vật lý và mô hình ngôn ngữ hoàn toàn khác nhau về bản chất. Thời khắc "đó" của mô hình ngôn ngữ là để người bình thường trên thế giới lần đầu tiên tự tay sử dụng AI. Còn thời khắc "đó" của AI Vật lý, là để AI lần đầu tiên thực sự bắt đầu làm việc.
Ngày nay đường đua này đang ở một giai đoạn rất đặc biệt: hướng đi đã bị khóa, khái niệm đã được công nhận, nhưng cục diện vẫn chưa định.
Một mặt, làm trình diễn và làm sản xuất hàng loạt là hai hệ thống năng lực hoàn toàn khác nhau. Một mẫu máy có thể chạy thông, mười nghìn sản phẩm trong cảnh thực tế thử thách là tính nhất quán sản xuất, tính dẻo dai chuỗi cung ứng, khả năng tổng quát hóa cảnh, hệ thống vận hành bảo trì, những điều này không liên quan gì đến thuật toán AI, nhưng mỗi mục đều đủ để làm chết một loạt người chơi. Mặt khác, chi phí thu thập dữ liệu thế giới thực cao, chu kỳ dài, phạm vi bao phủ hẹp, điều này gần như đã định trước việc huấn luyện quy mô lớn của AI Vật lý sẽ phụ thuộc nghiêm trọng vào dữ liệu tổng hợp.
Đồng thời, từ chuỗi cung ứng ô tô, tự động hóa công nghiệp truyền thống, đến gia công điện tử tiêu dùng, những ngành công nghiệp nhìn có vẻ không liên quan nhiều đến "AI", đang bằng cách tràn ra kỹ thuật tăng tốc cắt vào AI Vật lý. Năng lực sản xuất, kinh nghiệm quản lý chuỗi cung ứng và tài nguyên cảnh của chúng, có thể là biến số then chốt quyết định tốc độ triển khai của AI Vật lý.
Một phán đoán mang tính trực giác là, bạn xem làn sóng AI do ChatGPT khởi phát đầu năm 2023, những người thực sự kiếm được giá trị nhiều nhất không phải là nhà sản xuất mô hình, mà là nhà cung cấp cơ sở hạ tầng. Làn sóng AI Vật lý này liệu sẽ diễn lại kịch bản tương tự?
Cách bố trí của NVIDIA ám chỉ nó đang đặt cược vào hướng này, nhưng câu chuyện vẫn chưa viết xong. Năm 2026 là năm nguyên khai trạng thái triển khai, cạnh tranh ngành công nghiệp mới chỉ bắt đầu. Ba năm sau nhìn lại hôm nay, những cái tên nào vẫn còn trên bàn, những cái nào đã ra khỏi cuộc, có thể sẽ vượt ngoài dự đoán của đa số mọi người.






