Theo thống kê, tổng số vốn đầu tư vào lĩnh vực trí tuệ thể hóa (embodied AI) trong nước năm nay đã vượt 37 tỷ nhân dân tệ.
Bộ Công nghiệp và Công nghệ Thông tin cùng Ủy ban Giám sát và Quản lý Tài sản Nhà nước đã cùng nhau khởi động "Hành động chuyên đề về Đào tạo thực hành thực tế cho Robot hình người và Trí tuệ thể hóa", trang web China Media Group trực tiếp định nghĩa năm nay là "Năm then chốt cho việc triển khai thương mại hóa". Tiền từ thị trường cấp một, câu chuyện từ thị trường cấp hai, tất cả đều hướng về cùng một hướng: triển khai, triển khai, triển khai.
Nhưng câu hỏi đặt ra là, trí tuệ thể hóa thực sự nên được triển khai như thế nào?
Quan điểm được nhiều người chấp nhận là trí tuệ thể hóa nên giải quyết những việc con người không làm được, nên thay thế con người làm những công việc nguy hiểm, nặng nhọc, lặp đi lặp lại mà con người không muốn làm và cũng không nên làm.
Ngày 22 tháng 6, Triển lãm Thúc đẩy Chuỗi Cung ứng Quốc tế Trung Quốc lần thứ tư khai mạc tại Bắc Kinh, lần đầu tiên thiết lập khu vực chuyên đề về trí tuệ nhân tạo.
Tuy nhiên, ý tưởng chỉ là ý tưởng, để robot thực sự "bước vào" được những cảnh quan này, rào cản đầu tiên đã đủ để ngăn cản hầu hết các công ty: Chứng nhận chống cháy nổ.
Trong các môi trường dễ cháy nổ như trạm xăng, trạm khí đốt, nhà máy hóa chất, bản thân robot tuyệt đối không được trở thành nguồn đánh lửa tiềm ẩn. Điều này đặt ra những yêu cầu vô cùng khắt khe đối với thiết kế phần cứng sản phẩm ngay từ đầu. Ví dụ: Ở cấp độ mạch điện phải có thiết kế an toàn bản chất, hạn chế năng lượng mạch, đảm bảo ngay cả khi xảy ra sự cố cũng không đủ để đốt cháy khí môi trường; cấu trúc cơ khí phải đáp ứng yêu cầu chống nổ, chịu được vụ nổ bên trong mà không làm hỏng vỏ; tất cả các điểm kết nối phải được xử lý tăng cường an toàn, ngăn ngừa nguy cơ phát tia lửa trong quá trình vận hành bình thường; các bộ phận quan trọng còn phải được cách ly tiếp xúc nguy hiểm bằng phương pháp đúc kín v.v.

Trí tuệ thể hóa có thể đi đâu
Thách thức đối với robot trong cảnh quan này tập trung vào "tính liên tục của thao tác tinh vi". Sau khi chủ xe đặt hàng, robot phải liên tục hoàn thành hơn mười động tác: mở nắp ngoài, vặn nắp trong, tháo vòi bơm từ giá, ngắm hướng và cắm vào cổ xăng, đợi đầy, rút vòi, treo lại giá, đậy nắp trong, đóng nắp ngoài. Dung sai của mỗi động tác chỉ vài milimét, bất kỳ bước nào bị kẹt đều đồng nghĩa với việc toàn bộ chuỗi bị gián đoạn. Hơn nữa, vị trí bình xăng, cấu trúc nắp, cách thức mở của các loại xe khác nhau muôn hình vạn trạng, robot không thể dựa vào chương trình cố định để xử lý mọi tình huống.
Nỗi đau và điểm cần cải thiện của việc tuần tra tại trạm lại hoàn toàn khác với trạm xăng. Trạm xăng thử thách thao tác tinh vi, còn trạm thì thử thách năng lực tổng hợp "tuần tra tự chủ thời gian dài + nhận diện nhiều loại bất thường + phản ứng tức thời tại hiện trường". Nhân viên tuần tra đi theo tuyến đường cố định mỗi ngày, công việc này nhàm chán, nguy hiểm, và yêu cầu sự tập trung chú ý cực cao, tỷ lệ bỏ sót của con người sẽ tăng đáng kể sau khi liên tục tuần tra vài giờ.
Cảnh quan cảng biển: Khám phá sự phối hợp đa robot
Điểm đặc biệt nhất của cảnh quan này nằm ở chỗ, nó tự nhiên cần sự phối hợp của nhiều robot.
Hiện tại, kiến trúc của hầu hết các hệ thống trí tuệ thể hóa là kiểu "dây chuyền lắp ráp", mô-đun thị giác phụ trách nhìn, mô-đun ngôn ngữ phụ trách hiểu, mô-đun hành động phụ trách thực thi.
Kiến trúc này có thể xử lý các nhiệm vụ đơn giản có chuỗi ngắn, nhiễu thấp, nhưng một khi gặp phải cảnh quan có hàng chục bước thao tác liên tục, môi trường động cao, tỷ lệ dung sai cực thấp, sai lệch nhỏ ở bất kỳ bước trung gian nào cũng sẽ truyền dẫn về phía sau như quân cờ domino. Kiến trúc dây chuyền truyền thống trước những nhiệm vụ có quy mô như vậy, gần như không thể đảm bảo tính ổn định đầu cuối.
Khả năng dự đoán được thúc đẩy bởi Mô hình Thế giới
Trong cảnh quan trạm xăng, chuỗi nhiệm vụ mà trí tuệ thể hóa phải đối mặt cực kỳ dài: hướng dẫn đỗ xe, nhận diện vị trí bình xăng, mở nắp ngoài, mở nắp trong, lấy vòi, ngắm và chĩa vào cổ xăng, cắm vào, bơm xăng, rút ra, thu vòi, đóng nắp trong, đóng nắp ngoài. Sai lệch nhỏ ở bất kỳ bước nào cũng sẽ truyền dẫn về sau.
Khả năng này đặc biệt quan trọng trong các nhiệm vụ chuỗi dài. Bơm xăng không phải là một thao tác đơn giản "nắm bắt - đặt", nó là một chuỗi hành động hoàn chỉnh có quan hệ nhân quả trước sau. Mô hình thế giới giúp trí tuệ thể hóa có được khả năng tiên liệu "nhìn ba bước, đi một bước".
Dùng một phép ẩn dụ để hiểu: Một tài xế lão luyện bơm xăng, bất kể nắp bình xăng mở có thuận lợi hay không, trong đầu luôn rõ ràng cuối cùng cần đạt đến trạng thái nào, mỗi bước ở giữa đều điều chỉnh xoay quanh trạng thái cuối cùng này. Giúp trí tuệ thể hóa chuyển từ "thực thi tuyến tính" sang "căn chỉnh trạng thái cuối".
Thứ nhất, tạo ra quan sát mục tiêu. Sau khi hệ thống nhận được lệnh nhiệm vụ và hình ảnh camera hiện tại, trước tiên dự đoán "sau khi hoàn thành nhiệm vụ, thế giới nên trở thành hình dạng thế nào". Ví dụ, sau khi nhiệm vụ bơm xăng kết thúc, vòi bơm nên về vị trí, nắp bình xăng nên đóng lại. "Hình ảnh trạng thái cuối" được dự đoán ra này chính là quan sát mục tiêu, nó cung cấp một điểm neo ngữ nghĩa rõ ràng cho toàn bộ quá trình suy luận sau đó.
Thứ hai, tổng hợp các khung hình chuyển tiếp trung gian. Sau khi có mục tiêu, hệ thống suy ngược lại những trạng thái thị giác nào nên trải qua ở giữa. Nếu điểm bắt đầu là "nắp bình xăng đang đóng", điểm kết thúc là "vòi bơm về vị trí, nắp bình xăng đóng lại", thì ở giữa cần lần lượt xuất hiện các khung hình chuyển tiếp như "nắp bình xăng mở ra", "vòi bơm được lấy ra", "vòi bơm được cắm vào cổ xăng". Những khung hình quan sát trung gian được tổng hợp này cung cấp tham chiếu thị giác từng bước căn chỉnh cho việc tạo ra hành động.
Cơ chế này giúp robot có được hình dung thị giác hoàn chỉnh về toàn bộ quá trình nhiệm vụ trước khi hành động, kế hoạch hành động sau đó đều xoay quanh "quỹ đạo tưởng tượng" này, từ đó giảm đáng kể sai lệch tích lũy trong quá trình thực thi chuỗi dài.

(a) Các phương pháp hiện có thường áp dụng mô hình dự đoán tổng thể, không liên quan mục tiêu. (b) H-GAR giới thiệu bộ tổng hợp quan sát có điều kiện mục tiêu và bộ tối ưu hóa hành động nhận thức tương tác, từ đó thực hiện dự đoán có điểm neo mục tiêu, và mô hình hóa rõ ràng sự tương tác giữa quan sát và hành động.
Cụ thể, quy trình làm việc của H-GAR được chia thành ba bước:

Sơ đồ kiến trúc H-GAR
Bước một: Bản thảo hành động ở mức độ thô. Dựa trên hình ảnh lịch sử và lệnh nhiệm vụ, hệ thống đầu tiên tạo ra một chuỗi hành động thô sơ. Những hành động này mô tả một "con đường đại khái" từ trạng thái hiện tại đến mục tiêu, tương tự như kế hoạch sơ bộ trong đầu một người khi bơm xăng, biết đại khái cần làm những bước nào, là sự chuẩn bị trước khi thực thi.
Bước hai: Tổng hợp quan sát có điều kiện mục tiêu (mô-đun GOS). Sau khi nhận được hành động thô, hệ thống tổng hợp các khung hình thị giác trung gian dưới sự dẫn dắt của quan sát mục tiêu. Điểm then chốt của bước này nằm ở: Hình ảnh được tổng hợp không phải được tạo ra một cách tùy tiện, mà đồng thời chịu sự ràng buộc kép của trạng thái cuối mục tiêu và hành động thô. Điều này đảm bảo các khung hình chuyển tiếp trung gian vừa phù hợp với logic hành động, vừa căn chỉnh với mục tiêu cuối cùng.
Bước ba: Tinh luyện hành động có nhận thức tương tác (mô-đun IAAR). Bước cuối cùng nâng cấp hành động thô thành chỉ dẫn có thể thực thi tinh tế. IAAR nhận phản hồi từ hai hướng để tinh luyện hành động: Một là ngữ cảnh thị giác do các khung hình quan sát trung gian cung cấp, giúp căn chỉnh hành động với cảnh quan thực tế; Hai là thư viện ký ức hành động lịch sử, nó ghi lại các hành động tinh tế đã thực thi trước đó, đảm bảo hành động được tạo ra hiện tại duy trì tính nhất quán thời gian với quỹ đạo lịch sử. Khi thư viện ký ức vượt quá ngưỡng dung lượng, hệ thống áp dụng chiến lược loại bỏ dựa trên độ tương đồng, hợp nhất các hành động liền kề giống nhau nhất để duy trì sự đa dạng của ký ức.
Địa chỉ bài báo: https://arxiv.org/pdf/2511.17079
Trong cảnh quan thực tế, sự cố bất ngờ hầu như là chuyện thường ngày. Nắp bình xăng có thể mở với góc độ không đúng, vị trí đỗ xe của chủ xe có thể lệch so với dự kiến, thậm chí xung quanh cổ xăng có thể có vật thể lạ che khuất. Hành động có thể thành công 99 lần trong 100 lần trong phòng thí nghiệm, khi đặt vào môi trường thực tế ngoài trời có thể giảm hiệu suất xuống 30%.
Lời kết: Tri hành hợp nhất
Đưa trí tuệ thể hóa tiến vào các cảnh quan đặc thù là một việc cần có tinh thần chủ nghĩa lâu dài.
Muốn bước vào các ngành công nghiệp đặc thù, thiết kế cấu trúc cơ khí phải xem xét tính an toàn từ gốc rễ, phải có năng lực nghiên cứu và phát triển bản thể của trí tuệ thể hóa. Mà việc thực thi nhiệm vụ trong các cảnh quan đặc biệt, bộ não thể hóa lại càng không thể thiếu. Sự kết hợp sâu sắc giữa bộ não và bản thể đã vượt qua danh mục cộng điểm, nó chính là điều kiện tiên quyết để được chấp nhận.
Khi ngành công nghiệp trí tuệ thể hóa tập thể đứng tại ngã tư triển khai thương mại hóa, những người chơi sớm nhất thông suốt vòng lặp "bộ não - bản thể - dữ liệu", rất có khả năng sẽ chiếm lợi thế tiên phong trong cuộc cạnh tranh sắp tới.
Bài viết này đến từ tài khoản công chúng WeChat: 机器之心 (Machine Heart) , Biên tập: Lãnh Miêu, Tác giả: Người quan tâm đến trí tuệ thể hóa, tiêu đề gốc: 《国内首张防爆资质、全球首个加油大脑方案,他们凭什么拿下两个「第一」》
![Đánh giá mức giảm giá 12% của Sonic [S] và lý do có thể còn nhiều đợt bán tháo tiếp theo](https://d1x7dwosqaosdj.cloudfront.net/images/2026-06/161e3d66eea4402796d2e6a66d93d453.jpg)







