Từ Mã đến Nhận Thức: Hướng Dẫn Nghìn Chữ về Sự Tiến Hóa của Bộ Não Robot
Từ nhiều thập kỷ trước, robot chủ yếu được điều khiển bằng mã lập trình truyền thống, với các lớp như cảm nhận, ước tính trạng thái, lập kế hoạch và điều khiển được xây dựng thủ công. Chúng hoạt động tốt trong môi trường được thiết kế trước nhưng thiếu khả năng tổng quát hóa.
Sự xuất hiện của học sâu (deep learning) đã cách mạng hóa lớp cảm nhận, trong khi học tăng cường (reinforcement learning) và học bắt chước (imitation learning) bắt đầu cải thiện lớp điều khiển. Tuy nhiên, mỗi chính sách học được vẫn còn hẹp và thiếu linh hoạt.
Sự bùng nổ của các mô hình ngôn ngữ lớn (LLM) như ChatGPT đã mang lại bước nhảy vọt: LLM đóng vai trò như một bộ lập kế hoạch thông minh, dịch chỉ dẫn ngôn ngữ tự nhiên thành chuỗi hành động để hệ thống robot (như ROS2) thực thi. Dù vậy, LLM vẫn chỉ nằm ở lớp lập kế hoạch.
Bước tiến quan trọng tiếp theo là các Mô hình Thị giác-Ngôn ngữ-Hành động (VLA). Các mô hình như RT-2 của Google hay OpenVLA hợp nhất lý luận và hành động trong một mạng thần kinh duy nhất, nhận đầu vào là hình ảnh và lệnh, rồi trực tiếp xuất ra các chỉ thị chuyển động, giúp robot linh hoạt và có khả năng tổng quát hóa hơn.
Kiến trúc tiên tiến nhất hiện nay cho robot hình người là "hệ thống kép" (System 1/System 2), lấy cảm hứng từ tâm lý học. System 2 (chậm) là một VLA lớn, xử lý cảnh quan và lý luận ở tần số thấp. System 1 (nhanh) là một mạng nhỏ, tốc độ cao, nhận ý định từ System 2 và xuất ra các lệnh chuyển động liên tục. Một số hệ thống còn có System 0 như một lớp phản xạ để giữ thăng bằng.
Việc tính toán được chia sẻ: các vòng lặp điều khiển an toàn quan trọng chạy cục bộ trên bo mạch (ví dụ: NVIDIA Jetson) để đảm bảo độ trễ thấp và độ tin cậy, trong khi các tác vụ như giao diện hội thoại hay học tập nhóm có thể chạy trên đám mây.
Các mô hình mã nguồn mở như OpenVLA, NVIDIA Isaac GR00T, và Physical Intelligence π0 đang thúc đẩy lĩnh vực này, cho phép các công ty khởi nghiệp tinh chỉnh chúng với dữ liệu riêng thay vì đào tạo từ đầu.
Dù đã có tiến bộ lớn, robot VLA hiện tại vẫn có hạn chế: khó khăn trong phục hồi sau lỗi, hiệu quả mẫu thấp, khó khăn với nhiệm vụ dài hạn và thiếu "hiểu biết vật lý" thực sự.
Để giải quyết những hạn chế này, lĩnh vực đang tập trung vào "Mô hình Thế giới" (World Model). Đây là các mạng thần kinh có thể dự đoán hệ quả của hành động dựa trên trạng thái hiện tại. Bằng cách mô phỏng nhiều tương lai khả thi trước khi hành động, robot có thể lập kế hoạch tốt hơn, phục hồi tốt hơn và cải thiện khả năng tổng quát hóa. Các kiến trúc chính gồm: mô hình khuếch tán pixel (Cosmos/Sora), Kiến trúc Dự đoán Nhúng Chung (JEPA của LeCun) và Mô hình Thế giới Hành động Tiềm ẩn (Genie/Dreamer).
Tương lai, robot tiên tiến có thể kết hợp VLA với Mô hình Thế giới để lập kế hoạch và kiểm tra hành động trong mô phỏng trước khi thực thi, đồng thời tạo ra lượng dữ liệu tổng hợp khổng lồ cho đào tạo.
Yếu tố then chốt hiện nay là dữ liệu, với việc điều khiển từ xa (teleoperation) là phương pháp thu thập chính. Mô phỏng (simulation) cũng đóng vai trò ngày càng quan trọng. Về kinh tế, chi phí phần cứng robot hình người đang giảm nhanh, mở ra thị trường rộng lớn hơn. Tuy nhiên, lĩnh vực này vẫn đang ở giai đoạn phát triển, tương tự "thời kỳ GPT-2" của AI vật lý, với tiềm năng to lớn nhưng cần thêm thời gian để trưởng thành hoàn toàn và triển khai một cách tự chủ, an toàn.
marsbit1 giờ trước