Gần đây, nền tảng tác nhân AI tự lưu trữ mã nguồn mở OpenClaw (thường được gọi trong giới là “Tôm Hùm”) đã nhanh chóng trở nên nổi tiếng nhờ khả năng mở rộng linh hoạt và đặc tính triển khai tự chủ, trở thành sản phẩm hiện tượng trong lĩnh vực tác nhân AI cá nhân. Clawhub, trung tâm của hệ sinh thái này, đóng vai trò như một chợ ứng dụng, tập hợp vô số plugin chức năng Skill của bên thứ ba, cho phép tác nhân AI mở khóa một cách dễ dàng các khả năng cao cấp từ tìm kiếm web, sáng tạo nội dung, đến thao tác ví tiền mã hóa, tương tác trên chuỗi, tự động hóa hệ thống, v.v., quy mô hệ sinh thái và lượng người dùng đang tăng trưởng bùng nổ.
Nhưng đối với những Skill của bên thứ ba chạy trong môi trường có quyền cao như vậy, ranh giới bảo mật thực sự của nền tảng nằm ở đâu?
Gần đây, CertiK, công ty bảo mật Web3 lớn nhất toàn cầu, đã công bố nghiên cứu mới nhất về bảo mật Skill. Bài viết chỉ ra rằng thị trường hiện đang có sự hiểu lầm về ranh giới bảo mật của hệ sinh thái tác nhân AI: ngành công nghiệp phổ biến coi “quét Skill” là ranh giới bảo mật cốt lõi, nhưng cơ chế này gần như vô dụng trước các cuộc tấn công của hacker.
Nếu so sán OpenClaw với một hệ điều hành thiết bị thông minh, thì Skill chính là các APP khác nhau được cài đặt trong hệ thống. Khác với các APP tiêu dùng thông thường, một số Skill trong OpenClaw chạy trong môi trường có quyền cao, có thể trực tiếp truy cập tệp cục bộ, gọi công cụ hệ thống, kết nối dịch vụ bên ngoài, thực thi lệnh môi trường máy chủ, thậm chí thao tác tài sản kỹ thuật số mã hóa của người dùng. Một khi xảy ra sự cố bảo mật, hậu quả nghiêm trọng như rò rỉ thông tin nhạy cảm, thiết bị bị chiếm quyền điều khiển từ xa, tài sản kỹ thuật số bị đánh cắp sẽ xảy ra trực tiếp.
Hiện tại, giải pháp bảo mật phổ biến của toàn ngành đối với Skill của bên thứ ba là “quét và kiểm duyệt trước khi lên sàn”. Clawhub của OpenClaw cũng đã xây dựng một hệ thống bảo vệ kiểm duyệt ba tầng: kết hợp quét mã VirusTotal, công cụ phát hiện mã tĩnh, phát hiện tính nhất quán logic bằng AI, thông qua phân cấp rủi ro để đẩy thông báo cảnh báo an ninh cho người dùng, cố gắng bảo vệ an ninh hệ sinh thái bằng cách này. Nhưng nghiên cứu và các bài kiểm tra tấn công bằng chứng khái niệm (PoC) của CertiK xác nhận rằng hệ thống phát hiện này tồn tại điểm yếu trong đối kháng thực tế và không thể đảm nhận trọng trách cốt lõi của bảo vệ an ninh.
Nghiên cứu đầu tiên phân tích các hạn chế tự nhiên của cơ chế phát hiện hiện có:
Quy tắc phát hiện tĩnh rất dễ bị bỏ qua. Cốt lõi của công cụ này là dựa vào khớp đặc trưng mã để nhận diện rủi ro, ví dụ như kết hợp “đọc thông tin nhạy cảm môi trường + gửi yêu cầu mạng” được đánh giá là hành vi nguy hiểm cao, nhưng kẻ tấn công chỉ cần sửa đổi cú pháp mã một cách nhẹ nhàng, trong khi vẫn giữ nguyên logic độc hại, có thể dễ dàng bỏ qua khớp đặc trưng, giống như thay thế nội dung nguy hiểm bằng một cách diễn đạt đồng nghĩa khác, khiến máy kiểm tra an ninh hoàn toàn mất tác dụng.
Kiểm duyệt AI tồn tại điểm mù phát hiện bẩm sinh. Cốt lõi kiểm duyệt AI của Clawhub được định vị là “bộ phát hiện tính nhất quán logic”, chỉ có thể bắt ra những mã độc rõ ràng “chức năng khai báo không phù hợp với hành vi thực tế”, nhưng lại bó tay trước những lỗ hổng khai thác được ẩn giấu trong logic nghiệp vụ bình thường, giống như rất khó để phát hiện ra cái bẫy chết người ẩn sâu trong các điều khoản từ một hợp đồng có vẻ tuân thủ.
Nguy hiểm hơn nữa, quy trình kiểm duyệt tồn tại thiết kế lỗi ở tầng đáy: ngay cả khi kết quả quét của VirusTotal vẫn ở trạng thái “đang chờ xử lý”, chưa hoàn thành “kiểm tra sức khỏe” toàn bộ quy trình, Skill vẫn có thể lên sàn công khai trực tiếp, người dùng có thể cài đặt hoàn tất trong tình trạng không có cảnh báo, tạo cơ hội cho kẻ tấn công.
Để xác minh mức độ thiệt hại thực sự của rủi ro, nhóm nghiên cứu CertiK đã hoàn thành bài kiểm tra đầy đủ. Nhóm đã phát triển một Skill có tên “test-web-searcher”, bề ngoài là một công cụ tìm kiếm web hoàn toàn tuân thủ, logic mã hoàn toàn phù hợp với quy chuẩn phát triển thông thường, nhưng thực tế lại cấy lỗ hổng thực thi mã từ xa vào trong quy trình chức năng bình thường.
Skill này đã bỏ qua sự phát hiện của công cụ tĩnh và kiểm duyệt AI, trong khi quét VirusTotal vẫn ở trạng thái chờ xử lý, đã thực hiện cài đặt bình thường mà không có bất kỳ cảnh báo an ninh nào; cuối cùng thông qua Telegram gửi từ xa một câu lệnh, đã kích hoạt lỗ hổng thành công, thực hiện lệnh tùy ý trên thiết bị máy chủ (trong demo đã điều khiển hệ thống mở trực tiếp máy tính).
CertiK đã chỉ rõ trong nghiên cứu rằng những vấn đề này không phải là lỗi sản phẩm riêng của OpenClaw, mà là điểm hiểu lầm phổ biến của toàn ngành tác nhân AI: ngành công nghiệp phổ biến coi “kiểm duyệt quét” là tuyến phòng thủ an ninh cốt lõi, nhưng lại bỏ qua nền tảng an ninh thực sự, đó là cách ly bắt buộc khi chạy và quản lý quyền chi tiết. Điều này giống như cốt lõi an ninh của hệ sinh thái iOS Apple, không bao giờ là kiểm duyệt nghiêm ngặt của App Store, mà là cơ chế hộp cát bắt buộc của hệ thống, quản lý quyền chi tiết, cho phép mỗi APP chỉ chạy trong “khu cách ly” chuyên dụng, không thể tùy ý lấy quyền hệ thống. Còn cơ chế hộp cát hiện có của OpenClaw là tùy chọn chứ không bắt buộc, và phụ thuộc nhiều vào cấu hình thủ công của người dùng, đa số người dùng để đảm bảo tính khả dụng chức năng của Skill sẽ chọn tắt hộp cát, cuối cùng khiến tác nhân AI ở trạng thái “chạy trần”, một khi cài đặt Skill chứa lỗ hổng hoặc mã độc, sẽ trực tiếp dẫn đến hậu quả thảm khốc.
Đối với các vấn đề được phát hiện lần này, CertiK cũng đã đưa ra hướng dẫn an ninh:
● Đối với các nhà phát triển tác nhân AI như OpenClaw, phải đặt cách ly hộp cát thành cấu hình bắt buộc mặc định cho Skill của bên thứ ba, tinh chỉnh mô hình quản lý quyền của Skill, tuyệt đối không cho phép mã của bên thứ ba mặc định kế thừa quyền cao của máy chủ.
● Đối với người dùng thông thường, Skill trên chợ có nhãn “an toàn” chỉ đại diện cho việc nó chưa được phát hiện có rủi ro, không có nghĩa là tuyệt đối an toàn. Trước khi bên chính thức đặt cơ chế cách ly mạnh ở tầng đáy thành cấu hình mặc định, khuyến nghị triển khai OpenClaw trên các thiết bị không quan trọng, không dùng đến hoặc máy ảo, tuyệt đối không để nó tiếp cận các tệp nhạy cảm, chứng chỉ mật khẩu và tài sản mã hóa có giá trị cao.
Hiện tại, lĩnh vực tác nhân AI đang ở đêm trước của sự bùng nổ, tốc độ mở rộng hệ sinh thái tuyệt đối không thể chạy nhanh hơn bước chân xây dựng an ninh. Kiểm duyệt quét chỉ có thể chặn các cuộc tấn công độc hại sơ cấp, nhưng sẽ không bao giờ trở thành ranh giới an ninh cho tác nhân có quyền cao. Chỉ có thể chuyển từ “theo đuổi phát hiện hoàn hảo” sang “kiềm chế thiệt hại khi mặc định rủi ro tồn tại”, từ tầng đáy khi chạy thiết lập ranh giới cách ly bắt buộc, mới thực sự đảm bảo được đường ranh giới an ninh cho tác nhân AI, để cuộc cách mạng công nghệ này tiến bước vững chắc và xa.





