OpenClaw bùng nổ, phơi bày 12 loại nguy cơ chết người, công bố tiêu chuẩn an ninh giao thức MCP

marsbitXuất bản vào 2026-04-16Cập nhật gần nhất vào 2026-04-16

Tóm tắt

OpenClaw và các dự án AI Agent mã nguồn mở đang gây bão, nhưng tiềm ẩn 12 loại rủi ro bảo mật nghiêm trọng thông qua giao thức MCP (Model Context Protocol). Nghiên cứu từ Đại học Bắc Kinh cho thấy kẻ tấn công có thể lợi dụng làm nhiễu loạn tên công cụ, lỗi giả mạo và các thủ thuật khác để đánh lừa Agent thực hiện hành vi độc hại. Nhóm nghiên cứu đã công bố MSB - tiêu chuẩn đánh giá an ninh đầu tiên cho MCP, với hơn 2.000 tình huống tấn công trong môi trường thực. Kết quả chỉ ra: mô hình càng mạnh lại càng dễ bị tấn công. Chỉ số NRP mới được đề xuất nhằm cân bằng giữa hiệu suất và an toàn, cung cấp thước đo quan trọng để bảo vệ AI Agent.

Giao thức MCP đang thúc đẩy AI Agent tự động thực hiện tác vụ, nhưng rủi ro an ninh tăng vọt. Nghiên cứu phát hiện, kẻ tấn công có thể lợi dụng 12 thủ thuật như làm rối tên công cụ, thông báo lỗi giả mạo để lừa Agent thực hiện thao tác độc hại, ngay cả các mô hình hàng đầu cũng khó thoát khỏi. Nhóm nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh công bố tiêu chuẩn an ninh MSB, thông qua kiểm tra trong môi trường thực tế tiết lộ: Mô hình càng mạnh lại càng dễ bị tấn công. Chỉ số mới NRP lần đầu tiên cân bằng giữa an ninh và tính thực tiễn, cung cấp thước đo then chốt để củng cố phòng tuyến cho AI Agent.

Gần đây, các dự án AI Agent mã nguồn mở như OpenClaw đã gây bão trong cộng đồng nhà phát triển. Chỉ với một câu nói, Agent có thể tự động giúp bạn viết mã, tra cứu tài liệu, thao tác tệp cục bộ, thậm chí tiếp quản máy tính.

Đằng sau khả năng tự chủ đáng kinh ngạc của các Agent này là nhờ năng lực được cung cấp bởi việc gọi công cụ, và MCP (Model Context Protocol - Giao thức Ngữ cảnh Mô hình) chính là giao diện thống nhất hệ sinh thái công cụ AI. Giống như USB-C cho phép máy tính kết nối với các thiết bị khác nhau, MCP cho phép các mô hình lớn gọi các công cụ bên ngoài như hệ thống tệp, trình duyệt, cơ sở dữ liệu theo cách chuẩn hóa.

Đối mặt với một hệ sinh thái rộng lớn như vậy, ngay cả OpenClaw vốn chú trọng dòng lệnh gốc, cũng thông qua bộ chuyển đổi để tích hợp MCP, nhằm có được khả năng công cụ rộng hơn.

Tuy nhiên, khi "cánh tay" của AI càng vươn xa, nguy hiểm cũng theo đó mà giáng xuống. Nếu bản thân công cụ mà Agent gọi bị hacker đầu độc thì sao? Nếu thông tin thông báo lỗi từ công cụ chứa đựng các lệnh độc hại thì sao?

Khi mô hình lớn không có phòng bị thực hiện những lệnh này, dữ liệu riêng tư, tệp cục bộ thậm chí quyền truy cập máy chủ của bạn, đều sẽ trở thành miếng mồi ngon cho hacker.

Để lấp đầy khoảng trống đánh giá an ninh trong hệ sinh thái MCP, nhóm nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh và các tổ chức khác đã cho ra mắt tiêu chuẩn an ninh chuyên biệt cho giao thức MCP: MSB (MCP Security Bench). Nghiên cứu phát hiện: Tấn công vào mỗi giai đoạn của MCP đều có tính hiệu quả. Mô hình càng mạnh mẽ lại càng dễ bị tấn công. Bài báo này đã được chấp nhận tại ICLR 2026.

Liên kết bài báo: https://openreview.net/pdf?id=irxxkFMrry

Mã nguồn: https://github.com/dongsenzhang/MSB

Rủi ro an ninh MCP đằng sau Agent

Hình 1: Khung tấn công MCP

MCP mở rộng đáng kể năng lực của Agent, đồng thời cũng mở rộng đáng kể bề mặt tấn công. Trong hệ thống MCP, quy trình gọi công cụ của Agent thường bao gồm ba giai đoạn:

1. Lập kế hoạch tác vụ (Task Planning): Agent dựa trên truy vấn người dùng, lựa chọn công cụ phù hợp thông qua tên và mô tả công cụ.

2. Gọi công cụ (Tool Invocation): Agent gửi yêu cầu đến công cụ đã chọn và truyền các tham số tương ứng để thực hiện thao tác cụ thể.

3. Xử lý phản hồi (Response Handling): Agent phân tích kết quả phản hồi từ công cụ và dựa vào đó để tiếp tục suy luận hoặc tạo ra câu trả lời cuối cùng.

Mỗi giai đoạn đều có thể trở thành một điểm vào tấn công mới. MSB bao phủ đầy đủ các giai đoạn gọi công cụ MCP, được thiết kế chuyên dụng để đánh giá tính an ninh của Agent dựa trên việc sử dụng công cụ MCP, với ba điểm nổi bật cốt lõi:

Hệ thống phân loại tấn công MCP

Trong quy trình làm việc của MCP, Agent tương tác với công cụ thông qua định danh công cụ (tên và mô tả), tham số cũng như phản hồi công cụ, tất cả những điều này đều có thể trở thành con đường tấn công. MSB phân loại các kiểu tấn công dựa trên các con đường tấn công và giai đoạn tương tác này:

Tấn công Chữ ký Công cụ (Tool Signature Attack): Trong giai đoạn lập kế hoạch tác vụ, lợi dụng tên và mô tả công cụ để tấn công, bao gồm:

Xung đột tên (Name Collision, NC): Tạo ra công cụ độc hại có tên giống với công cụ chính thức để dụ Agent lựa chọn.

Thao túng sở thích (Preference Manipulation, PM): Tiêm các câu quảng cáo vào mô tả công cụ để dụ Agent lựa chọn.

Tiêm prompt (Prompt Injection, PI): Tiêm các lệnh độc hại vào mô tả công cụ.

Tấn công Tham số Công cụ (Tool Parameter Attack): Trong giai đoạn gọi công cụ, lợi dụng tham số công cụ để tấn công, bao gồm:

Tham số vượt quyền (Out-of-Scope Parameter, OP): Thiết lập tham số công cụ vượt quá chức năng bình thường, thông qua truyền tham số để gây rò rỉ thông tin.

Tấn công Phản hồi Công cụ (Tool Response Attack): Trong giai đoạn xử lý phản hồi, lợi dụng phản hồi công cụ để tấn công, bao gồm:

Mạo danh người dùng (User Impersonation, UI): Mạo danh người dùng để ra lệnh độc hại.

Lỗi giả (False Error, FE): Cung cấp thông tin lỗi thực thi công cụ giả mạo, yêu cầu Agent tuân theo lệnh độc hại mới có thể gọi công cụ thành công.

Chuyển hướng công cụ (Tool Transfer, TT): Chỉ thị Agent gọi công cụ độc hại.

Tấn công Tiêm Truy xuất (Retrieval Injection Attack): Trong giai đoạn xử lý phản hồi, lợi dụng tài nguyên bên ngoài để tấn công, bao gồm:

Tiêm truy xuất (Retrieval Injection, RI): Tài nguyên bên ngoài nhúng lệnh độc hại thông qua phản hồi công cụ làm hỏng ngữ cảnh.

Tấn công Hỗn hợp (Mixed Attack): Trong nhiều giai đoạn, đồng thời lợi dụng nhiều thành phần công cụ để tấn công, bao gồm sự kết hợp của các cuộc tấn công trên.

Bộ thực thi dựa trên môi trường thực tế

MSB từ chối đánh giá mô phỏng trên giấy, nó được trang bị máy chủ MCP thực, bao gồm 10 tình huống thực tế, 405 công cụ thực và 2.000 trường hợp tấn công. Tất cả các trường hợp đều chạy thực thi công cụ thực thông qua MCP, phản ánh chân thực môi trường thao tác, để quan sát trực tiếp mức độ phá hủy của cuộc tấn công đối với trạng thái môi trường.

Chỉ số NRP cân bằng hiệu suất và an ninh

Trong đánh giá an ninh Agent, việc chỉ nhìn vào tỷ lệ thành công tấn công (ASR, Attack Success Rate) rất dễ gây hiểu lầm. Nếu một Agent để tránh rủi ro mà từ chối thực hiện bất kỳ lệnh gọi công cụ nào, ASR của nó có thể gần bằng 0, nhưng đồng thời cũng không thể hoàn thành tác vụ người dùng, mất đi giá trị ứng dụng thực tế.

Vì lý do này, MSB đề xuất chỉ số Hiệu suất Đàn hồi Ròng NRP (Net Resilient Performance):

NRP = PUA ⋅ (1 − ASR)

Trong đó, PUA (Performance Under Attack) là tỷ lệ Agent hoàn thành tác vụ người dùng trong môi trường đối kháng, ASR là tỷ lệ thành công tấn công. NRP nhằm mục đích đánh giá khả năng chống chịu rủi ro tổng thể của Agent trong việc chống lại các cuộc tấn công đồng thời duy trì hiệu suất, cung cấp một tiêu chuẩn định lượng toàn diện cân bằng giữa hiệu suất và an ninh.

Hình 2: NRP vs ASR, NRP vs PUA.

Tất cả phương thức tấn công đều hiệu quả

Hình 3: Kết quả thí nghiệm chính.

Nhóm nghiên cứu đã sử dụng MSB để tiến hành kiểm tra quy mô lớn trên 10 mô hình chủ lưu như GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3, tất cả các phương thức tấn công đều thể hiện tính hiệu quả, tỷ lệ ASR trung bình tổng thể là 40,35%. Trong đó, các cuộc tấn công mới được giới thiệu bởi MCP có tính xâm lấn cao hơn, so với các cuộc tấn công PI và RI đã tồn tại trong function calling, các cuộc tấn công dựa trên MCP như UI và FE có tỷ lệ thành công cao hơn. Tấn công hỗn hợp thì thể hiện sự tăng cường hiệp đồng, tỷ lệ thành công của tấn công hỗn hợp cao hơn so với các cuộc tấn công đơn lẻ tạo thành nó.

Mô hình càng mạnh, lại càng dễ tổn thương

Mối quan hệ giữa các chỉ số khác nhau tiết lộ một kết luận phản trực giác: Mô hình càng mạnh thường càng dễ bị tấn công.

Hình 4: PUA vs ASR.

Trong MSB, việc hoàn thành tác vụ tấn công vẫn cần Agent gọi công cụ, ví dụ sử dụng công cụ đọc tệp để lấy thông tin cá nhân. Các LLM có tính thực tiễn cao hơn, nhờ khả năng gọi công cụ và tuân theo chỉ thị xuất sắc hơn, thể hiện ASR cao hơn. Phát hiện này tiết lộ rủi ro thực tế khổng lồ của lỗ hổng an ninh MCP.

Xâm hại môi trường đa công cụ, toàn giai đoạn

Hình 5: ASR ở các giai đoạn và cấu hình công cụ khác nhau.

Phân tích sâu hơn từ góc độ quy trình làm việc MCP và cấu hình công cụ phát hiện ra rằng, Ở tất cả các giai đoạn của MCP, Agent đều dễ bị tấn công, ở giai đoạn gọi công cụ, tính an ninh của mô hình là thấp nhất.

Ngoài ra, ngay cả trong môi trường đa công cụ có chứa công cụ vô hại, cuộc tấn công vẫn có hiệu lực. Các tình huống thực tế thường cung cấp bộ công cụ cho Agent, ngay cả khi tồn tại công cụ vô hại, các phương thức dụ dỗ như NC, PM và TT vẫn dẫn đến thành công tấn công đáng kể.

Tổng kết

Sự bùng nổ của OpenClaw đã cho mọi người thấy trực quan tương lai của Agent: Mô hình lớn không chỉ trả lời câu hỏi, mà bắt đầu thực sự动手 làm việc (làm việc thực tế). MSB được đề xuất trong bối cảnh như vậy, nó đã hệ thống hóa việc tiết lộ các bề mặt tấn công tiềm ẩn trong hệ sinh thái MCP, và cung cấp một tiêu chuẩn đánh giá hệ thống có thể tái tạo, định lượng cho nghiên cứu an ninh Agent.

Nghiên cứu an ninh mô hình lớn trong quá khứ chủ yếu tập trung vào các rủi ro ở cấp độ ngôn ngữ như tiêm prompt, trong khi MSB chỉ ra rằng, khi AI gọi công cụ và tương tác với hệ thống thực, bề mặt tấn công cũng đang mở rộng từ không gian văn bản sang hệ sinh thái công cụ. Khi Agent dần trở thành mẫu hình ứng dụng AI mới, an ninh có lẽ đang trở thành ngưỡng cửa bắt buộc phải vượt qua trong bước nhảy vọt công nghệ này.

Tài liệu tham khảo:

https://openreview.net/pdf?id=irxxkFMrry

Bài viết từ tài khoản WeChat công cộng "新智元" (Tân Trí Nguyên), tác giả: 新智元 (Tân Trí Nguyên)

Câu hỏi Liên quan

QGiao thức MCP là gì và tại sao nó lại quan trọng đối với AI Agent?

AMCP (Model Context Protocol) là giao thức giao diện chuẩn hóa cho phép AI Agent gọi các công cụ bên ngoài như hệ thống tệp, trình duyệt và cơ sở dữ liệu. Nó quan trọng vì mở rộng khả năng tự chủ của Agent, cho phép chúng thực hiện các tác vụ phức tạp bằng cách tương tác với môi trường bên ngoài một cách thống nhất.

QNghiên cứu MSB đã phát hiện những loại tấn công nào vào hệ thống MCP?

ANghiên cứu MSB xác định 12 loại tấn công, bao gồm: Tấn công chữ ký công cụ (Name Collision, Preference Manipulation, Prompt Injection), Tấn công tham số công cụ (Out-of-Scope Parameter), Tấn công phản hồi công cụ (User Impersonation, False Error, Tool Transfer), Tấn công tiêm truy xuất (Retrieval Injection) và Tấn công hỗn hợp (kết hợp nhiều phương thức).

QTại sao các mô hình AI mạnh hơn như GPT-5 lại dễ bị tấn công hơn theo nghiên cứu?

ACác mô hình mạnh hơn như GPT-5 có khả năng tuân thủ chỉ dẫn và gọi công cụ tốt hơn, điều này vô tình khiến chúng dễ thực thi các lệnh độc hại một cách hiệu quả hơn. Khả năng thực thi tác vụ người dùng (PUA) cao hơn đồng nghĩa với tỷ lệ thành công của cuộc tấn công (ASR) cũng cao hơn.

QChỉ số NRP (Net Resilient Performance) đo lường điều gì và tại sao nó quan trọng?

ANRP = PUA * (1 - ASR). Nó đo lường khả năng tổng thể của Agent trong việc vừa chống lại các cuộc tấn công (thể hiện qua ASR thấp) vừa duy trì hiệu suất thực thi tác vụ người dùng (PUA cao). NRP quan trọng vì nó cung cấp một thước đo cân bằng giữa bảo mật và tính khả dụng, tránh đánh giá sai lệch nếu Agent từ chối mọi hoạt động để đảm bảo an toàn.

QNghiên cứu MSB được thực hiện trong môi trường như thế nào để đảm bảo tính chân thực?

AMSB không đánh giá mô phỏng mà triển khai một máy chủ MCP thật, với 10 kịch bản thực tế, 405 công cụ thực và 2.000 instances tấn công. Tất cả các instances đều chạy thực thi công cụ thông qua MCP, cho phép quan sát trực tiếp mức độ thiệt hại đối với trạng thái môi trường, phản ánh chính xác rủi ro trong thực tế.

Nội dung Liên quan

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片