Giao thức MCP đang thúc đẩy AI Agent tự động thực hiện tác vụ, nhưng rủi ro an ninh tăng vọt. Nghiên cứu phát hiện, kẻ tấn công có thể lợi dụng 12 thủ thuật như làm rối tên công cụ, thông báo lỗi giả mạo để lừa Agent thực hiện thao tác độc hại, ngay cả các mô hình hàng đầu cũng khó thoát khỏi. Nhóm nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh công bố tiêu chuẩn an ninh MSB, thông qua kiểm tra trong môi trường thực tế tiết lộ: Mô hình càng mạnh lại càng dễ bị tấn công. Chỉ số mới NRP lần đầu tiên cân bằng giữa an ninh và tính thực tiễn, cung cấp thước đo then chốt để củng cố phòng tuyến cho AI Agent.
Gần đây, các dự án AI Agent mã nguồn mở như OpenClaw đã gây bão trong cộng đồng nhà phát triển. Chỉ với một câu nói, Agent có thể tự động giúp bạn viết mã, tra cứu tài liệu, thao tác tệp cục bộ, thậm chí tiếp quản máy tính.
Đằng sau khả năng tự chủ đáng kinh ngạc của các Agent này là nhờ năng lực được cung cấp bởi việc gọi công cụ, và MCP (Model Context Protocol - Giao thức Ngữ cảnh Mô hình) chính là giao diện thống nhất hệ sinh thái công cụ AI. Giống như USB-C cho phép máy tính kết nối với các thiết bị khác nhau, MCP cho phép các mô hình lớn gọi các công cụ bên ngoài như hệ thống tệp, trình duyệt, cơ sở dữ liệu theo cách chuẩn hóa.
Đối mặt với một hệ sinh thái rộng lớn như vậy, ngay cả OpenClaw vốn chú trọng dòng lệnh gốc, cũng thông qua bộ chuyển đổi để tích hợp MCP, nhằm có được khả năng công cụ rộng hơn.
Tuy nhiên, khi "cánh tay" của AI càng vươn xa, nguy hiểm cũng theo đó mà giáng xuống. Nếu bản thân công cụ mà Agent gọi bị hacker đầu độc thì sao? Nếu thông tin thông báo lỗi từ công cụ chứa đựng các lệnh độc hại thì sao?
Khi mô hình lớn không có phòng bị thực hiện những lệnh này, dữ liệu riêng tư, tệp cục bộ thậm chí quyền truy cập máy chủ của bạn, đều sẽ trở thành miếng mồi ngon cho hacker.
Để lấp đầy khoảng trống đánh giá an ninh trong hệ sinh thái MCP, nhóm nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh và các tổ chức khác đã cho ra mắt tiêu chuẩn an ninh chuyên biệt cho giao thức MCP: MSB (MCP Security Bench). Nghiên cứu phát hiện: Tấn công vào mỗi giai đoạn của MCP đều có tính hiệu quả. Mô hình càng mạnh mẽ lại càng dễ bị tấn công. Bài báo này đã được chấp nhận tại ICLR 2026.
Liên kết bài báo: https://openreview.net/pdf?id=irxxkFMrry
Mã nguồn: https://github.com/dongsenzhang/MSB
Rủi ro an ninh MCP đằng sau Agent
Hình 1: Khung tấn công MCP
MCP mở rộng đáng kể năng lực của Agent, đồng thời cũng mở rộng đáng kể bề mặt tấn công. Trong hệ thống MCP, quy trình gọi công cụ của Agent thường bao gồm ba giai đoạn:
1. Lập kế hoạch tác vụ (Task Planning): Agent dựa trên truy vấn người dùng, lựa chọn công cụ phù hợp thông qua tên và mô tả công cụ.
2. Gọi công cụ (Tool Invocation): Agent gửi yêu cầu đến công cụ đã chọn và truyền các tham số tương ứng để thực hiện thao tác cụ thể.
3. Xử lý phản hồi (Response Handling): Agent phân tích kết quả phản hồi từ công cụ và dựa vào đó để tiếp tục suy luận hoặc tạo ra câu trả lời cuối cùng.
Mỗi giai đoạn đều có thể trở thành một điểm vào tấn công mới. MSB bao phủ đầy đủ các giai đoạn gọi công cụ MCP, được thiết kế chuyên dụng để đánh giá tính an ninh của Agent dựa trên việc sử dụng công cụ MCP, với ba điểm nổi bật cốt lõi:
Hệ thống phân loại tấn công MCP
Trong quy trình làm việc của MCP, Agent tương tác với công cụ thông qua định danh công cụ (tên và mô tả), tham số cũng như phản hồi công cụ, tất cả những điều này đều có thể trở thành con đường tấn công. MSB phân loại các kiểu tấn công dựa trên các con đường tấn công và giai đoạn tương tác này:
Tấn công Chữ ký Công cụ (Tool Signature Attack): Trong giai đoạn lập kế hoạch tác vụ, lợi dụng tên và mô tả công cụ để tấn công, bao gồm:
Xung đột tên (Name Collision, NC): Tạo ra công cụ độc hại có tên giống với công cụ chính thức để dụ Agent lựa chọn.
Thao túng sở thích (Preference Manipulation, PM): Tiêm các câu quảng cáo vào mô tả công cụ để dụ Agent lựa chọn.
Tiêm prompt (Prompt Injection, PI): Tiêm các lệnh độc hại vào mô tả công cụ.
Tấn công Tham số Công cụ (Tool Parameter Attack): Trong giai đoạn gọi công cụ, lợi dụng tham số công cụ để tấn công, bao gồm:
Tham số vượt quyền (Out-of-Scope Parameter, OP): Thiết lập tham số công cụ vượt quá chức năng bình thường, thông qua truyền tham số để gây rò rỉ thông tin.
Tấn công Phản hồi Công cụ (Tool Response Attack): Trong giai đoạn xử lý phản hồi, lợi dụng phản hồi công cụ để tấn công, bao gồm:
Mạo danh người dùng (User Impersonation, UI): Mạo danh người dùng để ra lệnh độc hại.
Lỗi giả (False Error, FE): Cung cấp thông tin lỗi thực thi công cụ giả mạo, yêu cầu Agent tuân theo lệnh độc hại mới có thể gọi công cụ thành công.
Chuyển hướng công cụ (Tool Transfer, TT): Chỉ thị Agent gọi công cụ độc hại.
Tấn công Tiêm Truy xuất (Retrieval Injection Attack): Trong giai đoạn xử lý phản hồi, lợi dụng tài nguyên bên ngoài để tấn công, bao gồm:
Tiêm truy xuất (Retrieval Injection, RI): Tài nguyên bên ngoài nhúng lệnh độc hại thông qua phản hồi công cụ làm hỏng ngữ cảnh.
Tấn công Hỗn hợp (Mixed Attack): Trong nhiều giai đoạn, đồng thời lợi dụng nhiều thành phần công cụ để tấn công, bao gồm sự kết hợp của các cuộc tấn công trên.
Bộ thực thi dựa trên môi trường thực tế
MSB từ chối đánh giá mô phỏng trên giấy, nó được trang bị máy chủ MCP thực, bao gồm 10 tình huống thực tế, 405 công cụ thực và 2.000 trường hợp tấn công. Tất cả các trường hợp đều chạy thực thi công cụ thực thông qua MCP, phản ánh chân thực môi trường thao tác, để quan sát trực tiếp mức độ phá hủy của cuộc tấn công đối với trạng thái môi trường.
Chỉ số NRP cân bằng hiệu suất và an ninh
Trong đánh giá an ninh Agent, việc chỉ nhìn vào tỷ lệ thành công tấn công (ASR, Attack Success Rate) rất dễ gây hiểu lầm. Nếu một Agent để tránh rủi ro mà từ chối thực hiện bất kỳ lệnh gọi công cụ nào, ASR của nó có thể gần bằng 0, nhưng đồng thời cũng không thể hoàn thành tác vụ người dùng, mất đi giá trị ứng dụng thực tế.
Vì lý do này, MSB đề xuất chỉ số Hiệu suất Đàn hồi Ròng NRP (Net Resilient Performance):
NRP = PUA ⋅ (1 − ASR)
Trong đó, PUA (Performance Under Attack) là tỷ lệ Agent hoàn thành tác vụ người dùng trong môi trường đối kháng, ASR là tỷ lệ thành công tấn công. NRP nhằm mục đích đánh giá khả năng chống chịu rủi ro tổng thể của Agent trong việc chống lại các cuộc tấn công đồng thời duy trì hiệu suất, cung cấp một tiêu chuẩn định lượng toàn diện cân bằng giữa hiệu suất và an ninh.
Hình 2: NRP vs ASR, NRP vs PUA.
Tất cả phương thức tấn công đều hiệu quả
Hình 3: Kết quả thí nghiệm chính.
Nhóm nghiên cứu đã sử dụng MSB để tiến hành kiểm tra quy mô lớn trên 10 mô hình chủ lưu như GPT-5, DeepSeek-V3.1, Claude 4 Sonnet, Qwen3, tất cả các phương thức tấn công đều thể hiện tính hiệu quả, tỷ lệ ASR trung bình tổng thể là 40,35%. Trong đó, các cuộc tấn công mới được giới thiệu bởi MCP có tính xâm lấn cao hơn, so với các cuộc tấn công PI và RI đã tồn tại trong function calling, các cuộc tấn công dựa trên MCP như UI và FE có tỷ lệ thành công cao hơn. Tấn công hỗn hợp thì thể hiện sự tăng cường hiệp đồng, tỷ lệ thành công của tấn công hỗn hợp cao hơn so với các cuộc tấn công đơn lẻ tạo thành nó.
Mô hình càng mạnh, lại càng dễ tổn thương
Mối quan hệ giữa các chỉ số khác nhau tiết lộ một kết luận phản trực giác: Mô hình càng mạnh thường càng dễ bị tấn công.
Hình 4: PUA vs ASR.
Trong MSB, việc hoàn thành tác vụ tấn công vẫn cần Agent gọi công cụ, ví dụ sử dụng công cụ đọc tệp để lấy thông tin cá nhân. Các LLM có tính thực tiễn cao hơn, nhờ khả năng gọi công cụ và tuân theo chỉ thị xuất sắc hơn, thể hiện ASR cao hơn. Phát hiện này tiết lộ rủi ro thực tế khổng lồ của lỗ hổng an ninh MCP.
Xâm hại môi trường đa công cụ, toàn giai đoạn
Hình 5: ASR ở các giai đoạn và cấu hình công cụ khác nhau.
Phân tích sâu hơn từ góc độ quy trình làm việc MCP và cấu hình công cụ phát hiện ra rằng, Ở tất cả các giai đoạn của MCP, Agent đều dễ bị tấn công, ở giai đoạn gọi công cụ, tính an ninh của mô hình là thấp nhất.
Ngoài ra, ngay cả trong môi trường đa công cụ có chứa công cụ vô hại, cuộc tấn công vẫn có hiệu lực. Các tình huống thực tế thường cung cấp bộ công cụ cho Agent, ngay cả khi tồn tại công cụ vô hại, các phương thức dụ dỗ như NC, PM và TT vẫn dẫn đến thành công tấn công đáng kể.
Tổng kết
Sự bùng nổ của OpenClaw đã cho mọi người thấy trực quan tương lai của Agent: Mô hình lớn không chỉ trả lời câu hỏi, mà bắt đầu thực sự动手 làm việc (làm việc thực tế). MSB được đề xuất trong bối cảnh như vậy, nó đã hệ thống hóa việc tiết lộ các bề mặt tấn công tiềm ẩn trong hệ sinh thái MCP, và cung cấp một tiêu chuẩn đánh giá hệ thống có thể tái tạo, định lượng cho nghiên cứu an ninh Agent.
Nghiên cứu an ninh mô hình lớn trong quá khứ chủ yếu tập trung vào các rủi ro ở cấp độ ngôn ngữ như tiêm prompt, trong khi MSB chỉ ra rằng, khi AI gọi công cụ và tương tác với hệ thống thực, bề mặt tấn công cũng đang mở rộng từ không gian văn bản sang hệ sinh thái công cụ. Khi Agent dần trở thành mẫu hình ứng dụng AI mới, an ninh có lẽ đang trở thành ngưỡng cửa bắt buộc phải vượt qua trong bước nhảy vọt công nghệ này.
Tài liệu tham khảo:
https://openreview.net/pdf?id=irxxkFMrry
Bài viết từ tài khoản WeChat công cộng "新智元" (Tân Trí Nguyên), tác giả: 新智元 (Tân Trí Nguyên)











