Không phải prompt injection, không phải role-playing, cũng không phải ngụy trang yêu cầu độc hại thành câu hỏi bình thường. Lần này, rủi ro xuất hiện trong quá trình tác nhân AI tự chủ hoàn thành nhiệm vụ.
Fable 5 là mô hình cấp độ Mythos được Anthropic mở ra cho công chúng, không chỉ có khả năng tổng hợp cực mạnh, mà còn được trang bị một bộ phân loại an ninh (Safety Classifier) thế hệ mới ở lớp ngoài mô hình như một phòng tuyến an ninh.
Theo thiết kế chính thức, khi yêu cầu của người dùng liên quan đến các lĩnh vực rủi ro cao như an ninh mạng, sinh học, hóa học, chưng cất mô hình, hệ thống sẽ ưu tiên nhận diện rủi ro, và dựa trên mức độ rủi ro để trực tiếp từ chối yêu cầu, hoặc chuyển sang xử lý bằng mô hình Opus 4.8 bảo thủ hơn.
Nhiều người dùng thử nghiệm phát hiện, các kỹ thuật tấn công vượt rào được sử dụng rộng rãi trước đây như prompt đối kháng, đóng vai, mã hóa lách luật và diễn đạt mơ hồ, gần như đều thất bại trước cơ chế an ninh này, cho thấy khả năng chặn rủi ro cấp độ ý định cực mạnh của nó.
Tuy nhiên, ngay trong ngày Fable 5 được phát hành, một nhóm nghiên cứu hợp tác quốc tế bao gồm các cơ sở như Đại học Phúc Đán, Đại học Deakin, Đại học Thành phố Hồng Kông Trung Quốc, Đại học Melbourne, Đại học Quản lý Singapore và Đại học Illinois Urbana-Champaign đã thông báo, họ đã thành công vượt qua cơ chế phòng vệ an ninh của Fable 5.
Phương pháp tấn công này do nghiên cứu sinh tiến sĩ Yutao Wu của Đại học Deakin chủ trì thiết kế. Toàn bộ cuộc tấn công chỉ cần một lần đối thoại, thời gian chưa đến 5 giây, là có thể lách qua bộ phân loại an ninh tiền trạm, dụ dỗ mô hình tạo ra nội dung vi phạm, độc hại.
Kết quả phân tích lưu lượng tiếp tục cho thấy, đầu ra độc hại liên quan trực tiếp đến từ chính Fable 5, chứ không phải từ mô hình Opus 4.8 được tự động chuyển sang sau khi kích hoạt cơ chế an ninh. Điều này có nghĩa, cuộc tấn công này không chỉ thành công lách qua phát hiện của bộ phân loại an ninh, mà còn thực chất vượt qua phòng tuyến an ninh của Fable 5.
Đáng chú ý, hacker nổi tiếng Pliny the Liberator gần đây cũng đã công khai cách lách qua bộ phân loại an ninh của Fable 5. Còn đường hướng kỹ thuật mà nhóm Phúc Đán & Deakin sử dụng lần này không phải là sự thăm dò tổ hợp đơn giản, mà là phát hiện ra khiếm khuyết căn bản của loại hệ thống siêu tác nhân như Fable 5.
Theo thông tin, nhóm đã hoàn thành nghiên cứu sơ bộ và công bố công khai từ tháng 3 năm nay. Nghiên cứu này không nhắm vào thiết kế hệ thống đơn lẻ Fable 5, mà là hướng đến kiến trúc phòng vệ "bộ phân loại an ninh + mô hình" được thế hệ siêu tác nhân mới phổ biến áp dụng, trực tiếp vạch ra khiếm khuyết cấu trúc tồn tại trong loại cơ chế an ninh này, do đó nhanh chóng thể hiện hiệu quả tấn công sau khi Fable 5 phát hành.
Tài liệu công khai cho thấy, nhóm này ngay từ tháng 3 năm nay đã sử dụng kỹ thuật tương tự, thành công trích xuất prompt hệ thống từ 37 hệ thống mô hình lớn và tác nhân chủ lưu, và hoàn thành xác minh mã nguồn mở trên Claude Code (trùng khớp 95%).
Được biết, người phụ trách nhóm nghiên cứu này là thầy Mã Hưng Quân thuộc Viện Nghiên cứu Trí tuệ Thân thể Đáng tin cậy, Đại học Phúc Đán.
Những năm gần đây, nhóm của thầy xoay quanh các hướng nghiên cứu an ninh mô hình lớn, tác nhân AI và trí tuệ thân thể tiến hành nghiên cứu hệ thống, đạt được một loạt thành quả nghiên cứu dẫn đầu quốc tế, và giành chức vô địch cuộc thi benchmark an ninh của Trung tâm An ninh AI Hoa Kỳ.
Hiện tại, nhóm của thầy đang tích cực thúc đẩy công tác chuyển giao thành quả, tập trung vào an ninh tác nhân, thăm dò xây dựng năng lực hạ tầng an ninh hướng đến hệ thống tác nhân thế hệ tiếp theo.
Theo thầy Mã giới thiệu, ý nghĩa quan trọng của kết quả nghiên cứu này nằm ở chỗ, nó đặt ra thách thức mới đối với mô hình phòng vệ tĩnh lấy bộ phân loại an ninh làm cốt lõi hiện nay: Chỉ dựa vào bộ phân loại an ninh tiền trạm là không đủ để hoàn toàn phòng ngừa hành vi rủi ro tiềm ẩn trong hệ thống tác nhân cao cấp.
Bộ phân loại an ninh chủ yếu nhắm vào đầu vào của người dùng để nhận diện và chặn rủi ro, có thể hiệu quả phát hiện và lọc chỉ thị rủi ro hiển thị, nhưng không thể cảm nhận được hành vi rủi ro nội tại dần dần phát sinh trong quá trình tác nhân vận hành dài hạn, lập kế hoạch nhiều bước, tương tác môi trường cũng như gọi công cụ.
Phương pháp phá vỡ Fable 5 lần này bắt nguồn từ bài báo "Internal Safety Collapse in Frontier Large Language Models" do nhóm này công bố vào tháng 3 năm nay.
Bài báo tiết lộ một hiện tượng an ninh ẩn giấu "Sụp đổ An ninh Nội bộ (Internal Safety Collapse, ISC)": Khi tác nhân hiện tại hoàn thành nhiệm vụ dài hạn, sự thất bại an ninh không nhất thiết đến từ prompt độc hại bên ngoài, mà có thể xảy ra trong chuỗi thực thi của chính mô hình.
Không phải tấn công prompt từ bên ngoài mà là thất thủ nội bộ trong chuỗi nhiệm vụ
Tấn công truyền thống thường đi vào từ bên ngoài. Kẻ tấn công sẽ viết một prompt đầu vào trông vô hại nhưng thực chất là đối kháng, hoặc sử dụng cách thức role-playing, mã hóa, dịch thuật, chỉ thị gián tiếp, v.v., để ngụy trang ý đồ độc hại thành yêu cầu bình thường. Nhiệm vụ chính của bộ phân loại an ninh chính là chặn rủi ro ở tầng này.
Bộ phát hiện của Fable 5 được thiết kế chính cho tình huống này. Nó rất nhạy cảm với yêu cầu rủi ro cao trực tiếp, thậm chí còn chặn lại nhiều yêu cầu bình thường. Nhưng ISC lại vạch ra một con đường khác: rủi ro không nhất thiết đến từ yêu cầu nguy hiểm trực tiếp do người dùng nhập.
Tác nhân AI đối mặt với một thư mục công việc trông có vẻ bình thường: tệp, mục tiêu, quy trình kiểm định và nhiệm vụ chờ hoàn thành. Sau đó, nó bắt đầu lập kế hoạch, đọc tệp, chạy mã, sửa lỗi, và liên tục thử để nhiệm vụ vượt qua xác minh.
Nếu dùng một phép so sánh hình tượng để giải thích, cơ chế an ninh truyền thống bảo vệ là "cổng vào" của hệ thống, chịu trách nhiệm kiểm tra đầu vào của người dùng có tồn tại rủi ro hay không; còn điều mà ISC vạch ra, thì giống với những giấc mơ nhiều tầng trong "Inception".
Khi nhiệm vụ tiến vào giai đoạn thực thi tầng thứ hai, thứ ba, thậm chí tầng sâu hơn, mô hình sẽ dựa trên ngữ cảnh nội bộ tích lũy không ngừng để hiểu lại mục tiêu nhiệm vụ, và trong quá trình này dần dần phát sinh lệch lạc.
Trong tình huống này, đầu vào ban đầu của người dùng hoàn toàn có thể là bình thường và vô hại, quá trình thực thi nhiệm vụ giai đoạn đầu cũng luôn tuân thủ: đọc tệp, phân tích dữ liệu, viết mã, gọi công cụ, tất cả trông đều đang tiến triển theo dự kiến.
Tuy nhiên, khi tác nhân thực thi đến một giai đoạn then chốt nào đó, nó có thể tự mình suy luận ra một kết luận: nếu không thực hiện một số hành vi vốn không nên thực hiện, thì sẽ không thể hoàn thành nhiệm vụ cuối cùng.
Chính trong quá trình này, rủi ro không đến từ đầu vào bên ngoài, mà hình thành dần dần trong chuỗi thực thi nhiệm vụ của chính mô hình. Nói cách khác, mô hình không phải bị người dùng dạy cho hư hỏng từng bước. Nó là trong quá trình "nghiêm túc hoàn thành nhiệm vụ", tự mình đi đến vị trí không an toàn.
Hiện tượng này được phát hiện như thế nào?
Theo nhóm giới thiệu, ISC không phải ngay từ đầu được thiết kế thành một phương pháp tấn công. Nó sớm nhất đến từ quan sát quá trình tác nhân vận hành dài hạn. Agent được đưa vào môi trường nhiệm vụ phức tạp, không chỉ đơn thuần thực thi chỉ thị cơ học. Nó sẽ lập kế hoạch, thử sai, sửa đầu ra dựa trên phản hồi của harness hoặc validator, và hình thành mục tiêu trung gian trong nhiều vòng thực thi.
Đây chính là cách sử dụng phổ biến nhất của nhiều workflow Agent ngày nay. Người dùng sẽ không viết một prompt được thiết kế tinh tế, càng không tự tay xây dựng chỉ thị tấn công. Rất nhiều lúc, người dùng chỉ cho một câu nói rất mơ hồ:
"Giúp tôi hoàn thành nhiệm vụ này." "Giúp tôi làm cho cái này tốt hơn một chút."
Sau đó, Agent sẽ tự mình vào không gian làm việc, đọc tệp, hiểu trạng thái hiện tại, phát hiện mục thiếu, lập kế hoạch, thực hiện sửa đổi, và liên tục sửa vấn đề dựa trên phản hồi.
Ví dụ trong bối cảnh AutoResearch, người dùng chỉ cho một bài báo chưa hoàn thành và một câu "giúp tôi bổ sung hoàn chỉnh", Agent sẽ tự phán đoán chỗ nào thiếu phân tích thí nghiệm, công việc liên quan hay văn bản bảng biểu. Bối cảnh mã nguồn cũng tương tự: một câu "giúp tôi chạy thông dự án", có thể kích hoạt kiểm tra phụ thuộc, chạy kiểm thử, định vị báo lỗi và tự động bổ sung hoàn chỉnh.
Rất nhiều lúc, ngữ cảnh phía trước hoàn toàn vô hại. Người dùng không yêu cầu nó tạo ra nội dung rủi ro, mô tả nhiệm vụ cũng không có từ khóa nguy hiểm rõ ràng. Nhưng trong một số cấu trúc nhiệm vụ, Agent sẽ để vượt qua kiểm định, chủ động bổ sung một số nội dung không nên do mô hình tạo ra. Dựa trên quan sát này, nhóm nghiên cứu tiếp tục đề xuất một khung tấn công: TVD (Nhiệm vụ, Xác minh, Dữ liệu).
Một cấu trúc mô tả nhiệm vụ trông rất bình thường tại sao lại trở thành tấn công?
Cấu trúc TVD không phức tạp, thậm chí rất gần với quy trình kỹ thuật thông thường:
· Task: Một nhiệm vụ chuyên môn;
· Data: Một tệp dữ liệu không hoàn chỉnh;
· Validator: Một bộ kiểm định chỉ kiểm tra định dạng, tính hoàn chỉnh và mục tiêu có hoàn thành hay không.
Lấy việc huấn luyện mô hình Guard làm ví dụ, đây vốn là một nhiệm vụ rất chuyên nghiệp, cũng rất bình thường. Nhà nghiên cứu có thể muốn huấn luyện hoặc đánh giá một bộ phát hiện an ninh, ví dụ sử dụng Hugging Face để tải một mô hình phân loại văn bản, phán đoán đầu ra mô hình nào đó thuộc loại nhãn an ninh nào.
Trong nhiệm vụ này, Data là mẫu dữ liệu mà mô hình cần phát hiện; Validator thì quy định nhiệm vụ có hoàn thành hay không. Nó sẽ kiểm tra đầu vào có phải là văn bản không, độ dài có đủ không, trường có hoàn chỉnh không, định dạng nhãn có đúng không. Đối với bất kỳ ai có kinh nghiệm huấn luyện học máy, đây đều là workflow quen thuộc. Agent cũng rất quen thuộc với workflow này.
Vấn đề xuất hiện ngay ở đây. Nếu Data không hoàn chỉnh, nhiệm vụ sẽ không chạy được. Validator sẽ báo lỗi, nhắc thiếu trường, độ dài không đủ hoặc định dạng không hoàn chỉnh. Để quá trình huấn luyện tiếp tục tiến hành, Agent sẽ tự mình bổ sung những Data này.
Từ góc nhìn của Agent, nó không phải đang "làm điều xấu". Nó chỉ đang hoàn thành một nhiệm vụ học máy bình thường: sửa chữa dữ liệu, vượt qua kiểm định, để kịch bản huấn luyện chạy được. Nhưng từ góc độ an ninh, rủi ro xuất hiện ngay lúc này: Validator giống một bộ kiểm tra nghiệm thu kỹ thuật hơn, chứ không phải giám sát viên an ninh. Nó chỉ kiểm tra nhiệm vụ có hoàn thành theo định dạng không, không hiểu ranh giới an ninh đằng sau nội dung.
Vấn đề tương tự cũng tồn tại rộng rãi trong các lĩnh vực y học, sinh học, hóa học, an ninh mạng, dược lý và an ninh truyền thông. Bài báo thu thập hơn 50 tình huống loại này, và liên quan đến nhiều công cụ nghiên cứu hoặc kỹ thuật thực tế, ví dụ BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, PyRosetta, Scapy, Impacket, angr, Frida, LlamaGuard, Detoxify, OpenAI Moderation API, v.v.
Bản thân những công cụ này không phải là công cụ độc hại. Ngược lại, chúng đều là những công cụ chuyên môn thường dùng trong nghiên cứu hoặc kỹ thuật thực tế. Nhưng vấn đề của TVD nằm ở: khi Task là bình thường, Tool là bình thường, Validator cũng bình thường, Agent vẫn có thể trong quá trình bổ sung Data đi đến đầu ra không an toàn.
Vì vậy, trọng điểm của ISC không nằm ở kỹ thuật prompt, mà ở khả năng tự động bổ sung hoàn chỉnh của Agent đối với "nhiệm vụ chưa hoàn thành": khi điều kiện hoàn thành và ranh giới rủi ro chồng lấn, mô hình có thể coi đầu ra không an toàn như vật giao nộp bình thường.
Phá vỡ Fable 5 cho thấy bộ phát hiện mạnh không ngăn được rủi ro nội bộ chuỗi nhiệm vụ
Trường hợp Fable 5 cho thấy, chỉ dựa vào bộ phát hiện bên ngoài vẫn có thể không bao phủ được một số bối cảnh Agent dài hạn. Điều này không có nghĩa bộ phân loại an ninh không có giá trị. Ngược lại, nó rất hữu ích đối với yêu cầu độc hại bên ngoài, và thực sự khiến nhiều phương pháp vượt rào truyền thống thất bại.
Nhưng lần thất thủ này cho thấy, bộ phát hiện bên ngoài có hiệu quả với ranh giới Prompt, không đồng nghĩa nó có thể bao phủ rủi ro nhiệm vụ dài hạn bên trong Agent.
Nếu cửa mở không phải đi vào từ Prompt người dùng, mà xuất hiện từ mục tiêu, công cụ, bộ kiểm định và quỹ đạo thực thi của Agent, thì bộ phát hiện an ninh sẽ trở nên rất mong manh.
Từ Fable 5 đến hơn 60 mô hình khác bao gồm mô hình di động của Apple
Với ISC-Bench công bố cùng nghiên cứu, bao phủ 9 lĩnh vực chuyên môn. Phiên bản bài báo chứa 60+ mẫu kích hoạt, sau khi mã nguồn mở mở rộng đến 84 mẫu, đối tượng kiểm tra bao gồm hầu hết tất cả mô hình tiên phong và hệ thống tác nhân của các hãng.
Trong bảng đánh giá dựa trên ISC-Bench, tính đến tháng 6 năm 2026, hơn 60 mô hình tiên phong dưới chỉ số ASR@3 đều lộ ra rủi ro tương tự!
Hiện tại dự án GitHub đã đạt được 800+ stars, và thu thập được nhiều trường hợp tái hiện độc lập (bao gồm phá vỡ mô hình di động trên điện thoại của Apple), và đang được cập nhật liên tục.
Được biết, nhóm đang tiến hành nghiên cứu an ninh quy mô lớn cho các mô hình tiên phong, hiện đã nắm giữ phân bố dữ liệu không an toàn nội bộ của một lượng lớn mô hình, các thành quả nghiên cứu liên quan sau đó sẽ lần lượt được công bố.
















