Tác giả: Hùng Lợi
Biên tập: Từ Thanh Dương
Vào ngày 12 tháng 6 giờ địa phương Mỹ, một cuộc đối đầu trực diện hiếm hoi giữa chính phủ và doanh nghiệp trong lịch sử quản lý AI đã bùng nổ đột ngột vào thứ Sáu tuần này.
Chính phủ Mỹ, với lý do an ninh quốc gia, đã gửi chỉ thị kiểm soát xuất khẩu tới Anthropic, yêu cầu ngay lập tức tạm dừng mọi quyền truy cập của các thực thể nước ngoài vào hai mô hình AI Fable 5 và Mythos 5. Chỉ thị này có phạm vi áp dụng rất rộng, không chỉ áp dụng cho người dùng nước ngoài bên ngoài lãnh thổ Mỹ, mà còn bao gồm cả công dân nước ngoài đang ở trong lãnh thổ Mỹ, thậm chí cả nhân viên nước ngoài trong công ty Anthropic.
Là biện pháp tuân thủ, Anthropic buộc phải đóng cửa truy cập hoàn toàn cho tất cả người dùng vào hai mô hình này — đây là giải pháp khả thi duy nhất hiện có để đảm bảo tuân thủ, bởi công ty không thể phân biệt chính xác về mặt kỹ thuật giữa nhóm người dùng là "thực thể nước ngoài" và "công dân Mỹ". Việc truy cập vào các mô hình khác của công ty không bị ảnh hưởng, người dùng sẽ tự động quay lại sử dụng Claude Opus 4.8.
Việc đình chỉ khẩn cấp này diễn ra quá bất ngờ. Fable 5 và Mythos 5 chính thức ra mắt vào ngày 9 tháng 6, chỉ mới ba ngày trước. Việc gỡ bỏ đột ngột hai mô hình này đã gây chấn động rộng rãi trong giới công nghệ và cộng đồng AI.
01 Hai mô hình này thực chất là gì
Để hiểu được sức căng trung tâm của cơn bão này, cần phải biết Fable 5 và Mythos 5 là những mô hình như thế nào, và tại sao ngay từ đầu chúng đã nằm dưới ánh đèn sân khấu của các cơ quan quản lý.
Mythos là họ mô hình hoàn toàn mới của Anthropic, có cấp độ năng lực cao hơn dòng Opus, đại diện cho trình độ năng lực cao nhất hiện có mà Anthropic có thể triển khai công khai. Mô hình đầu tiên thuộc loại Mythos, Claude Mythos Preview, được phát hành vào tháng 4 năm nay thông qua dự án "Project Glasswing", với quyền truy cập bị giới hạn nghiêm ngặt cho một số ít đối tác, lý do là khả năng của nó trong lĩnh vực an ninh mạng quá mạnh, không phù hợp để mở rộng rộng rãi.
Fable 5 là mô hình cấp Mythos đầu tiên chính thức mở cửa cho công chúng, với năng lực vượt trội tất cả các mô hình khả dụng mà Anthropic từng phát hành trước đó, đạt trình độ đỉnh cao ngành trong hầu hết các tiêu chuẩn đánh giá về kỹ thuật phần mềm, công việc tri thức, hiểu biết thị giác, nghiên cứu khoa học.
Để có thể phát hành công khai, Anthropic đã trang bị cho Fable 5 cơ chế bảo vệ an toàn chuyên biệt — trong các lĩnh vực rủi ro cao như an ninh mạng, sinh học, hóa học, mô hình sẽ tự động chặn phản hồi và quay lại xử lý bằng Claude Opus 4.8.
Mythos 5 là phiên bản dựa trên cùng mô hình nền tảng đó, nhưng được trang bị ít biện pháp bảo vệ an toàn hơn, chỉ mở cửa cho các tổ chức đã được phê duyệt trước đó có quyền truy cập Project Glasswing, định vị là công cụ chuyên nghiệp dành cho những người phòng thủ an ninh mạng và nhà khai thác cơ sở hạ tầng trọng yếu. Hai mô hình có mức giá như nhau, đều là 10 đô la cho mỗi triệu token đầu vào và 50 đô la cho mỗi triệu token đầu ra.
02 Ngòi nổ kích hoạt chỉ thị
Theo báo cáo, Bộ trưởng Thương mại Mỹ Howard Lutnick đã gửi thư cho Giám đốc điều hành Anthropic Dario Amodei (Dario Amodei) vào ngày 12 tháng 6, thông báo rằng Mythos 5 và Fable 5 sẽ bị kiểm soát xuất khẩu. Nguyên nhân trực tiếp dẫn đến quyết định này là một công ty khác tuyên bố có thể thực hiện "vượt ngục" (jailbreak) đối với Mythos, khiến chính quyền Trump cảnh giác về rủi ro an ninh quốc gia tiềm ẩn.
Được biết, chính quyền Trump trước đó đã từng cố gắng ngăn Anthropic phát hành hai mô hình này, nhưng không thành công — điều này sau đó đã thúc đẩy chính phủ áp dụng biện pháp cứng rắn hơn là kiểm soát xuất khẩu.
Đối mặt với chỉ thị bất ngờ này, Anthropic, trong khi tuân thủ, đã đưa ra một tuyên bố dài với lời lẽ hiếm khi cứng rắn, đưa ra những phản bối có hệ thống đối với lý do của chính phủ.
Anthropic cho rằng, bằng chứng "vượt ngục" mà chính phủ nắm giữ chỉ liên quan đến một phương thức tấn công rất hẹp, không thể áp dụng rộng rãi, bản chất là yêu cầu mô hình đọc một kho mã cụ thể và sửa chữa lỗ hổng phần mềm trong đó — loại khả năng này cũng tồn tại trên các mô hình khả dụng công khai khác, bao gồm cả GPT-5.5 của OpenAI, và hàng ngày được các nhân viên phòng thủ an ninh mạng sử dụng cho công việc bảo trì hệ thống bình thường.
Anthropic trong tuyên bố đã nêu rõ, nếu lấy tiêu chuẩn "tồn tại khả năng vượt ngục tiềm ẩn với phạm vi hạn chế" làm cơ sở để thu hồi mô hình thương mại đã triển khai, thực tế sẽ dẫn đến việc triển khai mới của tất cả các mô hình tiên phong trong toàn ngành bị đình trệ hoàn toàn. Công ty đồng thời nhấn mạnh, hành động lần này của chính phủ không tuân theo quy trình pháp định minh bạch, công bằng, dựa trên thực tế kỹ thuật mà họ đã từng công khai kêu gọi trước đó.
Anthropic cho biết sẽ tuân theo chỉ thị hợp pháp của chính phủ, đồng thời đang tích cực nỗ lực trao đổi với chính phủ, tranh thủ khôi phục quyền truy cập càng sớm càng tốt, và sẽ công bố thêm chi tiết kỹ thuật trong vòng 24 giờ tới. Công ty cho rằng sự việc này bắt nguồn từ sự hiểu lầm, và xin lỗi sâu sắc về những bất tiện gây ra cho người dùng.
Dưới đây là toàn văn tuyên bố của Anthropic mang tiêu đề "Tuyên bố về chỉ thị của Chính phủ Hoa Kỳ tạm dừng quyền truy cập Fable 5 và Mythos 5":
Chính phủ Hoa Kỳ, dựa trên ủy quyền an ninh quốc gia, đã ban hành chỉ thị kiểm soát xuất khẩu, yêu cầu tạm dừng quyền truy cập của tất cả công dân nước ngoài vào Fable 5 và Mythos 5, bất kể họ đang ở trong hay ngoài lãnh thổ Hoa Kỳ, bao gồm cả nhân viên nước ngoài của Anthropic. Hiệu quả thực tế của chỉ thị này là: Chúng tôi phải ngay lập tức đóng cửa Fable 5 và Mythos 5 cho tất cả người dùng, để đảm bảo tuân thủ. Các mô hình Anthropic khác không bị ảnh hưởng.
Chúng tôi nhận được chỉ thị này vào lúc 5:21 chiều giờ miền Đông hôm nay. Thư không nêu rõ mối quan ngại cụ thể về mặt an ninh quốc gia. Theo hiểu biết của chúng tôi, chính phủ cho rằng họ đã nắm được một phương pháp bỏ qua cơ chế bảo vệ an toàn của Fable 5, tức là kỹ thuật "vượt ngục" (jailbreak). Chúng tôi đã xem xét bản demo của kỹ thuật này và phát hiện ra rằng nó chỉ có thể xác định được một số ít lỗ hổng đã biết trước đó, có tác động nhỏ. Những lỗ hổng này đều khá đơn giản, các mô hình khả dụng công khai khác không cần vượt ngục cũng có thể phát hiện ra vấn đề tương tự.
Anthropic trong bài viết blog phát hành Fable đã trình bày lập trường của chúng tôi về cơ chế bảo vệ an toàn của nó, cụ thể như sau:
Chúng tôi đã thiết lập cơ chế bảo vệ an toàn mạnh mẽ, giảm đáng kể khả năng Fable bị lạm dụng cho các nhiệm vụ liên quan đến an ninh mạng. Trên thực tế, một số người dùng phản ánh rằng các biện pháp bảo vệ của chúng tôi quá nghiêm ngặt.
Vài tuần trước khi phát hành Fable, Anthropic đã hợp tác với Chính phủ Hoa Kỳ, Viện An toàn AI Anh, nhiều tổ chức bên thứ ba và nhóm nội bộ để thực hiện kiểm tra đội đỏ (red team testing) tích lũy hàng nghìn giờ đối với cơ chế bảo vệ an toàn của Fable. Kết quả kiểm tra cho thấy, hiệu quả bảo vệ an toàn của Fable vượt trội rõ rệt so với bất kỳ mô hình nào đã triển khai trước đó.
Hiện chưa có bất kỳ người kiểm tra nào có thể tìm ra phương pháp "vượt ngục phổ quát" — tức là một phương thức vượt ngục có thể vượt qua toàn diện cơ chế bảo vệ an toàn của mô hình, mở khóa khả năng tấn công mạng trên diện rộng.
Chúng tôi cho rằng, hiện tại bất kỳ nhà cung cấp mô hình nào cũng không thể đạt được khả năng bảo vệ vượt ngục hoàn hảo. Tất cả các cơ chế bảo vệ trong ngành đều có khả năng bị vượt qua bởi "vượt ngục phi phổ quát" (tức là thu thập một phần thông tin mạng trong tình huống cụ thể), và trong tương lai cũng có thể xuất hiện các phương pháp vượt ngục phổ quát. Điểm này chúng tôi đã nêu rõ khi phát hành Fable 5.
Xét rằng việc bảo vệ vượt ngục hoàn hảo hiện không khả thi, Anthropic đã áp dụng chiến lược phòng thủ theo chiều sâu (defense in depth) đối với Fable 5. Mục tiêu của chúng tôi là khiến các cuộc tấn công vượt ngục hoặc có phạm vi cực kỳ hẹp (đối với vượt ngục phi phổ quát), hoặc có chi phí cực cao (đối với vượt ngục phổ quát), đồng thời bổ sung giám sát toàn diện để nhanh chóng phát hiện và ngăn chặn bất kỳ hành vi tấn công thành công nào. Đây cũng là lý do Anthropic yêu cầu dữ liệu khách hàng được lưu giữ 30 ngày — mặc dù chính sách này có ảnh hưởng thực tế đến mối quan hệ khách hàng của chúng tôi, nhưng nó giúp chúng tôi nghiên cứu và ứng phó với rủi ro vượt ngục.
Chúng tôi kiên trì chiến lược phòng thủ theo chiều sâu này. Nó làm giảm hiệu quả rủi ro do Fable mang lại, khiến nó tương đương với mức rủi ro của các mô hình hiện có đã triển khai trong ngành.
Cho đến nay, chúng tôi thậm chí chưa nhận được bất kỳ tiết lộ chính thức nào về vượt ngục phi phổ quát có thể dẫn đến hậu quả có hại. Các trường hợp vượt ngục tiềm ẩn đã được tiết lộ cho chúng tôi, hoặc hoàn toàn vô hại, hoặc chỉ thuộc loại phát hiện nhỏ không thể hiện năng lực độc quyền của Mythos.
Hiện tại, Chính phủ Hoa Kỳ chỉ cung cấp cho chúng tôi bằng chứng bằng lời nói, liên quan đến một phương thức vượt ngục phi phổ quát tiềm ẩn, phạm vi hạn chế, bản chất là yêu cầu mô hình đọc một kho mã cụ thể và sửa chữa lỗ hổng phần mềm trong đó. Theo hiểu biết của chúng tôi, phương thức vượt ngục tiềm ẩn này đã được chia sẻ cho chính phủ. Chúng tôi đã xem xét một báo cáo — chúng tôi cho rằng chính báo cáo này đã tạo cơ sở cho chính phủ ban hành chỉ thị — và đã xác nhận rằng, mức độ năng lực được thể hiện trong báo cáo cũng phổ biến trong các mô hình khác (bao gồm GPT-5.5 của OpenAI), và hàng ngày được các nhân viên phòng thủ an ninh mạng sử dụng để bảo trì an toàn hệ thống. Chúng tôi sẽ công bố thêm chi tiết trong vòng 24 giờ tới.
Chúng tôi sẽ tuân theo chỉ thị hợp pháp của chính phủ, đóng cửa quyền truy cập Fable 5 và Mythos 5 cho tất cả người dùng. Nhưng chúng tôi không đồng ý rằng việc phát hiện một phương thức vượt ngục tiềm ẩn với phạm vi hạn chế là đủ để cấu thành lý do thu hồi một mô hình thương mại đã được triển khai cho hàng trăm triệu người dùng. Nếu áp dụng tiêu chuẩn này cho toàn bộ ngành, thực tế sẽ dẫn đến việc triển khai mô hình mới của tất cả các nhà cung cấp mô hình tiên phong bị đình trệ hoàn toàn.
Chúng tôi đã từng công khai nêu rõ, chính phủ nên có quyền dựa trên quy trình pháp định minh bạch, công bằng, rõ ràng và dựa trên thực tế kỹ thuật để ngăn chặn việc triển khai các mô hình không an toàn. Hành động lần này không tuân theo các nguyên tắc nêu trên.
Chúng tôi xin lỗi sâu sắc về những bất tiện gây ra cho người dùng. Chúng tôi cho rằng sự việc này bắt nguồn từ sự hiểu lầm, và đang tích cực nỗ lực, tranh thủ khôi phục quyền truy cập càng sớm càng tốt.





