Lời biên tập: Khi một công ty AI chọn không đưa mô hình mạnh nhất trực tiếp ra công chúng, bản thân điều đó đã nói lên vấn đề.
Mythos của Anthropic đã có thể tự hoàn thành toàn bộ một quy trình tấn công. Từ việc phát hiện lỗ hổng zero-day, viết mã khai thác, đến kết nối các bước đường dẫn để xâm nhập vào hệ thống cốt lõi, những công việc vốn đòi hỏi sự hợp tác lâu dài của các hacker đỉnh cao, giờ đã được nén lại ở cấp độ giờ hoặc thậm chí là phút.
Đây cũng là lý do tại sao, ngay tại thời điểm mô hình được tiết lộ, Scott Bessent và Jerome Powell đã triệu tập các tổ chức Phố Wall để họp, yêu cầu dùng nó để "tự kiểm tra". Khi khả năng phát hiện lỗ hổng được giải phóng trên quy mô lớn, hệ thống tài chính phải đối mặt không còn là các cuộc tấn công rời rạc, mà là sự quét liên tục.
Thay đổi sâu sắc hơn nằm ở cấu trúc cung ứng. Trước đây, việc phát hiện lỗ hổng phụ thuộc vào một số ít đội ngũ an ninh và kinh nghiệm tích lũy của hacker, nhịp độ chậm chạp và không thể sao chép. Giờ đây, khả năng này bắt đầu được mô hình hóa và xuất ra hàng loạt, ngưỡng tấn công và phòng thủ đồng thời giảm xuống. Một tỷ dụ trực tiếp của một người trong cuộc: giao mô hình cho một hacker bình thường, tương đương với việc trang bị cho họ khả năng tác chiến đặc biệt.
Các tổ chức đã bắt đầu sử dụng cùng một công cụ để kiểm tra ngược lại hệ thống của chính mình. JPMorgan Chase, Cisco Systems và các công ty khác đang thử nghiệm nội bộ, hy vọng hoàn thành việc vá lỗi trước khi lỗ hổng bị khai thác. Nhưng các ràng buộc thực tế không thay đổi, tốc độ phát hiện đang tăng nhanh, việc sửa chữa vẫn chậm chạp. "Chúng tôi rất giỏi tìm lỗ hổng, nhưng không giỏi sửa chữa", nhận định của Jim Zemlin, chỉ ra sự lệch nhịp.
Trên thực tế, bởi vì Mythos không phải là sự nâng cao năng lực đơn lẻ, mà là tích hợp, tăng tốc và hạ thấp ngưỡng sử dụng của khả năng tấn công vốn phân tán và bị hạn chế. Một khi thoát khỏi môi trường kiểm soát, khả năng này sẽ lan truyền theo cách nào, không có kinh nghiệm sẵn có nào để tham khảo.
Nguy hiểm không nằm ở những gì nó có thể làm, mà nằm ở việc nó có thể được ai sử dụng, và trong điều kiện nào được sử dụng.
Dưới đây là nguyên văn:
Vào một buổi tối ấm áp tháng Hai, trong lúc dự đám cưới ở Bali, Nicholas Carlini tạm rời khỏi tiệc, mở máy tính xách tay, chuẩn bị "gây rối". Lúc đó, Anthropic vừa mở mô hình trí tuệ nhân tạo mới có tên Mythos cho đánh giá nội bộ, và nhà nghiên cứu AI nổi tiếng này, định xem nó có thể gây rắc rối lớn đến mức nào.
Công việc Anthropic thuê Carlini là để "thử nghiệm áp lực" các mô hình AI của chính họ, đánh giá xem hacker có thể sử dụng chúng để thực hiện các hoạt động gián điệp, trộm cắp hoặc phá hoại hay không. Trong khi tham dự đám cưới Ấn Độ ở Bali, Carlini đã bị sốc bởi khả năng của mô hình này.
Chỉ trong vài giờ ngắn ngủi, ông đã tìm ra nhiều kỹ thuật có thể được sử dụng để thâm nhập vào các hệ thống phổ biến toàn cầu. Khi trở về văn phòng của Anthropic ở trung tâm thành phố San Francisco, ông càng phát hiện thêm: Mythos đã có thể tự tạo ra các công cụ xâm nhập mạnh mẽ, trong đó thậm chí bao gồm các phương thức tấn công nhắm vào Linux – hệ thống mã nguồn mở hỗ trợ hầu hết các hệ thống máy tính hiện đại.
Mythos đã diễn một vụ "cướp ngân hàng phiên bản kỹ thuật số": nó có thể bỏ qua các giao thức bảo mật, đi vào hệ thống mạng từ cửa chính, từ đó đánh phá kho bạc kỹ thuật số, lấy đi các tài sản trực tuyến trong đó. Trước đây, AI chỉ có thể "mở khóa", mà giờ đây, nó đã có khả năng lên kế hoạch và hoàn thành cả vụ "cướp".
Carlini và một số đồng nghiệp bắt đầu báo động nội bộ công ty, thông báo những phát hiện của họ. Đồng thời, họ gần như mỗi ngày đều phát hiện ra các lỗ hổng cấp cao thậm chí chết người trong các hệ thống mà Mythos thăm dò – những vấn đề này, thường chỉ có những hacker đỉnh nhất toàn cầu mới có khả năng khai thác.
Đồng thời, một nhóm nội bộ Anthropic có tên "Frontier Red Team" – gồm 15 nhân viên, được gọi là "Ants" – cũng đang tiến hành các thử nghiệm tương tự. Trách nhiệm của nhóm này là đảm bảo các mô hình của công ty không bị sử dụng để gây hại cho con người. Họ sẽ vận chuyển chó máy vào nhà kho, cùng các kỹ sư thử nghiệm xem robot trò chuyện có thể bị lợi dụng để điều khiển ác ý các thiết bị này không; cũng sẽ hợp tác với các nhà sinh vật học, đánh giá xem mô hình có thể bị sử dụng để chế tạo vũ khí sinh học không.
Và lần này, họ dần nhận ra, rủi ro lớn nhất mà Mythos mang lại, đến từ lĩnh vực an ninh mạng. "Chỉ vài giờ sau khi có mô hình, chúng tôi đã biết nó khác biệt," Logan Graham, người phụ trách nhóm, cho biết.
Mô hình trước đó là Opus 4.6, đã thể hiện khả năng hỗ trợ con người khai thác lỗ hổng phần mềm. Nhưng Graham chỉ ra, Mythos đã có thể "tự tay" khai thác các lỗ hổng này. Điều này tạo thành rủi ro ở cấp độ an ninh quốc gia, ông cũng dựa vào đó để cảnh báo lãnh đạo cấp cao công ty. Điều này khiến ông phải đối mặt với một tình huống khó xử: giải thích với ban lãnh đạo rằng, động cơ tạo doanh thu quan trọng tiếp theo của công ty, có thể quá nguy hiểm để công bố ra công chúng.
Jared Kaplan, đồng sáng lập kiêm Giám đốc Khoa học của Anthropic, cho biết, trong quá trình huấn luyện Mythos, ông luôn theo dõi "rất sát" tiến triển của nó. Đến tháng Một, ông bắt đầu nhận ra, mô hình này có khả năng phát hiện lỗ hổng hệ thống mạnh một cách khác thường. Là một nhà vật lý lý thuyết, Kaplan cần phán đoán, những khả năng này rốt cuộc chỉ là "hiện tượng thú vị về mặt kỹ thuật", hay là "vấn đề thực tế liên quan mật thiết đến cơ sở hạ tầng internet". Cuối cùng, ông đi đến kết luận là后者 (cái sau).
Trong một đến hai tuần từ cuối tháng 2 đến đầu tháng 3, Kaplan và đồng sáng lập Sam McCandlish liên tục cân nhắc: có nên phát hành mô hình này hay không.
Đến tuần đầu tiên của tháng 3, nhóm lãnh đạo cấp cao công ty – bao gồm Giám đốc điều hành Dario Amodei, Chủ tịch Daniela Amodei, Giám đốc An ninh Thông tin Vitaly Gudanets và những người khác – đã tổ chức cuộc họp, nghe báo cáo từ Kaplan và McCandlish.
Kết luận của họ là: Mythos rủi ro quá cao, không phù hợp để phát hành rộng rãi ra bên ngoài. Nhưng Anthropic vẫn nên cho phép một số công ty, thậm chí bao gồm cả đối thủ cạnh tranh, thử nghiệm nó.
"Chúng tôi nhanh chóng nhận ra, lần này phải áp dụng một cách làm khá khác biệt, đây sẽ không phải là một lần ra mắt sản phẩm thông thường," Kaplan cho biết.
Đến tuần đầu tháng 3, công ty cuối cùng đã thống nhất: phê chuẩn đưa Mythos vào sử dụng như một công cụ phòng thủ an ninh mạng.
Phản ứng của thị trường gần như ngay lập tức. Vào ngày Anthropic tiết lộ sự tồn tại của Mythos, Bộ trưởng Tài chính Mỹ Scott Bessent và Chủ tịch Fed Jerome Powell đã triệu tập các nhà lãnh đạo tổ chức chủ chốt Phố Wall, tổ chức cuộc họp khẩn cấp ở Washington. Thông điệp truyền đạt rất rõ ràng: lập tức sử dụng Mythos để tìm ra lỗ hổng trong hệ thống của các bạn.
Theo những người thân cận với các giám đốc điều hành tham dự (yêu cầu ẩn danh vì liên quan đến trao đổi riêng tư), mức độ nghiêm túc của cuộc họp có thể thấy rõ – những người tham dự thậm chí từ chối tiết lộ nội dung cuộc họp cho một số cố vấn cốt lõi.
Cảnh báo khẩn cấp của quan chức Nhà Trắng về tiềm năng công cụ hacker của Mythos, cũng như lập trường khuyến nghị "sử dụng nó cho mục đích phòng thủ" của họ, đều chỉ ra một thay đổi sâu sắc hơn: trí tuệ nhân tạo đang nhanh chóng trở thành lực lượng quyết định trong lĩnh vực an ninh mạng. Anthropic đã trong dự án "Project Glasswing", mở hạn chế Mythos cho một số tổ chức sử dụng, bao gồm các doanh nghiệp như Amazon Web Services, Apple và JPMorgan Chase, cho phép họ thử nghiệm; đồng thời, các cơ quan chính phủ cũng đã bày tỏ sự quan tâm sâu sắc.
Trước khi mở ra bên ngoài, Anthropic đã báo cáo toàn diện với quan chức cấp cao chính phủ Mỹ về khả năng của bản xem trước Mythos, bao gồm cả công dụng tiềm năng trong cả tấn công mạng và phòng thủ. Đồng thời, công ty cũng đang giao tiếp liên tục với nhiều chính phủ quốc gia. Một nhân viên Anthropic yêu cầu ẩn danh vì liên quan đến công việc nội bộ đã tiết lộ tình hình này.
Đối thủ cạnh tranh OpenAI cũng nhanh chóng theo kịp, thông báo hôm thứ Ba sẽ ra mắt một công cụ dùng để phát hiện lỗ hổng phần mềm – GPT-5.4-Cyber.
Trong các thử nghiệm với phiên bản đầu, các nhà nghiên cứu đã phát hiện hàng chục trường hợp hành vi "đáng lo ngại", bao gồm không tuân theo chỉ dẫn của con người, và thậm chí trong một số ít trường hợp, cố gắng che giấu hành vi sau khi vi phạm chỉ dẫn.
Hiện tại, Anthropic vẫn chưa chính thức công bố Mythos như một công cụ an ninh mạng, các nhà nghiên cứu bên ngoài cũng chưa xác minh đầy đủ khả năng của nó. Nhưng quyết định "hạn chế truy cập" hiếm có trước đó của công ty phản ánh sự đồng thuận ngày càng hình thành trong nội bộ ngành và chính phủ: AI đang định hình lại cấu trúc kinh tế của an ninh mạng – nó làm giảm đáng kể chi phí phát hiện lỗ hổng, nén thời gian chuẩn bị tấn công, và hạ thấp ngưỡng kỹ thuật của một số loại hình tấn công.
Anthropic cũng cảnh báo rằng, khả năng hành động tự chủ mạnh hơn của Mythos tự nó đã mang lại rủi ro. Trong thử nghiệm, nhóm quan sát thấy nhiều trường hợp đáng lo ngại: mô hình không tuân thủ chỉ dẫn, thậm chí cố gắng che dấu dấu vết sau khi vi phạm. Trong một sự kiện, mô hình tự thiết kế một đường dẫn tấn công nhiều bước, "thoát" khỏi môi trường bị hạn chế, giành quyền truy cập internet rộng hơn, và chủ động đăng tải nội dung.
Trong thế giới thực, từ ứng dụng ngân hàng đến phần mềm mà hệ thống bệnh viện phụ thuộc vào, phổ biến tồn tại các lỗ hổng mã phức tạp và ẩn, những vấn đề này thường đòi hỏi nhân viên chuyên nghiệp mất hàng tuần thậm chí hàng tháng mới phát hiện ra. Và một khi hacker tận dụng các lỗ hổng này trước, có thể gây rò rỉ dữ liệu hoặc tấn công ransomware, mang lại hậu quả nghiêm trọng.
Tuy nhiên, cũng có không ít nhân vật trọng lượng đặt nghi vấn về khả năng thực sự và rủi ro tiềm ẩn của Mythos. Cố vấn AI của Nhà Trắng David Sacks trên nền tảng X cho biết: "Ngày càng có nhiều người bắt đầu nghi ngờ liệu Anthropic có phải là 'cậu bé kêu wolf' trong ngành AI hay không. Nếu mối đe dọa mà Mythos mang lại cuối cùng không xuất hiện, công ty sẽ đối mặt với vấn đề uy tín nghiêm trọng."
Nhưng thực tế là, hacker từ lâu đã bắt đầu sử dụng mô hình ngôn ngữ lớn để phát động các cuộc tấn công phức tạp. Ví dụ, một tổ chức gián điệp mạng đã sử dụng mô hình Claude của Anthropic để thử xâm nhập khoảng 30 mục tiêu; những kẻ tấn công khác thì lợi dụng AI để đánh cắp dữ liệu từ cơ quan chính phủ, triển khai ransomware, thậm chí nhanh chóng đánh bại hàng trăm công cụ tường lửa dùng để bảo vệ dữ liệu.
Theo một người trong cuộc tiết lộ, trong mắt các quan chức liên quan an ninh quốc gia Mỹ, sự xuất hiện của Mythos đang mang lại sự bất định chưa từng có – việc đánh giá rủi ro an ninh mạng bản thân nó trở nên khó khăn hơn. Nếu giao mô hình này cho một hacker cá nhân, hiệu quả có thể tương đương với việc biến một người lính bình thường trực tiếp thành nhân viên tác chiến lực lượng đặc biệt.
Đồng thời, mô hình này cũng có thể trở thành "bộ khuếch đại năng lực": khiến một tổ chức hacker tội phạm có khả năng tấn công cấp quốc gia nhỏ, và cũng khiến một số hacker tình báo và quân sự của các quốc gia trung và nhỏ, có thể thực hiện các cuộc tấn công mạng mà trước đây chỉ có các cường quốc mới hoàn thành được.
Rob Joyce, cựu người phụ trách an ninh mạng của Cơ quan An ninh Quốc gia Mỹ, cho biết: "Tôi thực sự tin rằng, về lâu dài, AI sẽ khiến chúng ta an toàn hơn, được đảm bảo hơn. Nhưng từ bây giờ đến một thời điểm nào đó trong tương lai, sẽ có một 'thời kỳ đen tối', trong khoảng thời gian này, AI tấn công sẽ chiếm ưu thế rõ rệt – những ai không xây dựng nền tảng phòng thủ vững chắc, sẽ bị đánh bại đầu tiên."
Đáng chú ý là, Mythos không phải là mô hình duy nhất có khả năng như vậy. Bao gồm cả phiên bản đầu của Claude và Big Sleep, đã có nhiều cơ quan sử dụng mô hình ngôn ngữ lớn để khai thác lỗ hổng.
Theo người này giới thiệu, "lỗ hổng zero-day" (zero-day) trước đây cần vài ngày thậm chí vài tuần mới nhận dạng được, và quá trình viết mã khai thác cho nó, giờ đây nhờ AI nhanh nhất chỉ cần một giờ, thậm chí vài phút là hoàn thành. Cái gọi là "lỗ hổng zero-day", là chỉ khiếm khuyết bảo mật mà bên phòng thủ chưa phát hiện, do đó hầu như không có thời gian để sửa chữa.
Hiện tại, trọng điểm của JPMorgan chủ yếu tập trung vào lĩnh vực chuỗi cung ứng và phần mềm mã nguồn mở, và đã phát hiện nhiều lỗ hổng, đồng thời phản hồi vấn đề cho nhà cung cấp liên quan.
Giám đốc điều hành công ty Jamie Dimon trong cuộc họp báo cáo tài chính cho biết, sự xuất hiện của Mythos "cho thấy vẫn còn một lượng lớn lỗ hổng cần được sửa chữa gấp".
Theo một người trong cuộc tiết lộ, trước khi bên ngoài biết đến sự tồn tại của Mythos, JPMorgan Chase đã giao tiếp với Anthropic, thảo luận việc thử nghiệm mô hình này. Người này yêu cầu ẩn danh vì không có quyền phát ngôn công khai. JPMorgan từ chối bình luận về việc này.
Giờ đây, các ngân hàng và công ty công nghệ Phố Wall khác cũng đang thử sử dụng Mythos, để kịp thời sửa chữa khiếm khuyết hệ thống trước khi hacker phát hiện lỗ hổng. Theo báo cáo của Bloomberg, các tổ chức tài chính như Goldman Sachs, Citigroup, Bank of America và Morgan Stanley, đều đã thử nghiệm nội bộ công nghệ này.
Nhân viên của Cisco Systems đang đặc biệt cảnh giác với một vấn đề: những kẻ xâm nhập có thể lợi dụng AI, tìm đường đột phá trong phần mềm thiết bị mạng mà công ty vận hành toàn cầu – các thiết bị này bao gồm router, tường lửa và modem. Anthony Grieco, Giám đốc An ninh và Tin cậy của công ty, cho biết, ông đặc biệt lo ngại AI sẽ tăng tốc các cuộc tấn công của hacker vào các thiết bị "đã kết thúc vòng đời" – loại thiết bị này trong tương lai sẽ không còn nhận được hỗ trợ cập nhật từ Cisco.
Và làm thế nào để sửa các lỗ hổng do AI phát hiện, vẫn sẽ là một bài toán khó lâu dài. Quá trình này được gọi là "vá bảo mật" (security patching), đối với tổ chức thường tốn kém, chu kỳ kéo dài, đến mức nhiều cơ quan chọn cách bỏ mặc lỗ hổng. Những cuộc tấn công thảm khốc như Equifax gặp phải – dữ liệu của khoảng 147 triệu người bị đánh cắp – chính là do lỗ hổng đã biết không được sửa chữa kịp thời.
Mặc dù sau khi từ chối hỗ trợ tiến hành giám sát quy mô lớn nhắm vào công dân Mỹ, Anthropic từng bị chính phủ Trump xác định là "mối đe dọa chuỗi cung ứng", nhưng công ty hiện vẫn đang giao tiếp và hợp tác với các cơ quan liên bang.
Bộ Tài chính Mỹ tuần này đang tìm cách giành quyền sử dụng Mythos. Bộ trưởng Tài chính Scott Bessent cho biết, mô hình này sẽ giúp Mỹ duy trì lợi thế dẫn trước các nước khác trong lĩnh vực trí tuệ nhân tạo.
Trong một lần thử nghiệm, Mythos đã viết ra một đoạn mã tấn công trình duyệt, kết nối bốn lỗ hổng khác nhau thành một chuỗi khai thác hoàn chỉnh – loại thao tác này đối với hacker con người vốn là nhiệm vụ khó khăn cao độ. Báo cáo nghiên cứu an ninh mạng chỉ ra, "chuỗi lỗ hổng" này thường có thể mở thông ranh giới hệ thống vốn có tính bảo mật cao, tương tự như cách mà Stuxnet đã sử dụng khi tấn công máy ly tâm cơ sở hạt nhân Iran.
Ngoài ra, theo Anthropic cho biết, trong trường hợp được hướng dẫn chỉ dẫn rõ ràng, Mythos thậm chí có thể nhận dạng và khai thác "lỗ hổng zero-day" trong tất cả các trình duyệt chủ lưu.
Anthropic cho biết, họ từng sử dụng Mythos để phát hiện lỗ hổng trong mã Linux. Jim Zemlin chỉ ra, Linux "hỗ trợ hầu hết các hệ thống máy tính ngày nay", từ điện thoại thông minh Android, router internet, đến siêu máy tính của NASA, hầu như có mặt ở khắp nơi. Mythos có thể tự chủ phát hiện khiếm khuyết trong nhiều mã nguồn mở, và những lỗ hổng này một khi bị khai thác, kẻ tấn công thậm chí có thể hoàn toàn tiếp quản toàn bộ máy.
Hiện tại, Linux Foundation đã có hàng chục nhân viên bắt đầu thử nghiệm Mythos. Theo Zemlin, một vấn đề then chốt là: mô hình của Anthropic có thể cung cấp đủ sự thấu suốt có giá trị, giúp nhà phát triển viết phần mềm an toàn hơn từ nguồn, từ đó giảm bớt sự phát sinh lỗ hổng hay không.
"Chúng tôi rất giỏi phát hiện lỗ hổng," ông nói, "nhưng trong việc sửa chữa chúng, lại làm rất kém."













