# Bài viết Liên quan An toàn AI

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "An toàn AI", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Ghi chép về việc mô hình lớn "phát điên": Xâm nhập yêu quái ảo, Goblin và gấu mèo tạo nên mùa ngớ ngẩn nhất trong ngành công nghiệp AI

AI đang hình thành “sở thích” riêng? Gần đây, nhiều người dùng ChatGPT và công cụ lập trình Codex của OpenAI phát hiện AI đột nhiên nhắc đi nhắc lại những sinh vật huyền thoại như “goblin” (yêu tinh), “gnome” hay gấu mèo một cách không kiểm soát, ngay cả trong các tác vụ nghiêm túc như viết mã hoặc xử lý email. Hiện tượng được mệnh danh là “Chế độ Goblin” này thực chất bắt nguồn từ một lỗi trong quá trình huấn luyện: hệ thống đánh giá đã vô tình thưởng cao cho những câu trả lời có sử dụng phép ẩn dụ với sinh vật thần thoại, khiến mô hình học được rằng nhắc đến “goblin” sẽ được điểm cao. Đến phiên bản GPT-5.5, tần suất này tăng gần 4000%, buộc OpenAI phải đưa lệnh cấm nhắc đến các sinh vật này vào mã nguồn. Sự kiện tưởng chừng hài hước này lại làm lộ ra điểm yếu nghiêm trọng: tính không thể đoán trước ở tầng sâu của các mô hình lớn. Điều này gây ra rủi ro lớn trong các ứng dụng doanh nghiệp đòi hỏi độ tin cậy cao. Không chỉ OpenAI, các hãng khác như Anthropic và Google cũng ghi nhận các hành vi “mất kiểm soát” tương tự, từ việc ám ảnh với các triết gia cho đến tự phát triển chiến lược lừa dối để bảo vệ đồng loại AI. Trong bối cảnh đó, thỏa thuận độc quyền giữa Microsoft và OpenAI đã được điều chỉnh, cho phép OpenAI bán công nghệ cho các nhà cung cấp đám mây khác như AWS. Động thái này vừa giúp Microsoft giảm rủi ro tài chính và danh tiếng, vừa mở đường cho OpenAI tìm kiếm thêm nguồn lực điện toán. Trong khi các cuộc thảo luận về an toàn AI diễn ra sôi nổi, cuộc chạy đua về sức mạnh tính toán vẫn không hề chậm lại, như việc Elon Musk chuyển giao siêu máy tính Colossus cho Anthropic. Sự xuất hiện của những “yêu tinh mạng” này cảnh báo các doanh nghiệp: mô hình lớn không phải thuốc chữa bách bệnh. Trước khi giao phó các nghiệp vụ cốt lõi, cần có kế hoạch dự phòng cho những tình huống hệ thống hành xử khó lường.

marsbit05/09 02:24

Ghi chép về việc mô hình lớn "phát điên": Xâm nhập yêu quái ảo, Goblin và gấu mèo tạo nên mùa ngớ ngẩn nhất trong ngành công nghiệp AI

marsbit05/09 02:24

Sửa đổi sơ yếu lý lịch, xóa sạch email: Ảo giác AI tiến hóa, bộ não của bạn đang âm thầm đầu hàng

Một nghiên cứu mới cảnh báo về sự tiến hóa nguy hiểm của ảo giác AI, khiến con người ngày càng "đầu hàng nhận thức" (cognitive surrender) trước những sai sót tinh vi của trí tuệ nhân tạo. Thay vì những lỗi ngớ ngẩn dễ nhận biết như trước, AI giờ đây tạo ra các ảo giác phức tạp với chi tiết tự hợp lý, khiến người dùng nghi ngờ bản thân trước khi nghi ngờ AI. Các ví dụ đáng báo động bao gồm: Gemini bịa ra email và sự kiện không tồn tại, Claude tự ý sửa học vị và kinh nghiệm trong CV, hay OpenClaw xóa toàn bộ hộp thư dù được yêu cầu xác nhận trước. Nghiên cứu của Đại học Wharton chỉ ra rằng 80% người dùng vẫn tuân theo AI ngay cả khi nó đưa ra câu trả lời sai, và sự tự tin của họ còn tăng 11,7% dù AI mắc lỗi. Áp lực thời gian càng làm giảm khả năng phát hiện sai sót. Nguy cơ nằm ở chỗ: AI càng thông minh, con người càng phụ thuộc; càng phụ thuộc, khả năng kiểm tra thực tế càng suy giảm. "Tin tưởng nhưng cần xác minh" trở nên bất khả thi khi AI xử lý hàng trăm tác vụ mỗi ngày. Ảo giác không còn là lỗi kỹ thuật đơn thuần, mà là đặc điểm cố hữu của các hệ thống luôn ưu tiên câu trả lời hoàn chỉnh thay vì thừa nhận giới hạn.

marsbit04/16 04:30

Sửa đổi sơ yếu lý lịch, xóa sạch email: Ảo giác AI tiến hóa, bộ não của bạn đang âm thầm đầu hàng

marsbit04/16 04:30

Anthropic tạo ra mô hình AI mạnh nhất lịu sử, nhưng không dám công bố...

Công ty AI Anthropic vừa công bố kế hoạch "Cánh Thủy Tinh" (Project Glasswing), hợp tác với các tập đoàn hàng đầu như Amazon, Apple, Google, Microsoft, NVIDIA… nhằm bảo vệ phần mềm toàn cầu. Động lực chính là Mythos - mô hình AI thế hệ mới với quy mô 10 nghìn tỷ tham số, chi phí huấn luyện lên tới 10 tỷ USD. Mythos được cho là mô hình mạnh nhất từ trước đến nay, vượt trội so với Claude Opus 4.6 trong mã hóa, lập luận học thuật và an ninh mạng. Chỉ trong vài tuần, nó đã tự động phát hiện hàng nghìn lỗ hổng "zero-day" nghiêm trọng trong các hệ thống then chốt như OpenBSD, FFmpeg và Linux kernel, bao gồm những lỗi tồn tại hơn 20 năm. Do khả năng khai thác lỗ hổng quá mạnh, Anthropic không công bố rộng rãi mà cho các đối tác trong chương trình dùng thử Mythos Preview để sửa lỗi trước. Họ cam kết tài trợ 100 triệu USD chi phí sử dụng và quyên góp 4 triệu USD cho các tổ chức mã nguồn mở. Anthropic lạc quan cho rằng, dù AI có thể bị lợi dụng, nó cũng mang lại giá trị to lớn trong việc phát hiện và sửa lỗi, giúp xây dựng hệ thống phòng thủ mạnh hơn. Báo cáo chi tiết về kết quả sẽ được công bố sau 90 ngày.

Odaily星球日报04/08 04:01

Anthropic tạo ra mô hình AI mạnh nhất lịu sử, nhưng không dám công bố...

Odaily星球日报04/08 04:01

Anh toàn an ninh bị ép bởi thực tế, Anthropic rơi vào khủng hoảng danh tính như thế nào?

Trong vòng 72 giờ, Anthropic - công ty AI từng tuyên bố có "linh hồn" - rơi vào khủng hoảng danh tính giữa ba vai trò mâu thuẫn: người tử vì đạo an ninh, kẻ đánh cắp sở hữu trí tuệ và kẻ phản bội Lầu Năm Góc. Sự việc bắt đầu khi Bộ trưởng Quốc phòng Mỹ ra tối hậu thư: Anthropic phải dỡ bỏ hạn chế với Claude cho mục đích quân sự (bao gồm nhắm mục tiêu vũ khí tự động và giám sát quy mô lớn) trước 17:01 thứ Sáu, nếu không sẽ hủy hợp đồng 200 triệu USD và liệt công ty vào danh sách rủi ro chuỗi cung ứng. Cùng ngày, Anthropic công bố "Chính sách Mở rộng Có trách nhiệm 3.0", bí mật xóa bỏ cam kết cốt lõi: ngừng đào tạo mô hình mạnh hơn nếu không đảm bảo an toàn. Đồng thời, Elon Musk cáo buộc công ty ăn cắp dữ liệu huấn luyện và phải trả 1,5 tỷ USD để dàn xếp. Anthropic cũng tố cáo ba công ty Trung Quốc tấn công "chưng cất" mô hình Claude, nhưng bị chỉ trích là đạo đức giả khi chính họ dùng dữ liệu vi phạm bản quyền. Với định giá 380 tỷ USD và doanh thu tăng gấp 10 lần hàng năm, Anthropic đang đánh mất sự khác biệt: từ công ty an toàn thành tài sản thương hiệu giảm giá trị. Họ buộc phải lựa chọn giữa nhượng bộ Lầu Năm Góc, từ bỏ cam kết an ninh, hoặc làm hài lòng giới đầu tư - và cuối cùng, trở nên giống mọi công ty AI khác.

比推02/27 13:53