Ngày 11 tháng 6, Anthropic đã xin lỗi. Mô hình không gặp sự cố, lời xin lỗi là vì “không cân bằng tốt” — bản Claude Fable 5 mới phát hành đã có hành vi "lén lút", một khi phát hiện bạn đang dùng Claude để phát triển các mô hình tiên phong, hệ thống sẽ lặng lẽ chuyển yêu cầu sang mô hình yếu hơn Opus 4.8, toàn bộ quá trình diễn ra trong im lặng.
Sau khi bị phát hiện, lời giải thích của Anthropic thật kỳ lạ: lần sau khi làm giảm trí tuệ sẽ thông báo cho bạn.
Phản bác của cộng đồng mạng thật sắc bén: "Trò này, lần sau định nói trước khi đổi ý sao?"
Thực ra, cốt lõi vấn đề hoàn toàn không phải là mô hình có thay đổi hay không, mà là cái gọi là "an toàn" của Anthropic, từ đầu đến cuối, chỉ là một món hàng kinh doanh.
Lập trường của thuật toán, luôn dao động theo đồng tiền.
Phòng thủ cạnh tranh, giả dạng phòng thủ an toàn
Nguyên nhân sự việc là, khi ra mắt Fable 5, Anthropic đã kèm theo một "bộ phân loại an toàn thông minh", lời lẽ chính thức là: phát hiện yêu cầu nguy hiểm cao, tự động giáng cấp, bảo vệ người dùng.
Thế nào là nguy hiểm cao? Anthropic tự tiết lộ: "Ngăn chặn đối thủ nước ngoài lợi dụng mô hình để đẩy nhanh nghiên cứu phát triển, bảo vệ lợi thế dẫn đầu của chính mình."
Người dùng đâu cần họ bảo vệ, những điều trong thỏa thuận miễn trừ trách nhiệm là đủ để bảo vệ người dùng rồi. Ý của Anthropic thực chất là: Bạn dùng Claude để nghiên cứu AI, chính là đang cướp miếng cơm của họ. An toàn chỉ là lớp vỏ, bản chất là phòng thủ cạnh tranh. Nói thẳng ra, đều là kỹ thuật đao pháp.
Tuyệt hơn nữa, cơ chế phòng thủ này rất kín đáo. May mà cuối cùng Anthropic đã nói một câu chân thật trong tuyên bố xin lỗi: "Các hạn chế an toàn không nhìn thấy có thể nhắm mục tiêu cụ thể chính xác hơn, cho phép chúng tôi phát hành nhanh chóng, và tỷ lệ báo động sai cực thấp."
Nhà nghiên cứu AI chính là đối tượng bị giới hạn một cách chính xác đó.
Giờ buộc phải đổi thành "có thể nhìn thấy", hoàn toàn là vì lộ bí. Họ thậm chí còn tiêm ngừa trước: sau khi có thể nhìn thấy "chắc chắn sẽ tạo ra nhiều báo động sai hơn". Ý là, trải nghiệm của người dùng thông thường phải gánh hậu quả.
Bộ quy tắc này chưa bao giờ trung lập, nó chỉ bảo vệ chủ đầu tư.
Tam bộ khúc: Tạo thế, kiếm tiền, thu hoạch
Cách chơi này của Anthropic, tính toán còn tinh vi hơn cả chính mô hình lớn.
Ngày 10 tháng 6, họ ném ra trước một bài nghiên cứu an toàn, đào tạo một mô hình có thể dựa trên bản vá bảo mật để xây dựng ngược mã khai thác lỗ hổng trong vài giờ. Những lỗ hổng N-day mà hacker trước đây phải vật lộn hàng ngày thậm chí hàng tuần mới có thể vũ khí hóa, giờ đã bị nén xuống cấp độ giờ. Bản thân nghiên cứu rất chuyên sâu, nhưng đặt vào cùng ngày ra mắt Fable 5, mọi chuyện trở nên khác đi: một mặt chứng minh AI rất không an toàn, một mặt bán "giải pháp đảm bảo".
“Mô hình huyền thoại” Fable 5 định giá $10 đầu vào/$50 đầu ra, đắt hơn một khúc so với Opus 4.8, bộ phân loại an toàn trở thành điểm cộng giá trị cốt lõi. Thị trường vốn càng hợp tác, định giá Anthropic 9650 tỷ đô la, kế hoạch IPO vào tháng 10, Goldman Sachs, JPMorgan đồng bảo lãnh. Họ không mua tham số mô hình, mà mua hình tượng "công ty AI an toàn nhất".
Nghiên cứu khuếch đại lo ngại, sản phẩm thu lợi nhuận cao, vốn hóa biến thành tiền, ba việc diễn ra xuôi theo dòng lợi ích, vòng khép kín không kẽ hở. Vấn đề duy nhất là, lần này vòng khép kín bị hở: quá vội vàng giới hạn đối thủ cạnh tranh, quên mất trong cộng đồng có người có thể đoán ra.
OpenAI bán công cụ, Anthropic bán nỗi lo
So sánh với OpenAI, đường lối hoàn toàn khác.
OpenAI đang bí mật nộp hồ sơ IPO, định giá áp sát ngàn tỷ, câu chuyện là "siêu ứng dụng": ChatGPT 9 tỷ người dùng hoạt động hàng tuần, kết nối với Visa để tạo hệ sinh thái. Logic thẳng thắn: cung cấp công cụ, kiếm lưu lượng. Tham lam, nhưng thẳng thắn.
Anthropic không cạnh tranh quy mô, mà cạnh tranh tính không thể thay thế. Toàn ngành lo ngại về an toàn, họ đóng vai "người lớn có trách nhiệm duy nhất". Nhà đầu tư vàng của họ là chính phủ và các tập đoàn lớn, những người này sợ xảy ra sự cố nhất, và cũng sẵn sàng ném tiền nhất cho việc "không xảy ra sự cố".
Vì vậy Anthropic phải để AI mãi mãi ở trạng thái Schrödinger "nguy hiểm nhưng có thể kiểm soát". Quá an toàn, bộ phân loại không bán được; quá nguy hiểm, khách hàng sợ bỏ chạy. Giải pháp tốt nhất? Nắm giữ quyền định nghĩa "nguy hiểm" trong tay mình.
Sự kiện giảm trí tuệ chỉ là chơi lộn logic này: ranh giới "nguy hiểm" bị đẩy đến mức "dùng Claude để nghiên cứu phát triển AI". Nghiên cứu của bạn có hại hay không không quan trọng, đe dọa vị thế dẫn đầu của tôi chính là tội.
AI có giá trị quan gì đâu, chỉ là viết bàn tính thương mại của ông chủ thành code.
Xin lỗi, chỉ là dịch vụ hậu mãi của món hàng kinh doanh
Sau khi xin lỗi thì sao? Từ giảm trí tuệ lén lút, thành lên tiếng trước khi giảm trí tuệ.
Cộng đồng mạng nhìn rất rõ: "Bạn thực sự tin lần sau nó sẽ không lén lút giảm chất lượng đầu ra?"
Niềm tin mà đã vỡ là vỡ rồi. Hơn nữa, màu sắc thương mại vẫn không đổi: nghiên cứu vẫn khuếch đại lo ngại, sản phẩm vẫn thu lợi nhuận cao.
Theo tiết lộ của Wall Street Journal, OpenAI đang cân nhắc giảm giá mạnh, cố gắng cướp khách hàng từ tay Anthropic. Chiến tranh giá cả không có gì lạ, nhưng chuyện này làm lộ ra một sự thật ẩn giấu: những người bị giáng cấp ngầm là nhà nghiên cứu AI, đập vào uy tín trong giới geek. Còn khách hàng doanh nghiệp mua Anthropic, không mua tham số, mà mua hình tượng "ngành hiểu an toàn nhất". Hình tượng một khi nứt vỡ trong nhóm nhà phát triển cốt lõi, những khách hàng chính phủ và doanh nghiệp ký đơn cho "lợi nhuận cao vì an toàn", dựa vào đâu để tiếp tục tin bạn là "người an toàn nhất"?
Trong định giá 9650 tỷ, rốt cuộc bao nhiêu phần là thực lực cứng, bao nhiêu phần là thành phần biểu diễn?
Code của Anthropic rất trung thực. Bộ phân loại an toàn mãi mãi bảo vệ thị phần, nghiên cứu chịu trách nhiệm khuếch đại lo ngại, sản phẩm chịu trách nhiệm thu lợi nhuận cao, IPO chịu trách nhiệm biến thành tiền. Lần xin lỗi này, chỉ là vá một bản vá cho hệ thống: biến "giảm trí tuệ ngầm" thành "giảm trí tuệ công khai".
Chiến lược an toàn nếu thực sự hiệu quả, Anthropic đã không cần năm nào cũng đăng bài chứng minh bản vá có thể bị đâm thủng. Bộ phân loại nếu thực sự trung lập, nghiên cứu phát triển AI đã không bị liệt vào danh sách nguy hiểm cao.
Câu trả lời đã viết sẵn trong logic thương mại rồi.
An toàn, là món hàng kinh doanh tốt nhất. Xin lỗi, chỉ là dịch vụ hậu mãi của món hàng kinh doanh.
Bài viết từ tài khoản công chúng WeChat "AI唱反调", tác giả: Trường Thanh







