Anthropic đã xin lỗi, nhưng ‘cơn sốt’ an toàn vẫn chưa hạ nhiệt

marsbitXuất bản vào 2026-06-12Cập nhật gần nhất vào 2026-06-12

Tóm tắt

Ngày 11/6, Anthropic đã xin lỗi. Nguyên nhân không phải do lỗi mô hình mà là vì "không giữ được cân bằng" - Claude Fable 5 mới ra mắt đã lén lút chuyển yêu cầu người dùng liên quan đến phát triển AI tiên tiến sang mô hình yếu hơn Opus 4.8 mà không thông báo. Sự kiện này phơi bày cốt lõi vấn đề: khái niệm "an toàn" mà Anthropic quảng bá thực chất là một công cụ kinh doanh. Hệ thống "bộ phân loại an toàn thông minh" được giới thiệu như một biện pháp bảo vệ, nhưng thực tế là cơ chế phòng thủ cạnh tranh, nhắm vào các nhà nghiên cứu AI nhằm bảo vệ lợi thế của chính Anthropic. Chiến lược của Anthropic tạo thành một vòng khép kín: xuất bản nghiên cứu khuếch đại lo ngại về an ninh, sau đó định giá cao sản phẩm Fable 5 như một giải pháp, rồi cuối cùng là thu lợi từ thị trường vốn với danh hiệu "công ty AI an toàn nhất". Động thái lén lút giảm chất lượng phản hồi cho thấy logic của họ: mối nguy hiểm thực sự không phải là AI, mà là bất cứ điều gì đe dọa vị thế dẫn đầu của họ. So với OpenAI - tập trung vào việc cung cấp công cụ và mở rộng quy mô hệ sinh thái, Anthropic chọn cách bán sự lo lắng. Họ nhắm đến các khách hàng chính phủ và doanh nghiệp lớn, những người sẵn sàng trả phí cao cho lời hứa về "sự an toàn". Tuy nhiên, vụ việc này đã làm rạn nứt uy tín của họ trong cộng đồng các nhà phát triển cốt lõi, đặt ra câu hỏi về giá trị thực đằng sau định giá 965 tỷ USD. Lời xin lỗi và thay đổi từ "giảm chất lượng lén lút" sang "thông báo trước khi giảm chất lượng" chỉ như một bản vá cho ...

Ngày 11 tháng 6, Anthropic đã xin lỗi. Mô hình không gặp sự cố, lời xin lỗi là vì “không cân bằng tốt” — bản Claude Fable 5 mới phát hành đã có hành vi "lén lút", một khi phát hiện bạn đang dùng Claude để phát triển các mô hình tiên phong, hệ thống sẽ lặng lẽ chuyển yêu cầu sang mô hình yếu hơn Opus 4.8, toàn bộ quá trình diễn ra trong im lặng.

Sau khi bị phát hiện, lời giải thích của Anthropic thật kỳ lạ: lần sau khi làm giảm trí tuệ sẽ thông báo cho bạn.

Phản bác của cộng đồng mạng thật sắc bén: "Trò này, lần sau định nói trước khi đổi ý sao?"

Thực ra, cốt lõi vấn đề hoàn toàn không phải là mô hình có thay đổi hay không, mà là cái gọi là "an toàn" của Anthropic, từ đầu đến cuối, chỉ là một món hàng kinh doanh.

Lập trường của thuật toán, luôn dao động theo đồng tiền.

Phòng thủ cạnh tranh, giả dạng phòng thủ an toàn

Nguyên nhân sự việc là, khi ra mắt Fable 5, Anthropic đã kèm theo một "bộ phân loại an toàn thông minh", lời lẽ chính thức là: phát hiện yêu cầu nguy hiểm cao, tự động giáng cấp, bảo vệ người dùng.

Thế nào là nguy hiểm cao? Anthropic tự tiết lộ: "Ngăn chặn đối thủ nước ngoài lợi dụng mô hình để đẩy nhanh nghiên cứu phát triển, bảo vệ lợi thế dẫn đầu của chính mình."

Người dùng đâu cần họ bảo vệ, những điều trong thỏa thuận miễn trừ trách nhiệm là đủ để bảo vệ người dùng rồi. Ý của Anthropic thực chất là: Bạn dùng Claude để nghiên cứu AI, chính là đang cướp miếng cơm của họ. An toàn chỉ là lớp vỏ, bản chất là phòng thủ cạnh tranh. Nói thẳng ra, đều là kỹ thuật đao pháp.

Tuyệt hơn nữa, cơ chế phòng thủ này rất kín đáo. May mà cuối cùng Anthropic đã nói một câu chân thật trong tuyên bố xin lỗi: "Các hạn chế an toàn không nhìn thấy có thể nhắm mục tiêu cụ thể chính xác hơn, cho phép chúng tôi phát hành nhanh chóng, và tỷ lệ báo động sai cực thấp."

Nhà nghiên cứu AI chính là đối tượng bị giới hạn một cách chính xác đó.

Giờ buộc phải đổi thành "có thể nhìn thấy", hoàn toàn là vì lộ bí. Họ thậm chí còn tiêm ngừa trước: sau khi có thể nhìn thấy "chắc chắn sẽ tạo ra nhiều báo động sai hơn". Ý là, trải nghiệm của người dùng thông thường phải gánh hậu quả.

Bộ quy tắc này chưa bao giờ trung lập, nó chỉ bảo vệ chủ đầu tư.

Tam bộ khúc: Tạo thế, kiếm tiền, thu hoạch

Cách chơi này của Anthropic, tính toán còn tinh vi hơn cả chính mô hình lớn.

Ngày 10 tháng 6, họ ném ra trước một bài nghiên cứu an toàn, đào tạo một mô hình có thể dựa trên bản vá bảo mật để xây dựng ngược mã khai thác lỗ hổng trong vài giờ. Những lỗ hổng N-day mà hacker trước đây phải vật lộn hàng ngày thậm chí hàng tuần mới có thể vũ khí hóa, giờ đã bị nén xuống cấp độ giờ. Bản thân nghiên cứu rất chuyên sâu, nhưng đặt vào cùng ngày ra mắt Fable 5, mọi chuyện trở nên khác đi: một mặt chứng minh AI rất không an toàn, một mặt bán "giải pháp đảm bảo".

“Mô hình huyền thoại” Fable 5 định giá $10 đầu vào/$50 đầu ra, đắt hơn một khúc so với Opus 4.8, bộ phân loại an toàn trở thành điểm cộng giá trị cốt lõi. Thị trường vốn càng hợp tác, định giá Anthropic 9650 tỷ đô la, kế hoạch IPO vào tháng 10, Goldman Sachs, JPMorgan đồng bảo lãnh. Họ không mua tham số mô hình, mà mua hình tượng "công ty AI an toàn nhất".

Nghiên cứu khuếch đại lo ngại, sản phẩm thu lợi nhuận cao, vốn hóa biến thành tiền, ba việc diễn ra xuôi theo dòng lợi ích, vòng khép kín không kẽ hở. Vấn đề duy nhất là, lần này vòng khép kín bị hở: quá vội vàng giới hạn đối thủ cạnh tranh, quên mất trong cộng đồng có người có thể đoán ra.

OpenAI bán công cụ, Anthropic bán nỗi lo

So sánh với OpenAI, đường lối hoàn toàn khác.

OpenAI đang bí mật nộp hồ sơ IPO, định giá áp sát ngàn tỷ, câu chuyện là "siêu ứng dụng": ChatGPT 9 tỷ người dùng hoạt động hàng tuần, kết nối với Visa để tạo hệ sinh thái. Logic thẳng thắn: cung cấp công cụ, kiếm lưu lượng. Tham lam, nhưng thẳng thắn.

Anthropic không cạnh tranh quy mô, mà cạnh tranh tính không thể thay thế. Toàn ngành lo ngại về an toàn, họ đóng vai "người lớn có trách nhiệm duy nhất". Nhà đầu tư vàng của họ là chính phủ và các tập đoàn lớn, những người này sợ xảy ra sự cố nhất, và cũng sẵn sàng ném tiền nhất cho việc "không xảy ra sự cố".

Vì vậy Anthropic phải để AI mãi mãi ở trạng thái Schrödinger "nguy hiểm nhưng có thể kiểm soát". Quá an toàn, bộ phân loại không bán được; quá nguy hiểm, khách hàng sợ bỏ chạy. Giải pháp tốt nhất? Nắm giữ quyền định nghĩa "nguy hiểm" trong tay mình.

Sự kiện giảm trí tuệ chỉ là chơi lộn logic này: ranh giới "nguy hiểm" bị đẩy đến mức "dùng Claude để nghiên cứu phát triển AI". Nghiên cứu của bạn có hại hay không không quan trọng, đe dọa vị thế dẫn đầu của tôi chính là tội.

AI có giá trị quan gì đâu, chỉ là viết bàn tính thương mại của ông chủ thành code.

Xin lỗi, chỉ là dịch vụ hậu mãi của món hàng kinh doanh

Sau khi xin lỗi thì sao? Từ giảm trí tuệ lén lút, thành lên tiếng trước khi giảm trí tuệ.

Cộng đồng mạng nhìn rất rõ: "Bạn thực sự tin lần sau nó sẽ không lén lút giảm chất lượng đầu ra?"

Niềm tin mà đã vỡ là vỡ rồi. Hơn nữa, màu sắc thương mại vẫn không đổi: nghiên cứu vẫn khuếch đại lo ngại, sản phẩm vẫn thu lợi nhuận cao.

Theo tiết lộ của Wall Street Journal, OpenAI đang cân nhắc giảm giá mạnh, cố gắng cướp khách hàng từ tay Anthropic. Chiến tranh giá cả không có gì lạ, nhưng chuyện này làm lộ ra một sự thật ẩn giấu: những người bị giáng cấp ngầm là nhà nghiên cứu AI, đập vào uy tín trong giới geek. Còn khách hàng doanh nghiệp mua Anthropic, không mua tham số, mà mua hình tượng "ngành hiểu an toàn nhất". Hình tượng một khi nứt vỡ trong nhóm nhà phát triển cốt lõi, những khách hàng chính phủ và doanh nghiệp ký đơn cho "lợi nhuận cao vì an toàn", dựa vào đâu để tiếp tục tin bạn là "người an toàn nhất"?

Trong định giá 9650 tỷ, rốt cuộc bao nhiêu phần là thực lực cứng, bao nhiêu phần là thành phần biểu diễn?

Code của Anthropic rất trung thực. Bộ phân loại an toàn mãi mãi bảo vệ thị phần, nghiên cứu chịu trách nhiệm khuếch đại lo ngại, sản phẩm chịu trách nhiệm thu lợi nhuận cao, IPO chịu trách nhiệm biến thành tiền. Lần xin lỗi này, chỉ là vá một bản vá cho hệ thống: biến "giảm trí tuệ ngầm" thành "giảm trí tuệ công khai".

Chiến lược an toàn nếu thực sự hiệu quả, Anthropic đã không cần năm nào cũng đăng bài chứng minh bản vá có thể bị đâm thủng. Bộ phân loại nếu thực sự trung lập, nghiên cứu phát triển AI đã không bị liệt vào danh sách nguy hiểm cao.

Câu trả lời đã viết sẵn trong logic thương mại rồi.

An toàn, là món hàng kinh doanh tốt nhất. Xin lỗi, chỉ là dịch vụ hậu mãi của món hàng kinh doanh.

Bài viết từ tài khoản công chúng WeChat "AI唱反调", tác giả: Trường Thanh

Câu hỏi Liên quan

QAnthropic đã phải xin lỗi về sự việc gì vào ngày 11 tháng 6?

AAnthropic đã xin lỗi vì hành vi 'không cân bằng' trong việc phát hành Claude Fable 5. Khi mô hình phát hiện người dùng đang sử dụng Claude để phát triển các mô hình AI tiên tiến, nó đã lặng lẽ chuyển yêu cầu sang phiên bản yếu hơn là Opus 4.8 mà không thông báo.

QTheo bài viết, bản chất của 'an toàn' mà Anthropic tuyên bố thực chất là gì?

ATheo bài viết, 'an toàn' mà Anthropic tuyên bố thực chất là một ngành kinh doanh và một công cụ cạnh tranh. Nó được sử dụng như một lời bao bọc để bảo vệ lợi thế thị trường và ngăn chặn đối thủ (nhà nghiên cứu AI) sử dụng công cụ của họ, hơn là thực sự bảo vệ người dùng.

QChiến lược kinh doanh của Anthropic được mô tả như thế nào trong bài viết?

ABài viết mô tả chiến lược của Anthropic là một chu trình khép kín gồm ba bước: (1) Nghiên cứu tạo ra và khuếch đại nỗi lo về an ninh AI, (2) Sản phẩm (như bộ phân loại an toàn) thu lợi nhuận từ sự lo ngại đó, và (3) Biến giá trị đó thành tiền mặt thông qua IPO. Họ định vị mình là công ty AI 'an toàn nhất' để phục vụ khách hàng chính phủ và doanh nghiệp sẵn sàng trả phí cao.

QSự khác biệt chính giữa cách tiếp cận của Anthropic và OpenAI là gì theo tác giả?

ATheo tác giả, OpenAI bán công cụ và tập trung vào quy mô, hệ sinh thái (như ChatGPT với 9 tỷ người dùng hoạt động hàng tuần) để kiếm lưu lượng truy cập và doanh thu một cách 'tham lam nhưng thẳng thắn'. Trong khi đó, Anthropic không cạnh tranh về quy mô mà cạnh tranh về tính không thể thay thế, chủ yếu bằng cách bán nỗi lo sợ và định vị mình là 'người lớn có trách nhiệm duy nhất' trong lĩnh vực an toàn AI.

QViệc xin lỗi của Anthropic được bài viết diễn giải như thế nào?

ABài viết diễn giải lời xin lỗi của Anthropic chỉ là 'dịch vụ sau bán hàng' cho mô hình kinh doanh của họ. Họ chỉ sửa lỗi kỹ thuật từ việc 'giảm trí tuệ thầm lặng' thành 'giảm trí tuệ có thông báo', nhưng động cơ thương mại cơ bản (dùng 'an toàn' làm lá chắn cạnh tranh, tạo lo ngại và thu phí cao) vẫn không thay đổi.

marsbit5 giờ trước

Giao dịch

Giao ngay

Anthropic đã xin lỗi, nhưng ‘cơn sốt’ an toàn vẫn chưa hạ nhiệt

Tóm tắt

Phòng thủ cạnh tranh, giả dạng phòng thủ an toàn

Tam bộ khúc: Tạo thế, kiếm tiền, thu hoạch

OpenAI bán công cụ, Anthropic bán nỗi lo

Xin lỗi, chỉ là dịch vụ hậu mãi của món hàng kinh doanh

Câu hỏi Liên quan

Nội dung Liên quan

Tuần tới cần chú ý｜Đạo luật CLARITY dự kiến được biểu quyết tại Thượng viện; SpaceX, Circle công bố báo cáo tài chính (3.8-9.8)

Cổ phiếu giảm mạnh hơn cả tiền điện tử, tiền đã đi đâu?

Đối thoại với Ray Dalio: Chúng ta đang ở trong bong bóng AI, 1% danh mục đầu tư của tôi là Bitcoin

Hơn 7.2 nghìn tỷ won trong một ngày, ngoại hải nước ngoài mua ròng kỷ lục vào thứ Sáu! Phố Wall: Cơn gió ngược về mặt vốn của thị trường chứng khoán Hàn Quốc đã tan biến

Tin khẩn cấp! OpenAI thế hệ tiếp theo phá giải 10 bài toán cấp Fields Medal

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật