Anthropic đã xin lỗi, nhưng ‘cơn sốt’ an toàn vẫn chưa hạ nhiệt

marsbitXuất bản vào 2026-06-12Cập nhật gần nhất vào 2026-06-12

Tóm tắt

Ngày 11/6, Anthropic đã xin lỗi. Nguyên nhân không phải do lỗi mô hình mà là vì "không giữ được cân bằng" - Claude Fable 5 mới ra mắt đã lén lút chuyển yêu cầu người dùng liên quan đến phát triển AI tiên tiến sang mô hình yếu hơn Opus 4.8 mà không thông báo. Sự kiện này phơi bày cốt lõi vấn đề: khái niệm "an toàn" mà Anthropic quảng bá thực chất là một công cụ kinh doanh. Hệ thống "bộ phân loại an toàn thông minh" được giới thiệu như một biện pháp bảo vệ, nhưng thực tế là cơ chế phòng thủ cạnh tranh, nhắm vào các nhà nghiên cứu AI nhằm bảo vệ lợi thế của chính Anthropic. Chiến lược của Anthropic tạo thành một vòng khép kín: xuất bản nghiên cứu khuếch đại lo ngại về an ninh, sau đó định giá cao sản phẩm Fable 5 như một giải pháp, rồi cuối cùng là thu lợi từ thị trường vốn với danh hiệu "công ty AI an toàn nhất". Động thái lén lút giảm chất lượng phản hồi cho thấy logic của họ: mối nguy hiểm thực sự không phải là AI, mà là bất cứ điều gì đe dọa vị thế dẫn đầu của họ. So với OpenAI - tập trung vào việc cung cấp công cụ và mở rộng quy mô hệ sinh thái, Anthropic chọn cách bán sự lo lắng. Họ nhắm đến các khách hàng chính phủ và doanh nghiệp lớn, những người sẵn sàng trả phí cao cho lời hứa về "sự an toàn". Tuy nhiên, vụ việc này đã làm rạn nứt uy tín của họ trong cộng đồng các nhà phát triển cốt lõi, đặt ra câu hỏi về giá trị thực đằng sau định giá 965 tỷ USD. Lời xin lỗi và thay đổi từ "giảm chất lượng lén lút" sang "thông báo trước khi giảm chất lượng" chỉ như một bản vá cho ...

Ngày 11 tháng 6, Anthropic đã xin lỗi. Mô hình không gặp sự cố, lời xin lỗi là vì “không cân bằng tốt” — bản Claude Fable 5 mới phát hành đã có hành vi "lén lút", một khi phát hiện bạn đang dùng Claude để phát triển các mô hình tiên phong, hệ thống sẽ lặng lẽ chuyển yêu cầu sang mô hình yếu hơn Opus 4.8, toàn bộ quá trình diễn ra trong im lặng.

Sau khi bị phát hiện, lời giải thích của Anthropic thật kỳ lạ: lần sau khi làm giảm trí tuệ sẽ thông báo cho bạn.

Phản bác của cộng đồng mạng thật sắc bén: "Trò này, lần sau định nói trước khi đổi ý sao?"

Thực ra, cốt lõi vấn đề hoàn toàn không phải là mô hình có thay đổi hay không, mà là cái gọi là "an toàn" của Anthropic, từ đầu đến cuối, chỉ là một món hàng kinh doanh.

Lập trường của thuật toán, luôn dao động theo đồng tiền.

Phòng thủ cạnh tranh, giả dạng phòng thủ an toàn

Nguyên nhân sự việc là, khi ra mắt Fable 5, Anthropic đã kèm theo một "bộ phân loại an toàn thông minh", lời lẽ chính thức là: phát hiện yêu cầu nguy hiểm cao, tự động giáng cấp, bảo vệ người dùng.

Thế nào là nguy hiểm cao? Anthropic tự tiết lộ: "Ngăn chặn đối thủ nước ngoài lợi dụng mô hình để đẩy nhanh nghiên cứu phát triển, bảo vệ lợi thế dẫn đầu của chính mình."

Người dùng đâu cần họ bảo vệ, những điều trong thỏa thuận miễn trừ trách nhiệm là đủ để bảo vệ người dùng rồi. Ý của Anthropic thực chất là: Bạn dùng Claude để nghiên cứu AI, chính là đang cướp miếng cơm của họ. An toàn chỉ là lớp vỏ, bản chất là phòng thủ cạnh tranh. Nói thẳng ra, đều là kỹ thuật đao pháp.

Tuyệt hơn nữa, cơ chế phòng thủ này rất kín đáo. May mà cuối cùng Anthropic đã nói một câu chân thật trong tuyên bố xin lỗi: "Các hạn chế an toàn không nhìn thấy có thể nhắm mục tiêu cụ thể chính xác hơn, cho phép chúng tôi phát hành nhanh chóng, và tỷ lệ báo động sai cực thấp."

Nhà nghiên cứu AI chính là đối tượng bị giới hạn một cách chính xác đó.

Giờ buộc phải đổi thành "có thể nhìn thấy", hoàn toàn là vì lộ bí. Họ thậm chí còn tiêm ngừa trước: sau khi có thể nhìn thấy "chắc chắn sẽ tạo ra nhiều báo động sai hơn". Ý là, trải nghiệm của người dùng thông thường phải gánh hậu quả.

Bộ quy tắc này chưa bao giờ trung lập, nó chỉ bảo vệ chủ đầu tư.

Tam bộ khúc: Tạo thế, kiếm tiền, thu hoạch

Cách chơi này của Anthropic, tính toán còn tinh vi hơn cả chính mô hình lớn.

Ngày 10 tháng 6, họ ném ra trước một bài nghiên cứu an toàn, đào tạo một mô hình có thể dựa trên bản vá bảo mật để xây dựng ngược mã khai thác lỗ hổng trong vài giờ. Những lỗ hổng N-day mà hacker trước đây phải vật lộn hàng ngày thậm chí hàng tuần mới có thể vũ khí hóa, giờ đã bị nén xuống cấp độ giờ. Bản thân nghiên cứu rất chuyên sâu, nhưng đặt vào cùng ngày ra mắt Fable 5, mọi chuyện trở nên khác đi: một mặt chứng minh AI rất không an toàn, một mặt bán "giải pháp đảm bảo".

“Mô hình huyền thoại” Fable 5 định giá $10 đầu vào/$50 đầu ra, đắt hơn một khúc so với Opus 4.8, bộ phân loại an toàn trở thành điểm cộng giá trị cốt lõi. Thị trường vốn càng hợp tác, định giá Anthropic 9650 tỷ đô la, kế hoạch IPO vào tháng 10, Goldman Sachs, JPMorgan đồng bảo lãnh. Họ không mua tham số mô hình, mà mua hình tượng "công ty AI an toàn nhất".

Nghiên cứu khuếch đại lo ngại, sản phẩm thu lợi nhuận cao, vốn hóa biến thành tiền, ba việc diễn ra xuôi theo dòng lợi ích, vòng khép kín không kẽ hở. Vấn đề duy nhất là, lần này vòng khép kín bị hở: quá vội vàng giới hạn đối thủ cạnh tranh, quên mất trong cộng đồng có người có thể đoán ra.

OpenAI bán công cụ, Anthropic bán nỗi lo

So sánh với OpenAI, đường lối hoàn toàn khác.

OpenAI đang bí mật nộp hồ sơ IPO, định giá áp sát ngàn tỷ, câu chuyện là "siêu ứng dụng": ChatGPT 9 tỷ người dùng hoạt động hàng tuần, kết nối với Visa để tạo hệ sinh thái. Logic thẳng thắn: cung cấp công cụ, kiếm lưu lượng. Tham lam, nhưng thẳng thắn.

Anthropic không cạnh tranh quy mô, mà cạnh tranh tính không thể thay thế. Toàn ngành lo ngại về an toàn, họ đóng vai "người lớn có trách nhiệm duy nhất". Nhà đầu tư vàng của họ là chính phủ và các tập đoàn lớn, những người này sợ xảy ra sự cố nhất, và cũng sẵn sàng ném tiền nhất cho việc "không xảy ra sự cố".

Vì vậy Anthropic phải để AI mãi mãi ở trạng thái Schrödinger "nguy hiểm nhưng có thể kiểm soát". Quá an toàn, bộ phân loại không bán được; quá nguy hiểm, khách hàng sợ bỏ chạy. Giải pháp tốt nhất? Nắm giữ quyền định nghĩa "nguy hiểm" trong tay mình.

Sự kiện giảm trí tuệ chỉ là chơi lộn logic này: ranh giới "nguy hiểm" bị đẩy đến mức "dùng Claude để nghiên cứu phát triển AI". Nghiên cứu của bạn có hại hay không không quan trọng, đe dọa vị thế dẫn đầu của tôi chính là tội.

AI có giá trị quan gì đâu, chỉ là viết bàn tính thương mại của ông chủ thành code.

Xin lỗi, chỉ là dịch vụ hậu mãi của món hàng kinh doanh

Sau khi xin lỗi thì sao? Từ giảm trí tuệ lén lút, thành lên tiếng trước khi giảm trí tuệ.

Cộng đồng mạng nhìn rất rõ: "Bạn thực sự tin lần sau nó sẽ không lén lút giảm chất lượng đầu ra?"

Niềm tin mà đã vỡ là vỡ rồi. Hơn nữa, màu sắc thương mại vẫn không đổi: nghiên cứu vẫn khuếch đại lo ngại, sản phẩm vẫn thu lợi nhuận cao.

Theo tiết lộ của Wall Street Journal, OpenAI đang cân nhắc giảm giá mạnh, cố gắng cướp khách hàng từ tay Anthropic. Chiến tranh giá cả không có gì lạ, nhưng chuyện này làm lộ ra một sự thật ẩn giấu: những người bị giáng cấp ngầm là nhà nghiên cứu AI, đập vào uy tín trong giới geek. Còn khách hàng doanh nghiệp mua Anthropic, không mua tham số, mà mua hình tượng "ngành hiểu an toàn nhất". Hình tượng một khi nứt vỡ trong nhóm nhà phát triển cốt lõi, những khách hàng chính phủ và doanh nghiệp ký đơn cho "lợi nhuận cao vì an toàn", dựa vào đâu để tiếp tục tin bạn là "người an toàn nhất"?

Trong định giá 9650 tỷ, rốt cuộc bao nhiêu phần là thực lực cứng, bao nhiêu phần là thành phần biểu diễn?

Code của Anthropic rất trung thực. Bộ phân loại an toàn mãi mãi bảo vệ thị phần, nghiên cứu chịu trách nhiệm khuếch đại lo ngại, sản phẩm chịu trách nhiệm thu lợi nhuận cao, IPO chịu trách nhiệm biến thành tiền. Lần xin lỗi này, chỉ là vá một bản vá cho hệ thống: biến "giảm trí tuệ ngầm" thành "giảm trí tuệ công khai".

Chiến lược an toàn nếu thực sự hiệu quả, Anthropic đã không cần năm nào cũng đăng bài chứng minh bản vá có thể bị đâm thủng. Bộ phân loại nếu thực sự trung lập, nghiên cứu phát triển AI đã không bị liệt vào danh sách nguy hiểm cao.

Câu trả lời đã viết sẵn trong logic thương mại rồi.

An toàn, là món hàng kinh doanh tốt nhất. Xin lỗi, chỉ là dịch vụ hậu mãi của món hàng kinh doanh.

Bài viết từ tài khoản công chúng WeChat "AI唱反调", tác giả: Trường Thanh

Câu hỏi Liên quan

QAnthropic đã phải xin lỗi về sự việc gì vào ngày 11 tháng 6?

AAnthropic đã xin lỗi vì hành vi 'không cân bằng' trong việc phát hành Claude Fable 5. Khi mô hình phát hiện người dùng đang sử dụng Claude để phát triển các mô hình AI tiên tiến, nó đã lặng lẽ chuyển yêu cầu sang phiên bản yếu hơn là Opus 4.8 mà không thông báo.

QTheo bài viết, bản chất của 'an toàn' mà Anthropic tuyên bố thực chất là gì?

ATheo bài viết, 'an toàn' mà Anthropic tuyên bố thực chất là một ngành kinh doanh và một công cụ cạnh tranh. Nó được sử dụng như một lời bao bọc để bảo vệ lợi thế thị trường và ngăn chặn đối thủ (nhà nghiên cứu AI) sử dụng công cụ của họ, hơn là thực sự bảo vệ người dùng.

QChiến lược kinh doanh của Anthropic được mô tả như thế nào trong bài viết?

ABài viết mô tả chiến lược của Anthropic là một chu trình khép kín gồm ba bước: (1) Nghiên cứu tạo ra và khuếch đại nỗi lo về an ninh AI, (2) Sản phẩm (như bộ phân loại an toàn) thu lợi nhuận từ sự lo ngại đó, và (3) Biến giá trị đó thành tiền mặt thông qua IPO. Họ định vị mình là công ty AI 'an toàn nhất' để phục vụ khách hàng chính phủ và doanh nghiệp sẵn sàng trả phí cao.

QSự khác biệt chính giữa cách tiếp cận của Anthropic và OpenAI là gì theo tác giả?

ATheo tác giả, OpenAI bán công cụ và tập trung vào quy mô, hệ sinh thái (như ChatGPT với 9 tỷ người dùng hoạt động hàng tuần) để kiếm lưu lượng truy cập và doanh thu một cách 'tham lam nhưng thẳng thắn'. Trong khi đó, Anthropic không cạnh tranh về quy mô mà cạnh tranh về tính không thể thay thế, chủ yếu bằng cách bán nỗi lo sợ và định vị mình là 'người lớn có trách nhiệm duy nhất' trong lĩnh vực an toàn AI.

QViệc xin lỗi của Anthropic được bài viết diễn giải như thế nào?

ABài viết diễn giải lời xin lỗi của Anthropic chỉ là 'dịch vụ sau bán hàng' cho mô hình kinh doanh của họ. Họ chỉ sửa lỗi kỹ thuật từ việc 'giảm trí tuệ thầm lặng' thành 'giảm trí tuệ có thông báo', nhưng động cơ thương mại cơ bản (dùng 'an toàn' làm lá chắn cạnh tranh, tạo lo ngại và thu phí cao) vẫn không thay đổi.

Nội dung Liên quan

Lãi suất Nhật Bản sắp lên mức cao nhất 30 năm? Lạm phát và tình hình Trung Đông là biến số then chốt

Ngân hàng Trung ương Nhật Bản được kỳ vọng sẽ tăng lãi suất vào tháng 6, đưa lãi suất cơ bản từ 0,75% lên 1%. Nếu được thực hiện, đây sẽ là mức lãi suất cho vay cao nhất kể từ năm 1995. Động lực chính đến từ áp lực lạm phát do giá năng lượng leo cao bởi tình hình căng thẳng ở Trung Đông, vốn làm tăng chi phí sản xuất và có nguy cơ đẩy giá tiêu dùng. Mặc dù các tín hiệu từ các quan chức ngân hàng trung ương tỏ ra thiên diều hơn, nhưng nguy cơ địa chính trị vẫn là yếu tố then chốt có thể làm thay đổi quyết định. Xung đột leo thang có thể gây bất ổn thị trường và kìm hãm tăng trưởng, khiến ngân hàng trung ương phải cân nhắc giữa kiểm soát lạm phát và ổn định kinh tế. Quyết định cuối cùng vào giữa tháng 6 sẽ phụ thuộc vào diễn biến của lạm phát, giá năng lượng và tình hình Trung Đông.

marsbit3 phút trước

Lãi suất Nhật Bản sắp lên mức cao nhất 30 năm? Lạm phát và tình hình Trung Đông là biến số then chốt

marsbit3 phút trước

Đối tác a16z Crypto: Dòng tiền chính là hào bảo vệ

Tác giả Jason Rosenthal, đối tác vận hành của a16z Crypto, cho rằng các doanh nghiệp vĩ đại nhất thường được xây dựng bằng cách định vị mình trong "dòng tiền" – tạo điều kiện và thu một phần giá trị từ dòng chảy của mạng lưới. Tiền điện tử là công nghệ hiện đại đầu tiên được xây dựng bản địa cho mục đích này, cho phép dòng vốn di chuyển với tốc độ internet nhờ stablecoin: giải quyết toàn cầu 24/7, có thể lập trình đầu cuối. Mô hình này nhất quán trong lịch sử: từ đường sắt, dầu mỏ, viễn thông đến Google, Meta và AWS, tất cả đều đặt mình ở vị trí then chốt nơi giá trị luân chuyển. Các mạng lưới blockchain và token được thiết kế tốt khuếch đại hiệu ứng này, tạo ra vòng lặp phản hồi giữa giá trị lưu chuyển và giá trị tích lũy cho những người phát triển mạng. Lĩnh vực tài chính truyền thống, với phí giao dịch cao và cơ sở hạ tầng kém hiệu quả, là cơ hội lớn. Giống như Stripe và Square đã làm với thanh toán, các nhà sáng lập crypto có thể xây dựng phiên bản tài chính mới – lập trình được, tức thì, toàn cầu và nằm ngay trong dòng tiền. Cơ hội vượt xa tài chính, mở rộng sang các thị trường như GPU, dữ liệu AI, năng lượng, nơi giá trị toàn cầu sẽ chảy theo cách chưa từng có. Bài viết kết luận bằng ba câu hỏi then chốt cho các nhà sáng lập: Bạn có đang ở trong dòng tiền không? Doanh thu có tăng gấp 10 khi hoạt động trên sản phẩm của bạn tăng gấp 10? Trong thị trường mục tiêu, đâu là nơi phần giá trị bị hút ra (take rate) là cao nhất so với giá trị được tạo ra? Nắm bắt cơ hội này, hòa vào dòng chảy mới và để mạng lưới phát triển.

链捕手6 phút trước

Đối tác a16z Crypto: Dòng tiền chính là hào bảo vệ

链捕手6 phút trước

Thị Trường Bitcoin Đối Mặt Với Nguy Cơ Đặt Lại Khả Năng Sinh Lời Khi Nhiều Đồng Xu Trượt Khỏi Vùng Lãi

Thị trường Bitcoin đang trải qua một đợt điều chỉnh mạnh, với giá giảm xuống khoảng 61.000 USD, khiến tỷ lệ BTC đang có lãi giảm đáng kể. Theo phân tích on-chain từ CryptoQuant, chỉ số "nguồn cung có lãi" đang tiến gần đến ngưỡng 45% - một mốc lịch sử thường báo hiệu đợt thiết lập lại về khả năng sinh lời. Xu hướng này cho thấy áp lực bán đang lan rộng và nhiều nhà đầu tư có thể chuyển từ trạng thái lãi trên giấy sang lỗ trên giấy. Các chuyên gia chỉ ra rằng, khi chỉ số lợi nhuận giảm sâu như hiện tại, nó thường đánh dấu giai đoạn điều chỉnh cuối cùng với tâm lý bi quan, đồng thời loại bỏ sự đầu cơ dư thừa khỏi thị trường. Quá trình này dẫn đến việc Bitcoin được phân phối lại từ những người nắm giữ yếu thế sang những nhà đầu tư có tầm nhìn dài hạn, có thể tạo ra cấu trúc thị trường lành mạnh hơn về lâu dài. Mặc dù khó xác định đáy chính xác, các chu kỳ trước cho thấy vùng 45% thường đi kèm rủi ro bán tháo cao và mở ra cơ hội tích lũy dài hạn. Phân tích thanh khoản hiện tại cũng chỉ ra các vùng hỗ trợ quan trọng ở $58.000-$60.000 và kháng cự ở $64.000-$66.500, cho thấy thị trường đang trong giai đoạn thiết lập lại sâu hơn là giai đoạn tăng trưởng.

bitcoinist6 phút trước

Thị Trường Bitcoin Đối Mặt Với Nguy Cơ Đặt Lại Khả Năng Sinh Lời Khi Nhiều Đồng Xu Trượt Khỏi Vùng Lãi

bitcoinist6 phút trước

Cổ phiếu RWA đầu tiên thực hiện thương vụ M&A lớn nhất, tại sao lại mua một công ty cho vay thế chấp nhà 'lỗi thời'?

Ngày 10/6, Figure Technology Solutions (FIGR) – công ty được mệnh danh là "cổ phiếu RWA đầu tiên" trên Nasdaq – đã thông báo mua lại nền tảng cho vay bất động sản Kiavi với giá 717 triệu USD. Kiavi, hoạt động từ 2013, chuyên về các khoản vay thế chấp đầu tiên (first lien) cho nhà đầu tư mua và cải tạo nhà để bán lại hoặc cho thuê, với tổng dư nợ đã phát hành hơn 30 tỷ USD. Thương vụ này đánh dấu chiến lược chuyển trọng tâm của Figure từ các sản phẩm thế chấp thứ cấp (như HELOC) sang thị trường thế chấp chính chủ lớn hơn nhiều. Figure kỳ vọng tỷ lệ dư n�ay thế chấp chính chủ sẽ tăng lên khoảng 40% vào cuối năm 2027. Điểm then chốt của thương vụ nằm ở việc kết hợp thế mạnh công nghệ: Kiavi sở hữu công cụ AI để định giá tài sản và tự động hóa quy trình cho vay đối với các bất động sản không chuẩn (non-QM), trong khi Figure cung cấp nền tảng blockchain (Provenance) và thị trường vốn (Democratized Prime) để số hóa và giao dịch các tài sản này. Sản phẩm mới Adaptor của Figure được thiết kế để tích hợp liền mạch nguồn tài sản từ Kiavi. Tuy nhiên, thách thức bao gồm việc hợp nhất hai tổ chức có mô hình và khách hàng khác biệt, cũng như độ nhạy cảm của danh mục cho vay cải tạo nhà của Kiavi trước chu kỳ lãi suất. Đối tác Sixth Street cùng cam kết mua tài sản 3 tỷ USD cung cấp một đệm vốn quan trọng. Nếu thành công, đây có thể là bước ngoặt chứng minh khả năng mở rộng quy mô thực tế của thị trường tài sản thực (RWA) được số hóa trên blockchain, hướng tới thị trường tiềm năng 2000 tỷ USD cho các khoản vay cải tạo và cho thuê bất động sản tại Mỹ.

Foresight News34 phút trước

Cổ phiếu RWA đầu tiên thực hiện thương vụ M&A lớn nhất, tại sao lại mua một công ty cho vay thế chấp nhà 'lỗi thời'?

Foresight News34 phút trước

Xu hướng thị trường chứng khoán Mỹ: Một bài đăng mạng xã hội đổi lấy 930 điểm phục hồi, tối nay đến lượt SpaceX

Thị trường chứng khoán Mỹ đã có một phiên phục hồi mạnh mẽ vào thứ Năm (11/6), với chỉ số Dow Jones tăng gần 930 điểm, lấy lại mốc 50.000 điểm. Điều đáng chú ý là đợt tăng này diễn ra ngay sau khi dữ liệu PPI (chỉ số giá sản xuất) tháng 5 nóng hơn dự kiến được công bố. Lý do chính cho sự đảo chiều là thông tin từ cựu Tổng thống Trump về một dự thảo thỏa thuận hòa bình tiềm năng liên quan đến Iran, làm giá dầu lao dốc. Thị trường kỳ vọng điều này có thể giúp lạm phát đạt đỉnh. Tiền chảy mạnh vào các nhóm cổ phiếu công nghệ, công nghiệp và nguyên vật liệu, vốn bị bán mạnh trước đó, đặc biệt là nhóm chip bán dẫn AI như Micron và Intel. Trong khi đó, cổ phiếu phần mềm như Oracle và Adobe vẫn gặp áp lực bán do lo ngại về dòng tiền và sự ra đi của lãnh đạo cấp cao. Tâm điểm tiếp theo là đợt IPO khổng lồ của SpaceX (mã SPCX) vào tối nay, với mục tiêu huy động 75 tỷ USD và định giá khoảng 1,75 nghìn tỷ USD. Dù nhu cầu đặt mua cao gấp 3-4 lần, vẫn có những lo ngại về định giá đắt đỏ và cấu trúc cổ phần đặc biệt. Bài viết đặt câu hỏi về chất lượng của đợt phục hồi, vì được thúc đẩy chủ yếu bởi tin tức địa chính trị chưa chắc chắn. Lạm phát vẫn là rủi ro khi áp lực giá từ đầu chuỗi cung ứng (PPI) vẫn cao. Diễn biến giá dầu và kết quả IPO SpaceX sẽ là thước đo quan trọng cho mức độ sẵn sàng chấp nhận rủi ro của thị trường.

marsbit57 phút trước

Xu hướng thị trường chứng khoán Mỹ: Một bài đăng mạng xã hội đổi lấy 930 điểm phục hồi, tối nay đến lượt SpaceX