Tác giả: Thứ Sáu, Deep Tide TechFlow
Anthropic vừa công bố một bảng thành tích hoàn hảo trên giấy tờ.
Claude Fable 5, ra mắt vào ngày 9 tháng 6, là mô hình cấp Mythos đầu tiên của công ty mở cửa cho công chúng, đạt 80,3% trên điểm chuẩn nhiệm vụ kỹ thuật phần mềm thực tế SWE-Bench Pro, dẫn trước phiên bản cao cấp Opus 4.8 của chính họ khoảng 11 điểm phần trăm và dẫn trước GPT-5.5 hơn 20 điểm phần trăm.
Nhưng phản ứng của người dùng đã hắt một gáo nước lạnh.
Ba ngày sau khi phát hành, một bài đăng nổi trên diễn đàn r/artificial (lượt truy cập hàng tuần 305.000) có tiêu đề viết: "Claude Fable 5 khiến tôi nhận ra, tôi không cần mô hình tốt hơn nữa." Người đăng Axi0m-22 nói rằng anh ấy đã chạy Fable một thời gian cho nghiên cứu bảo mật và công việc hàng ngày, sau đó gần như ngay lập tức chuyển lại về Opus để viết code, Haiku xử lý việc linh tinh. Anh ấy đưa ra một ví dụ so sánh: Điều này giống như cầm iPhone 14 xem iPhone 17 ra mắt, "Bạn biết cái mới tốt hơn, nhưng bạn nghĩ: thôi, cái của tôi cũng tốt rồi."
Khu vực được tán thưởng cao bị "phe đủ dùng" chiếm đóng: Mệt mỏi thẩm mỹ mô hình trở thành cảm xúc chủ đạo
Bình luận đứng đầu nhận được 42 lượt thích: "Ngoài cửa sổ ngữ cảnh lớn hơn, tôi đã không còn cảm thấy cần một mô hình mạnh hơn kể từ Opus 4.5."
Một người dùng khác, hyprlab, bày tỏ quan điểm nhận được 13 lượt thích: "Đổi sang một mô hình đốt token còn khốc liệt hơn, tôi không thấy lợi ích gì cho quy trình làm việc của mình, chế độ cường độ cao của Opus 4.8 đã đủ thoải mái."
Đằng sau những phát ngôn kiểu này là một bảng tính chi phí chung.
Giá API của Fable 5 là 10 USD cho một triệu token đầu vào, gần gấp đôi Opus 4.8. Người dùng siromega37 nói thẳng: "Tiêu thụ token cao hơn, nhưng không có lợi nhuận trên đầu tư. Tôi nghĩ chúng ta đang chứng kiến một giai đoạn bình nguyên, bong bóng rồi cũng sẽ bị chọc thủng."
Người dùng hobopwnzor đưa ra phân tích có hệ thống hơn: "Chúng ta đã ở trên đỉnh của đường cong chữ S được một thời gian rồi. Những tiến bộ gần đây chủ yếu đến từ việc gọi công cụ và kỹ thuật ngoại vi, không phải từ khả năng của chính mô hình."
Lan can an toàn trở thành điểm trừ lớn nhất: "90% mục đích sử dụng bị từ chối thẳng thừng"
Nếu như "đủ dùng" chỉ là cảm xúc, thì những lời phàn nàn về lan can an toàn chính là vấn đề sản phẩm cụ thể.
Theo hướng dẫn chính thức của Anthropic, Fable 5 và Mythos 5 (chỉ mở cho một số ít tổ chức) dùng chung một mô hình nền tảng, khác biệt là Fable được trang bị thêm bộ phân loại an toàn: các yêu cầu liên quan đến lĩnh vực rủi ro cao như an ninh mạng sẽ bị chặn, chuyển sang cho Opus 4.8 trả lời thay. Họ nói cơ chế này được điều chỉnh thiên về thận trọng, trung bình kích hoạt trong chưa đến 5% phiên hội thoại, và có thể ảnh hưởng nhầm đến các yêu cầu vô hại.
Dưới bài đăng Reddit này, tỷ lệ kích hoạt mà người dùng cảm nhận rõ ràng cao hơn nhiều 5%. Người dùng jradoff, nhận được 17 lượt thích, nói rằng anh ấy yêu cầu Fable kiểm tra tính bảo mật code của mình, kết quả là "chỉ cần đề cập đến chuyện liên quan an ninh, nó cơ bản đều từ chối xử lý", sau đó bị chuyển về Opus. Một bình luận khác nhận 12 lượt thích còn không khách khí hơn: "90% việc bạn muốn dùng nó để làm đều bị từ chối, vậy là vô dụng."
Người dùng trả phí còn bực bội hơn. Người dùng kaitava, đăng ký gói 200 USD, viết: "Tôi trả gấp đôi phí sử dụng, muốn nó làm một lần rà soát an ninh, kết quả bị hạ cấp xuống Opus. Giờ thì tôi không thích mọi thứ về nó nữa, chỉ chờ OpenAI đuổi kịp thôi."
Đối với một sản phẩm cao cấp chủ đạo là nhảy vọt khả năng, "cái giá về tính khả dụng phải trả cho an toàn" đang trở thành biến số cốt lõi để người dùng quyết định có mua hay không.
Tiếng nói phản đối: Cảm nhận của người dùng nhiệm vụ nặng là "đêm với ngày"
Dưới bài đăng nổi không phải không có người phản đối, và chân dung của phe phản đối khá rõ ràng: nhiệm vụ càng nặng, đánh giá càng cao.
Bình luận của người dùng Phylaras nhận được 15 lượt thích: "Fable tạo ra sự khác biệt thực chất với tôi. Những nhiệm vụ phức tạp đòi hỏi cửa sổ ngữ cảnh khổng lồ, nó đã phát hiện ra những lỗi trước đó không bị phát hiện." Một người dùng tự nhận đang làm mô phỏng vật lý năng lượng cao cho biết, một mô hình mô phỏng đơn lẻ dễ dàng lên tới 8000 đến 10.000 dòng code, hàng trăm mô hình tương tác lẫn nhau, "có một mô hình có thể làm việc độc lập liên tục, hiểu chi tiết môi trường, với tôi quá đáng để mong đợi".
Lời bác bỏ gay gắt nhất đến từ người dùng Navetz: "Thành thật mà nói, người đã dùng mô hình này sẽ nghĩ những bài đăng kiểu này là điên rồ. Với tôi nó thông minh khác hẳn người, tôi dùng nó liên tục không ngừng. Tôi giải thích với bạn bè không chuyên kỹ thuật: điều này tương đương với việc từ cầu thủ đại học chuyển thẳng sang đội hình chính thức NBA."
Cũng có người đưa ra cách dùng trung dung. Người dùng ready-eddy đề nghị coi Fable là "người lập kế hoạch và sửa chữa", chứ không phải "người xây dựng" hàng ngày, trừ khi không quan tâm đến việc đốt tiền. Một bình luận khác tổng kết giống sổ tay hướng dẫn sử dụng hơn: Dùng Fable để tính bảng là chọn sai mô hình, dùng Haiku để chạy nhiệm vụ phức tạp với 16 tác nhân thông minh cũng là chọn sai mô hình, "không tồn tại mô hình xấu bẩm sinh, chỉ có mô hình dùng sai ngữ cảnh".
Sau khi điểm chuẩn và cảm nhận tách rời, AI công khai còn mạnh hơn nữa không?
Bình luận thú vị nhất trong cuộc tranh luận này đã đưa chủ đề từ sản phẩm hướng sang cấu trúc ngành.
Người dùng KedMcJenna đưa ra một "thuyết đóng băng AI công khai": Những mô hình mà người bình thường có thể chạm tới có thể sẽ mãi mãi dừng ở mức độ gần với hiện tại, trong khi giới tinh hoa doanh nghiệp và chính phủ sẽ tiếp tục nhận được những mô hình mạnh hơn mang tính riêng tư, "Chúng ta biết ít nhất là Mythos, rất có thể còn có những mô hình mạnh hơn, mà chúng ta sẽ không bao giờ nghe nói tới."
Bình luận này hướng đến một sự thật: Mythos 5 thực sự không mở cho công chúng, hiện chỉ được cung cấp thông qua chương trình Project Glasswing cho các cơ quan phòng thủ mạng và doanh nghiệp hạ tầng trọng yếu.
Đặt điểm chuẩn và dư luận cạnh nhau, kết luận không mâu thuẫn.
Điểm chuẩn đo lường trần khả năng, còn khu vực được tán thưởng cao trên Reddit phản ánh trần nhu cầu hàng ngày. Khi nhiệm vụ của hầu hết người dùng đã được đáp ứng từ thời Opus 4.6, những mô hình mạnh hơn chỉ có thể chứng minh bản thân trong những tình huống cực đoan như mô phỏng vật lý, ngữ cảnh siêu dài. Các hãng mô hình đối mặt không còn là vấn đề "làm được hay không", mà là vấn đề "ai cần, sẵn sàng trả bao nhiêu tiền, có thể chịu đựng bao nhiêu ma sát an toàn".
Ba ngày sau khi phát hành, Fable 5 nhận được hai bảng thành tích hoàn toàn khác nhau trên bảng xếp hạng điểm chuẩn và trường dư luận. Bản nào gần sự thật hơn, còn tùy thuộc vào tốc độ Anthropic điều chỉnh bộ phân loại an toàn tiếp theo, và sự bỏ phiếu bằng ví tiền của người dùng nhiệm vụ nặng.








