‘Tôi không cần mô hình tốt hơn nữa’: Thế giới AI dưới bài đăng nổi trên Reddit
Tác giả: Thứ Sáu, Shenchao TechFlow
Anthropic vừa ra mắt Claude Fable 5, mô hình cấp Mythos đầu tiên mở cửa cho công chúng, đạt 80.3% trên bảng tiêu chuẩn SWE-Bench Pro, vượt xa mô hình tiền nhiệm và đối thủ. Tuy nhiên, phản ứng từ người dùng lại khá lạnh nhạt.
Một bài đăng hot trên Reddit r/artificial với tiêu đề "Claude Fable khiến tôi nhận ra mình không cần mô hình tốt hơn nữa" đã nhận được sự đồng thuận lớn. Nhiều người dùng cho rằng các mô hình từ Opus 4.5/4.8 đã đủ đáp ứng nhu cầu công việc thường ngày của họ. Họ ví việc nâng cấp lên Fable 5 giống như có iPhone 14 và xem ra mắt iPhone 17: biết là tốt hơn, nhưng cảm thấy phiên bản hiện tại vẫn ổn. Lý do chính được nêu ra là chi phí token cao gấp đôi nhưng không mang lại lợi ích tương xứng cho quy trình làm việc thông thường, cho thấy dấu hiệu bão hòa về nhu cầu.
Một vấn đề lớn khác là "hàng rào an ninh" (safety classifier) của Fable 5. Dù Anthropic tuyên bố cơ chế này chỉ kích hoạt trong dưới 5% cuộc hội thoại, người dùng phản ánh tỷ lệ này trong thực tế cao hơn nhiều, đặc biệt với các yêu cầu liên quan đến bảo mật, khiến 90% công việc họ muốn làm bị từ chối và chuyển về xử lý bởi Opus. Người dùng trả phí cao tỏ ra thất vọng khi phải trả gấp đôi nhưng không được sử dụng đúng tính năng mong muốn.
Tuy nhiên, vẫn có những ý kiến trái chiều, chủ yếu từ người dùng có nhu cầu xử lý nhiệm vụ cực kỳ phức tạp và nặng. Họ mô tả Fable 5 thông minh hơn hẳn, giống như "chuyển từ cầu thủ sinh viên lên đội hình chính NBA", đặc biệt hữu ích cho các tác vụ như mô phỏng vật lý năng lượng cao hay xử lý ngữ cảnh siêu dài với hàng nghìn dòng code. Một số đề xuất sử dụng Fable 5 như một "nhà hoạch định và sửa chữa" cho các vấn đề phức tạp, thay vì công cụ xây dựng hàng ngày.
Bài viết đặt ra câu hỏi về sự khác biệt giữa điểm số benchmark và trải nghiệm thực tế. Khi nhu cầu của đa số người dùng phổ thông đã được đáp ứng bởi các mô hình thế hệ trước, những cải tiến vượt trội chỉ thực sự cần thiết cho các tình huống chuyên sâu. Một bình luận còn đưa ra giả thuyết về "sự đóng băng của AI công khai", cho rằng công chúng có thể chỉ được tiếp cận các mô hình ở mức độ hiện tại, trong khi các phiên bản mạnh hơn như Mythos 5 sẽ chỉ dành cho chính phủ và doanh nghiệp.
Kết luận, thành công của Fable 5 sẽ không chỉ phụ thuộc vào điểm số benchmark, mà còn vào khả năng điều chỉnh hàng rào an ninh để cân bằng giữa an toàn và tính khả dụng, cùng với sự sẵn sàng chi trả của nhóm người dùng chuyên sâu.
marsbit2 ngày trước 02:54