Tháng 4, Anthropic ra mắt phiên bản xem trước của mô hình Mythos. Mô hình này không mở cửa cho công chúng, bởi trong quá trình thử nghiệm, nó thể hiện khả năng bảo mật mạng và khai thác lỗ hổng cực mạnh, có thể tự động phát hiện hàng nghìn lỗ hổng zero-day nguy cấp. Một khi bị rò rỉ, dễ bị sử dụng cho các cuộc tấn công độc hại.
Để khóa chặt khả năng này trong các kịch bản phòng thủ, Anthropic đã ra mắt Dự án Glasswing (Project Glasswing), chỉ mở quyền truy cập cho 12 đối tác an ninh cốt lõi như Apple, Google, Microsoft và hơn 40 nhà cung cấp hạ tầng quan trọng, với việc sử dụng được kiểm soát toàn trình.
Hành động khóa lại trước khi phát hành này bản thân nó đã tạo ra chủ đề thảo luận.
Hai tháng sau, vào rạng sáng ngày 10/6 theo giờ Bắc Kinh, Anthropic chính thức ra mắt Fable 5 và Mythos 5.
Xét về điểm benchmark, chúng đạt điểm cao nhất trong hầu hết tất cả các bài kiểm tra chuẩn, đặc biệt là trong lĩnh vực kỹ thuật phần mềm và thực thi tác vụ dài, tạo ra khoảng cách rõ rệt so với các mô hình khác.
Nhưng cuộc thảo luận xung quanh mô hình này, nhanh chóng không chỉ dừng lại ở việc nó mạnh đến đâu.
Fable 5 và Mythos 5 thực chất chia sẻ cùng một mô hình nền tảng. Điểm khác biệt là, Fable 5 hướng đến người dùng phổ thông, còn Mythos 5 thì tiếp tục bị khóa trong tay các đối tác an ninh đáng tin cậy. Cùng một mô hình, hai bộ quy tắc, hướng đến hai nhóm đối tượng, đây là lần đầu tiên trong dòng sản phẩm của Anthropic.
Hơn nữa, người dùng phổ thông nhận được cũng không phải là phiên bản đầy đủ. Anthropic đã thêm một bộ phân loại an ninh ở lớp ngoài của Fable 5, một khi yêu cầu chạm đến các hướng nhạy cảm như an ninh mạng, hóa sinh, chưng cất mô hình, hệ thống sẽ tự động chuyển sang mô hình thế hệ trước yếu hơn là Opus 4.8 để phản hồi.
Định giá cũng đáng chú ý, đầu vào 10 USD, đầu ra 50 USD trên triệu Token, theo thông báo chính thức là khoảng gấp đôi Opus 4.8. Từ ngày 23/6, Fable 5 còn sẽ bị loại khỏi các gói đăng ký như Pro, Max, người dùng muốn tiếp tục sử dụng cần tiêu thụ thêm credits.
Những đòn kết hợp này nhìn riêng ra thì rất hợp lý. Năng lực quá mạnh nên áp đặt hạn chế an ninh, chi phí cao hơn nên tăng giá, nhạy cảm rủi ro nên phân cấp phát hành. Nhưng đặt chúng lại với nhau, tín hiệu được phát đi trở nên tinh tế hơn. Điều này khác với logic cạnh tranh chạy đua về tốc độ và sự cởi mở của các công ty mô hình lớn trong vài năm qua, khi mọi nhà đều tìm cách để mô hình của mình tiếp cận nhiều người dùng hơn, thì Anthropic lại chủ động thu hẹp lối vào, biến các hạn chế thành một phần của chiến lược sản phẩm.
Vậy thì, mô hình được mệnh danh là "mạnh nhất chưa từng có" này, có bị thần thánh hóa quá mức không?
01. Nâng cấp năng lực rõ rệt, tự động giáng cấp trở thành tranh cãi
Phân cấp thì phân cấp, trước tiên hãy xem thực lực thực sự thế nào.
Kỹ thuật phần mềm là điểm nhấn cốt lõi trong bản cập nhật lần này của Anthropic. Trong bài kiểm tra SWE-Bench Pro, Fable 5 đạt điểm 80,3%. Bài kiểm tra này chủ yếu xem xét khả năng của mô hình trong việc xác định vị trí bug trong kho GitHub thực tế, hiểu ngữ cảnh, viết mã sửa chữa có thể sử dụng được. 80,3% có nghĩa là cứ 5 vấn đề kỹ thuật thực tế, Fable 5 có thể giải quyết 4 vấn đề.
Trên bảng xếp hạng Terminal-Bench 2.1, Fable 5 đạt 88,0%, vượt qua Codex CLI của Open AI. Đáng chú ý là, Fable 5 là mô hình tổng quát, còn Codex CLI là công cụ chuyên sâu được xây dựng cho ngữ cảnh lập trình, khoảng cách giữa hai bên càng thể hiện rõ năng lực lập trình của Fable 5.
Nhưng thứ thực sự có thể cho thấy khoảng cách là FrontierCode Diamond, bài kiểm tra này đánh giá xem mã do mô hình tạo ra có đạt được tiêu chuẩn chất lượng của kho mã cấp sản xuất hay không. Fable 5 đạt 29,3%, Opus 4.8 chỉ có 13,4%, GPT-5.5 chỉ có 5,7%. Cả ba dữ liệu đều được Anthropic công bố chính thức, dữ liệu của GPT-5.5 là kết quả kiểm tra nội bộ của họ.
Trong vài năm qua, khả năng viết mã của các mô hình AI liên tục tiến bộ, nhưng lâu nay vẫn mắc kẹt ở một nút thắt: mã có thể chạy, nhưng không dễ bảo trì; có thể vượt qua bài kiểm tra chuẩn, nhưng khi triển khai trong dự án thực tế vẫn thường xuyên gặp vấn đề.
Đột phá của Fable 5 ở khía cạnh này cho thấy lần nâng cấp của Anthropic không chỉ là khả năng giải quyết vấn đề, mà còn là đẩy mô hình tiến gần hơn đến hướng giao hàng kỹ thuật thực sự.
Lý Hạ, một lập trình viên, nói với "AIX Tài chính" rằng mã do AI tạo ra rất dễ gặp vấn đề ngữ cảnh không liền mạch, ban đầu có thể hiểu chính xác yêu cầu, nhưng trong các tác vụ dài dễ quên thông tin, chi phí bảo trì về sau rất cao.
Theo anh, Fable 5 có sự tiến bộ rõ rệt về tính logic liên tục trong các tác vụ dài, các nhiệm vụ mã hóa cùng loại có thể hoàn thành ngay một lần, độ chính xác cao hơn. Tuy nhiên, so với Opus4.8, tốc độ tạo của Fable 5 chậm hơn, chuỗi suy nghĩ dài hơn, tốc độ phản hồi tổng thể có giảm.
Khả năng thị giác cũng được cải thiện. Anthropic cho biết, Fable 5 có thể trích xuất số liệu chính xác từ các biểu đồ khoa học phức tạp, cũng có thể xây dựng lại mã nguồn ứng dụng trực tiếp từ ảnh chụp màn hình trang web. Bên chính thức cũng trình diễn trường hợp thực tế, Fable 5 chỉ dựa vào ảnh chụp màn hình trò chơi đã có thể vượt qua "Pokémon FireRed", không cần kết hợp công cụ hỗ trợ. Mô hình thế hệ trước khi làm nhiệm vụ tương tự cần được trang bị hệ thống hỗ trợ phức tạp.
Về ngữ cảnh dài và trí nhớ, tuyên bố chính thức đưa ra là: tác vụ càng dài và phức tạp, ưu thế của Fable 5 càng rõ rệt.
Ngoài ra, khoa học sự sống là một hướng khác được đề cập trọng điểm. Anthropic tiết lộ mô hình phân tích dữ liệu tế bào đơn dựa trên Mythos 5, bao phủ 138 loài, hiệu năng vượt trội so với mô hình cùng loại được đăng tải gần đây trên tạp chí "Science", nhưng số lượng tham số chỉ bằng một phần trăm của mô hình sau.
Chỉ xét riêng điểm benchmark, năng lực tổng hợp thực sự đã lên một tầm cao mới.
Hãy xem xét thêm những yếu tố ngoài điểm số.
Fable 5 được trang bị một bộ phân loại an ninh, chỉ cần yêu cầu của người dùng liên quan đến hướng an ninh mạng, hóa sinh hoặc chưng cất mô hình, hệ thống sẽ tự động chuyển sang Opus 4.8 để phản hồi, và thông báo cho người dùng rằng đã xảy ra giáng cấp mô hình. Bên chính thức cho biết, hơn 95% cuộc hội thoại hàng ngày sẽ không kích hoạt, các tác vụ như viết lách, lập trình, phân tích hầu như không bị ảnh hưởng. Tuy nhiên, trải nghiệm thực tế có thể khác biệt tùy vào ngữ cảnh sử dụng.
Trong sử dụng thực tế, ranh giới này thực ra rất dễ bị kích hoạt. Lý Hạ đề cập, anh muốn trải nghiệm tính năng AI của Siri trên Mac trong nước, cần sửa đổi một số tham số số seri cấp hệ thống, Fable 5 đã trực tiếp từ chối thao tác. Hiện tại, bộ phân loại được thiết lập khá bảo thủ, tồn tại phán đoán sai, bên chính thức cho biết sẽ tiếp tục điều chỉnh sau.
Nhưng Anthropic còn tiết lộ một lớp hạn chế khác, đối với các yêu cầu liên quan đến phát triển mô hình lớn, như xây dựng pipeline huấn luyện trước, thiết kế hạ tầng huấn luyện phân tán, mô hình sẽ chủ động giảm chất lượng đầu ra ở hậu trường, và sẽ không thông báo cho người dùng.
Tổng hợp lại, Fable 5 thực sự có tiến bộ trên các chỉ số cứng, nhưng cơ chế tự động giáng cấp ở một mức độ nhất định sẽ ảnh hưởng đến trải nghiệm sử dụng.
02. Mô hình mạnh nhất, không phải ai cũng dùng được
Lần nâng cấp mô hình này của Anthropic, sử dụng cùng một mô hình nền tảng, đóng gói thành hai sản phẩm, hướng đến hai nhóm đối tượng.
Mythos 5 được giữ lại trong khuôn khổ Dự án Glasswing, chỉ mở cửa cho 12 đối tác an ninh cốt lõi như Apple, Google, Microsoft và hơn 40 nhà cung cấp hạ tầng quan trọng, các hạn chế về an ninh mạng và sinh học được gỡ bỏ. Fable 5 thì hướng đến người dùng đăng ký C-end.
Về sau, Anthropic còn có kế hoạch mở một kênh tin cậy về hướng sinh học cho các nhà nghiên cứu đã được thẩm định, cung cấp phiên bản Fable 5 đã loại bỏ các hạn chế về sinh học và hóa học.
Điều này liên quan đến vấn đề mà ngành công nghiệp mô hình lớn trước đây chưa từng đối mặt: khi năng lực mô hình đủ mạnh để tự động phát hiện lỗ hổng, việc phát hành toàn bộ sẽ trở thành một rủi ro.
Nguồn ảnh / pexels
Điều này giải thích tại sao Fable 5 và Mythos 5 phải tách thành hai phiên bản. Trước đây, phân cấp mô hình dựa vào tham số, sự khác biệt giữa lớn và nhỏ là khoảng cách năng lực; còn hiện nay, mô hình cùng tham số cũng phải phân cấp, phân chia ngưỡng tin cậy.
Triển Ba, một nhà phát triển độc lập, cho rằng từ góc độ an ninh, logic này rất hợp lý. Năng lực khai thác lỗ hổng cấp độ Mythos nếu được mở cửa không hạn chế cho cá nhân, sẽ làm giảm mạnh chi phí tấn công, dễ bị lạm dụng cho các cuộc tấn công độc hại. Khóa lại trước, sau đó từng bước mở cửa truy cập tin cậy, là con đường thận trọng nhất hiện nay.
Nhưng an ninh chỉ giải thích tại sao phải phân tầng. Một vấn đề khác là, những người dùng phổ thông có thể dùng Fable 5, có phải tất cả đều được hưởng lợi từ nó không?
Xét từ điểm benchmark và các trường hợp mà Anthropic phát hành, vòng nâng cấp này, ưu tiên phục vụ lập trình viên và đội ngũ kỹ thuật.
Triển Ba đã sử dụng Fable 5 để hỗ trợ tối ưu hóa dự án ngôn ngữ thông dịch do anh viết bằng Rust. Trong cùng ngữ cảnh dịch vụ Web, anh đã so sánh nó với FastAPI dựa trên Python và Hono dựa trên Node.js. Sử dụng Fable 5, bộ thông dịch chiếm dụng bộ nhớ chỉ 9.8MB, trong khi FastAPI và Hono lần lượt là 43.3MB và 63.0MB, các chỉ số về thông lượng và độ trễ cũng dẫn đầu.
Anh cho rằng cùng một nhiệm vụ, dùng Fable 5 có thể hoàn thành rất nhanh, và hiệu quả tốt hơn. So với giá cả, nhà phát triển càng coi trọng chất lượng sản phẩm đầu ra. Chỉ cần mô hình có thể nâng cao đáng kể hiệu quả dự án, giá cao là có thể chấp nhận được.
Lý Hạ cũng đề cập, đối với lập trình viên, chất lượng tạo ra của mô hình có liên quan tích cực đến thu nhập. Chất lượng đầu ra càng cao, hiệu quả tăng năng suất càng rõ ràng, lợi nhuận càng lớn. Việc nâng cấp năng lực mô hình có thể quy đổi trực tiếp thành chất lượng dự án và tiết kiệm thời gian, ý muốn trả tiền tự nhiên sẽ mạnh hơn.
Nhưng nếu thay đổi một ngữ cảnh sử dụng, kết luận sẽ không giống.
Blogger AI Từ Tử Long lấy việc sử dụng hàng ngày của anh làm ví dụ, công việc hàng ngày của anh được chia thành viết mã, phân tích dữ liệu và viết luận văn. Anh cho rằng hiện nay năng lực mã của các mô hình lớn là dư thừa, còn năng lực văn bản thì chưa đủ. Đối với các nhóm như nhà nghiên cứu khoa học, người sáng tạo nội dung, người làm trong lĩnh vực pháp luật và tài chính, nhu cầu cốt lõi đối với AI tập trung vào khả năng hiểu tiếng Trung, viết văn bản dài và xử lý tài liệu.
Triển Ba đề cập, xu hướng hiện nay không phải người dùng chọn mô hình, mà là mô hình đang chọn người dùng. Người dùng nặng về lập trình được sàng lọc bởi các mô hình cao cấp, người dùng nhẹ hàng ngày bị đẩy sang các sản phẩm thay thế có tính cạnh tranh hơn về giá. Điều này cho thấy, AI không còn là một công cụ phổ cập, mà là một lớp một lớp sàng lọc ra những người dùng có khả năng chi trả và cường độ sử dụng khác nhau.
Ngay cả mô hình mạnh nhất, cũng phải nằm trong tay người có nhu cầu thì mới xứng đáng giá trị.
03. Thời đại không dùng nổi AI, sắp đến rồi sao?
Định giá API của Fable 5 là đầu vào 10 USD, đầu ra 50 USD trên triệu Token, gấp đôi Opus 4.8, và cũng là đắt nhất trong số các mô hình tiên phong có thể truy cập công khai toàn cầu hiện nay.
So sánh giá API của các mô hình lớn chủ lưu
Nhưng điều đáng chú ý thực sự không phải là giá tăng gấp đôi, mà là cách thức thanh toán đã thay đổi.
Sau khi Fable 5 ra mắt, người dùng đăng ký các gói như Pro, Max, Team có thể sử dụng miễn phí trong hai tuần. Từ ngày 23/6, mô hình sẽ bị loại khỏi các gói đăng ký, muốn tiếp tục sử dụng cần mua thêm credits, thanh toán theo mức phí API. Sử dụng Fable 5 trong thời gian đăng ký, lượng tiêu thụ cũng gấp đôi Opus 4.8.
Dùng thử miễn phí trước rồi mới loại khỏi gói đăng ký, cũng là phát đi một tín hiệu, đẩy người dùng từ phí cố định hàng tháng sang thanh toán theo lượng dùng. Lợi ích của chế độ đăng ký là tính xác định, người dùng biết mỗi tháng tiêu bao nhiêu tiền; thanh toán theo lượng có lợi hơn cho nền tảng, dùng nhiều thu nhiều, giới hạn chi tiêu của người dùng được mở ra. Nói thẳng ra, Anthropic muốn nói với người dùng: thứ tiên tiến nhất, vốn dĩ không nên là bao trọn gói hàng tháng.
Thời điểm xảy ra sự thay đổi này cũng đáng chú ý. Ngày 1/6, Anthropic vừa nộp bản cáo bạch IPO bí mật cho SEC, định giá đạt 9650 tỷ USD, mục tiêu sớm nhất là niêm yết vào tháng 10 năm nay. Từ đầu năm đến cuối tháng 5, doanh thu theo năm của Anthropic tăng từ 90 tỷ USD lên 470 tỷ USD, trong đó Claude Code đóng góp hơn 2,5 tỷ USD, khách hàng doanh nghiệp đóng góp phần lớn doanh thu.
Một công ty sắp niêm yết, cần chứng minh cho thị trường vốn khả năng tăng trưởng doanh thu và quyền định giá. Tách mô hình mạnh nhất ra khỏi gói đăng ký cố định, hướng dẫn người dùng giá trị cao thanh toán theo lượng dùng, xét về mặt kể chuyện tài chính thì logic là thông suốt.
Trong khi đó, các mô hình trong nước đang làm điều hoàn toàn ngược lại.
Cuối tháng 5, DeepSeek thông báo giảm vĩnh viễn 75% giá API V4-Pro. Xiaomi theo sát ngay sau đó, MiMo-V2.5-Pro giảm tới 99%, giá gần như ngang bằng DeepSeek.
Một bên là DeepSeek đẩy giá xuống sàn, một bên là Anthropic nâng trần lên, các người chơi khác nhau có cách đánh khác nhau.
Việc giảm giá của các mô hình trong nước một mặt là sự giải phóng lợi nhuận công nghệ, kiến trúc nền tảng đã thay đổi, không gian tiết kiệm được dùng để đổi lấy thị trường lớn hơn.
Logic của Anthropic lại hoàn toàn ngược lại. Họ không cần dựa vào giá thấp để tranh thị trường, bản thân giá cao cũng là bộ lọc, giữ lại những người dùng giá trị cao sẵn sàng trả tiền cho năng lực tiên phong.
Từ Tử Long cho rằng tương lai AI sẽ ngày càng đắt đỏ, bởi vì sự mở rộng nhu cầu vượt xa sự mở rộng cung cấp, năng lực tính toán liên quan đến điện, chip, huấn luyện mô hình, tốc độ tăng trưởng quá chậm. Năng lực tính toán AI tương lai sẽ giống như 5G trở thành hạ tầng cơ sở, nhưng khác với 5G, cung cấp năng lực tính toán căng thẳng hơn nhiều so với băng thông, vì vậy giá cả cũng tăng tương ứng.
Xét về mô hình kinh doanh, ngành công nghiệp AI đang xuất hiện cấu trúc phân tầng tương tự như thời kỳ đầu của điện toán đám mây. Tầng dưới là năng lực tổng quát được tiêu chuẩn hóa cao, giá tiệm cận bằng không, ai cũng có thể gọi, kiếm tiền dựa vào lượng; tầng trên là năng lực tiên phong do một số ít nhà cung cấp nắm giữ, quyền định giá tập trung, kiếm tiền dựa vào đơn giá khách hàng. Giá của năng lực tổng quát sẽ tiếp tục bị đẩy xuống, nhưng chênh lệch giá của năng lực tiên phong sẽ tồn tại lâu dài.
Từ phân cấp năng lực đến phân tầng thanh toán, ngành công nghiệp AI đang sao chép con đường mà điện toán đám mây đã đi qua. Mô hình rẻ ngày càng nhiều, mô hình tốt nhất ngày càng đắt.
*Theo yêu cầu của người được phỏng vấn, Lý Hạ trong bài là tên giả.
Bài viết này từ tài khoản công chúng WeChat "AIX Tài chính", tác giả: Lôi Tinh, biên tập: Kim Du Phan









