Vừa mới đây, Claude Sonnet 5 đã chính thức ra mắt!
Biệt danh Fennec, loài cáo tai to, loài cáo nhỏ nhất ở sa mạc Sahara.
Đây là mô hình Sonnet có khả năng Agent mạnh nhất từ trước đến nay của Anthropic, và hiệu suất vươn tầm mô hình đầu bảng Opus 4.8.
Từ hôm nay, Sonnet 5 trở thành mô hình mặc định cho tất cả người dùng Free và Pro.


Nó có thể tự lập kế hoạch, sử dụng công cụ trình duyệt và terminal.
Chỉ vài tháng trước, việc này còn cần phải gọi tới các mô hình siêu lớn với chi phí cao, nhưng giờ đây, Sonnet đã dễ dàng đạt được.
So với thế hệ trước Sonnet 4.6, Sonnet 5 có hiệu suất được cải thiện đáng kể trong các nhiệm vụ suy luận, sử dụng công cụ, lập trình và công việc tri thức.
Điểm nhấn:
Điểm SWE-bench Pro đạt 63.2%, vượt qua GPT-5.5 (58.6%), chỉ kém Opus 4.8 một chút (69.2%)
Điểm "Bài kiểm tra cuối cùng của nhân loại" là 57.4%, chỉ thua Opus 4.8 đúng 0.5 điểm phần trăm
Giá tiêu chuẩn $3/triệu token đầu vào và $15/triệu token đầu ra, chỉ bằng 60% so với Opus 4.8
Tỉ lệ phòng thủ tiêm nhiễm trình duyệt 0.93%, đánh bại Mythos 5 và Opus 4.8

Điều thú vị là, Fable 5 cũng được tiết lộ sẽ trở lại trong cùng ngày. Nhưng cái giá là xác minh danh tính bắt buộc, và rất có thể chỉ dành cho người dùng Mỹ.
Trong khi đó, Sonnet 5 lại chủ trương không giữ lại gì cả, người dùng toàn cầu hôm nay có thể thoải mái sử dụng.

Áp sát Opus 4.8 trên mọi mặt trận, AI 'kẻ làm thuê' mạnh nhất đột kích
Lần này, việc Sonnet 5 đột ngột ra mắt cũng được coi là để lấp đầy nỗi thất vọng vì không dùng được Fable 5.
Đối với nhiều nhà phát triển, năm khởi đầu của kỷ nguyên Agent, chính là bắt đầu từ Sonnet.
Claude Sonnet 3.5, 3.6, 3.7, là những mô hình đầu tiên thể hiện khả năng đáng kinh ngạc trong việc viết mã và sử dụng công cụ.
Nói cách khác, việc "để AI tự làm việc" đã được thực hiện sớm nhất bởi dòng Sonnet "cỡ vừa".
Nhưng hơn một năm qua, những bước nhảy vọt mạnh mẽ nhất đều tập trung vào dòng Opus "cỡ lớn". Sonnet, bị bỏ lại phía sau bởi các mô hình đầu bảng.
Nhiệm vụ của Sonnet5 là thu hẹp khoảng cách đó!
Anthropic định hướng một câu — Claude Sonnet 5 là Sonnet "làm việc" giỏi nhất trong lịch sử.
Xét về thành tích thực chiến, điều này được thể hiện rõ nhất.

Trong lĩnh vực lập trình - thế mạnh truyền thống, Sonnet 5 đạt 63.2% trên SWE-bench Pro. Trong khi đó, Sonnet 4.6 thế hệ trước chỉ đạt 58.1%, còn Opus 4.8 dẫn đầu tạm thời với 69.2%.
Ngược lại, đối thủ cũ OpenAI với mô hình đầu bảng GPT-5.5 trên cùng bảng xếp hạng chỉ đạt 58.6%, còn Gemini 3.5 Flash của Google cũng chỉ có 55.1%.
Terminal-Bench 2.1 còn ấn tượng hơn, Sonnet 5 vọt lên 80.4%, vứt xa Sonnet 4.6 chỉ có 67.0% đến tận 13 điểm phần trăm. Chỉ kém Opus 4.8 (82.7%) chưa đầy 2 điểm.
Trên bài kiểm tra đa ngành được mệnh danh là "Bài kiểm tra cuối cùng của nhân loại" (Humanity's Last Exam), Sonnet 5 với công cụ đạt 57.4%, Opus 4.8 là 57.9%, chỉ chênh 0.5 điểm. GPT-5.5 trong cùng bài kiểm tra chỉ có 52.2%, Gemini 3.1 Pro là 51.4%.
Về khả năng điều khiển máy tính, điểm số của Sonnet 5 trên OSWorld-Verified là 81.2%, cũng vượt qua GPT-5.5 (78.7%) và áp sát Opus 4.8 (83.4%).
Điều bất ngờ hơn là trong công việc tri thức, Sonnet 5 thậm chí còn đạt 1618 điểm trên GDPval-AA v2, vượt thẳng qua Opus 4.8 (1615).
Trong các thể hiện về tìm kiếm tác nhân thông minh và sử dụng công cụ, Sonnet 5 có thể cung cấp khả năng ngang tầm Opus 4.8 với chi phí thấp nhất.


Có thể nói, hầu như mọi benchmark, Sonnet 5 đều nằm trong khoảng từ 90% đến 100% so với Opus 4.8.
Xứng đáng là bỏ tiền mua Sonnet, được 90% bộ não của Opus.
Khuyến mãi giới hạn $2, nhưng giấu một cái bẫy lớn
Giá cả, mới là "chiêu thức tử thần" lần này.
Về định giá API, Anthropic đưa ra chương trình khuyến mãi giới hạn: Đầu vào $2/triệu tokens, đầu ra $10/triệu tokens.
Sau ngày 31/8, sẽ khôi phục giá gốc là $3 đầu vào và $15 đầu ra.
Trong khi đó, Opus 4.8 là $5 và $25, GPT-5.5 bản tiêu chuẩn là $5 và $30.
Trong thời gian khuyến mãi, giá đầu vào và đầu ra chỉ bằng 40% so với Opus 4.8. Sau khi khôi phục giá tiêu chuẩn cũng chỉ bằng 60%.

Tuy nhiên, mặc dù bề ngoài tỏ ra đầy thiện chí, Anthropic vẫn giấu những toan tính nhỏ trong chi tiết.
Lý do là Sonnet 5 đã đổi sang bộ tokenizer hoàn toàn mới, cùng một đoạn đầu vào thì số lượng token có thể tăng lên từ 1.0 đến 1.35 lần.
Đợi hết thời gian khuyến mãi, giá gốc $3/$15 cộng thêm hiệu ứng phình tokenizer, chi phí thực tế bỏ ra chắc chắn sẽ đau hơn một chút so với dùng Sonnet 4.6.
Nhưng ngay cả như vậy, so với Opus vẫn là một khoảng cách áp đảo.
Phản kích toàn bộ dòng đầu bảng của gia tộc
System Card ẩn chứa khía cạnh bị đánh giá thấp nhất của Sonnet 5.
Tỷ lệ thành công của tấn công tiêm nhiễm gợi ý là 0.19%, ngang bằng với Opus 4.8. GPT-5.5 là 3.08%, Gemini 3.5 Flash là 6.66%.

Về phòng thủ tiêm nhiễm trình duyệt, tỷ lệ tấn công thành công chỉ là 0.93%, trong khi Mythos 5 là 29.7%, Opus 4.8 là 31.5%.
Mô hình tầm trung $2, phản kích toàn bộ dòng đầu bảng của gia tộc, sau khi bật biện pháp bảo vệ trực tiếp giảm xuống 0%.
Về tiêm nhiễm mã độc, tỷ lệ tấn công thành công của Sonnet 4.6 cao tới 45.26%, Sonnet 5 giảm xuống còn 0.29%, cải thiện 150 lần.
Trong bài kiểm tra khai thác lỗ hổng Firefox 147, Mythos 5 có thể viết được 88.4% exploit khả dụng, Opus 4.8 là 8.8%, Sonnet 5 là 0.0%. Có thể viết mã nghiệp vụ đỉnh cao, nhưng không viết nổi một chương trình khai thác lỗ hổng khả dụng.

Tác dụng phụ là điểm đánh giá hành vi không phù hợp là 2.53 (trên 10), tốt hơn so với 2.89 của Sonnet 4.6, nhưng cao hơn 2.10 của Opus 4.8 và 1.95 của Mythos Preview.
Mạnh hơn, cũng trở nên có chính kiến hơn.

Không tranh vương miện, chuyên chém vào phân khúc trung
Sonnet 5 đứng ở một vị trí cực kỳ chính xác, khả năng hướng lên áp sát Opus 4.8 và GPT-5.5, giá cả hướng xuống gần với phân khúc Gemini 3.5 Flash.
OpenAI vừa tăng gấp đôi giá so với thế hệ trước, Anthropic lập tức ép giá nhập môn của Sonnet 5 xuống còn $3.
Những nhà phát triển đang do dự có nên trả tiền cho mô hình đầu bảng hay không, giờ đây đã có một lựa chọn thay thế sát thủ.
Khi tất cả mọi người đều nhắm vào đỉnh cao để đánh, Anthropic đã bắn một phát vào phân khúc trung.
Ví của nhà phát triển, tối nay đã bỏ phiếu trước
Ngày nay, hiệu suất của Sonnet 5 đã bước vào vùng đầu bảng, hầu hết các công việc sửa lỗi, bổ sung kiểm thử, tái cấu trúc đều có thể giải quyết một lần.
Sự lúng túng trước đây vì Opus quá đắt không nỡ dùng, Sonnet lại không đủ tốt, hôm nay đã biến mất.
Về giá cả thì còn hợp lý hơn. Cùng một ngân sách trước đây chỉ chạy được một Agent hạng Opus, giờ có thể chạy hai đến ba Sonnet song song.
Ngưỡng chi phí cho kiến trúc đa Agent, đã bị Sonnet 5 đạp đổ.
Fable 5 rốt cuộc bao giờ mới trở lại vẫn là một ẩn số.
Nhưng Sonnet 5 lúc này đã đứng vững vàng ở đây, hiệu suất trực tiếp đẩy đến ngưỡng cửa của Opus.
Đối với đại đa số nhà phát triển, nó chính là Claude mạnh nhất và dùng tốt nhất trong tầm tay, trong một khoảng thời gian dài sắp tới.
Tài liệu tham khảo:
https://x.com/claudeai/status/2072017450611142835
https://www.anthropic.com/news/claude-sonnet-5
Bài viết từ tài khoản công chúng WeChat "Tân Trí Nguyên" (新智元), tác giả: ASI Khải Thị Lục





