Tin Nóng, Claude 5 Phiên Bản 'Kẻ Làm Thuê' Đã Xuất Hiện, Ai Cũng Có Thể Dùng

marsbitXuất bản vào 2026-07-01Cập nhật gần nhất vào 2026-07-01

Tóm tắt

Ngay lập tức, Claude Sonnet 5 (biệt danh Fennec) đã chính thức ra mắt, trở thành mô hình mặc định mới cho tất cả người dùng miễn phí và Pro. Được Anthropic mô tả là phiên bản Sonnet mạnh mẽ nhất về khả năng Agent từ trước đến nay, Sonnet 5 có hiệu suất tiệm cận với flagship Opus 4.8. Mô hình này có thể lập kế hoạch tự động, sử dụng công cụ trình duyệt và terminal. So với Sonnet 4.6, nó cho thấy sự cải thiện vượt trội về lập luận, sử dụng công cụ, lập trình và các nhiệm vụ tri thức. **Điểm nổi bật về hiệu suất:** - SWE-bench Pro: 63.2%, vượt GPT-5.5 (58.6%) và gần bằng Opus 4.8 (69.2%). - Humanity's Last Exam: 57.4%, chỉ kém Opus 4.8 0.5 điểm. - Terminal-Bench 2.1: 80.4%, tăng 13 điểm so với thế hệ trước. - Trong nhiều bài kiểm tra, Sonnet 5 đạt 90-100% hiệu suất của Opus 4.8. **Giá cả hấp dẫn:** - Khuyến mãi giới hạn đến 31/8: Đầu vào 2 USD/triệu token, đầu ra 10 USD/triệu token. - Sau đó, giá tiêu chuẩn là 3 USD (vào) và 15 USD (ra), chỉ bằng 60% giá Opus 4.8. - Lưu ý: Tokenizer mới có thể khiến số token đầu vào tăng 1.0-1.35 lần. **Bảo mật vượt trội:** - Tỷ lệ thành công tấn công prompt injection chỉ 0.19%, ngang bằng Opus 4.8. - Phòng thủ browser injection: 0.93%, vượt trội so với Mythos 5 (29.7%) và Opus 4.8 (31.5%). - Tỷ lệ tấn công mã độc giảm từ 45.26% (Sonnet 4.6) xuống còn 0.29%. Tóm lại, Claude Sonnet 5 định vị chính xác ở phân khúc trung cấp, cung cấp hiệu suất gần bằng flagship với mức giá phải chăng hơn nhiều, trở thành lựa chọn "công cụ ...

Vừa mới đây, Claude Sonnet 5 đã chính thức ra mắt!

Biệt danh Fennec, loài cáo tai to, loài cáo nhỏ nhất ở sa mạc Sahara.

Đây là mô hình Sonnet có khả năng Agent mạnh nhất từ trước đến nay của Anthropic, và hiệu suất vươn tầm mô hình đầu bảng Opus 4.8.

Từ hôm nay, Sonnet 5 trở thành mô hình mặc định cho tất cả người dùng Free và Pro.

Nó có thể tự lập kế hoạch, sử dụng công cụ trình duyệt và terminal.

Chỉ vài tháng trước, việc này còn cần phải gọi tới các mô hình siêu lớn với chi phí cao, nhưng giờ đây, Sonnet đã dễ dàng đạt được.

So với thế hệ trước Sonnet 4.6, Sonnet 5 có hiệu suất được cải thiện đáng kể trong các nhiệm vụ suy luận, sử dụng công cụ, lập trình và công việc tri thức.

Điểm nhấn:

Điểm SWE-bench Pro đạt 63.2%, vượt qua GPT-5.5 (58.6%), chỉ kém Opus 4.8 một chút (69.2%)

Điểm "Bài kiểm tra cuối cùng của nhân loại" là 57.4%, chỉ thua Opus 4.8 đúng 0.5 điểm phần trăm

Giá tiêu chuẩn $3/triệu token đầu vào và $15/triệu token đầu ra, chỉ bằng 60% so với Opus 4.8

Tỉ lệ phòng thủ tiêm nhiễm trình duyệt 0.93%, đánh bại Mythos 5 và Opus 4.8

Điều thú vị là, Fable 5 cũng được tiết lộ sẽ trở lại trong cùng ngày. Nhưng cái giá là xác minh danh tính bắt buộc, và rất có thể chỉ dành cho người dùng Mỹ.

Trong khi đó, Sonnet 5 lại chủ trương không giữ lại gì cả, người dùng toàn cầu hôm nay có thể thoải mái sử dụng.

Áp sát Opus 4.8 trên mọi mặt trận, AI 'kẻ làm thuê' mạnh nhất đột kích

Lần này, việc Sonnet 5 đột ngột ra mắt cũng được coi là để lấp đầy nỗi thất vọng vì không dùng được Fable 5.

Đối với nhiều nhà phát triển, năm khởi đầu của kỷ nguyên Agent, chính là bắt đầu từ Sonnet.

Claude Sonnet 3.5, 3.6, 3.7, là những mô hình đầu tiên thể hiện khả năng đáng kinh ngạc trong việc viết mã và sử dụng công cụ.

Nói cách khác, việc "để AI tự làm việc" đã được thực hiện sớm nhất bởi dòng Sonnet "cỡ vừa".

Nhưng hơn một năm qua, những bước nhảy vọt mạnh mẽ nhất đều tập trung vào dòng Opus "cỡ lớn". Sonnet, bị bỏ lại phía sau bởi các mô hình đầu bảng.

Nhiệm vụ của Sonnet5 là thu hẹp khoảng cách đó!

Anthropic định hướng một câu — Claude Sonnet 5 là Sonnet "làm việc" giỏi nhất trong lịch sử.

Xét về thành tích thực chiến, điều này được thể hiện rõ nhất.

Trong lĩnh vực lập trình - thế mạnh truyền thống, Sonnet 5 đạt 63.2% trên SWE-bench Pro. Trong khi đó, Sonnet 4.6 thế hệ trước chỉ đạt 58.1%, còn Opus 4.8 dẫn đầu tạm thời với 69.2%.

Ngược lại, đối thủ cũ OpenAI với mô hình đầu bảng GPT-5.5 trên cùng bảng xếp hạng chỉ đạt 58.6%, còn Gemini 3.5 Flash của Google cũng chỉ có 55.1%.

Terminal-Bench 2.1 còn ấn tượng hơn, Sonnet 5 vọt lên 80.4%, vứt xa Sonnet 4.6 chỉ có 67.0% đến tận 13 điểm phần trăm. Chỉ kém Opus 4.8 (82.7%) chưa đầy 2 điểm.

Trên bài kiểm tra đa ngành được mệnh danh là "Bài kiểm tra cuối cùng của nhân loại" (Humanity's Last Exam), Sonnet 5 với công cụ đạt 57.4%, Opus 4.8 là 57.9%, chỉ chênh 0.5 điểm. GPT-5.5 trong cùng bài kiểm tra chỉ có 52.2%, Gemini 3.1 Pro là 51.4%.

Về khả năng điều khiển máy tính, điểm số của Sonnet 5 trên OSWorld-Verified là 81.2%, cũng vượt qua GPT-5.5 (78.7%) và áp sát Opus 4.8 (83.4%).

Điều bất ngờ hơn là trong công việc tri thức, Sonnet 5 thậm chí còn đạt 1618 điểm trên GDPval-AA v2, vượt thẳng qua Opus 4.8 (1615).

Trong các thể hiện về tìm kiếm tác nhân thông minh và sử dụng công cụ, Sonnet 5 có thể cung cấp khả năng ngang tầm Opus 4.8 với chi phí thấp nhất.

Có thể nói, hầu như mọi benchmark, Sonnet 5 đều nằm trong khoảng từ 90% đến 100% so với Opus 4.8.

Xứng đáng là bỏ tiền mua Sonnet, được 90% bộ não của Opus.

Khuyến mãi giới hạn $2, nhưng giấu một cái bẫy lớn

Giá cả, mới là "chiêu thức tử thần" lần này.

Về định giá API, Anthropic đưa ra chương trình khuyến mãi giới hạn: Đầu vào $2/triệu tokens, đầu ra $10/triệu tokens.

Sau ngày 31/8, sẽ khôi phục giá gốc là $3 đầu vào và $15 đầu ra.

Trong khi đó, Opus 4.8 là $5 và $25, GPT-5.5 bản tiêu chuẩn là $5 và $30.

Trong thời gian khuyến mãi, giá đầu vào và đầu ra chỉ bằng 40% so với Opus 4.8. Sau khi khôi phục giá tiêu chuẩn cũng chỉ bằng 60%.

Tuy nhiên, mặc dù bề ngoài tỏ ra đầy thiện chí, Anthropic vẫn giấu những toan tính nhỏ trong chi tiết.

Lý do là Sonnet 5 đã đổi sang bộ tokenizer hoàn toàn mới, cùng một đoạn đầu vào thì số lượng token có thể tăng lên từ 1.0 đến 1.35 lần.

Đợi hết thời gian khuyến mãi, giá gốc $3/$15 cộng thêm hiệu ứng phình tokenizer, chi phí thực tế bỏ ra chắc chắn sẽ đau hơn một chút so với dùng Sonnet 4.6.

Nhưng ngay cả như vậy, so với Opus vẫn là một khoảng cách áp đảo.

Phản kích toàn bộ dòng đầu bảng của gia tộc

System Card ẩn chứa khía cạnh bị đánh giá thấp nhất của Sonnet 5.

Tỷ lệ thành công của tấn công tiêm nhiễm gợi ý là 0.19%, ngang bằng với Opus 4.8. GPT-5.5 là 3.08%, Gemini 3.5 Flash là 6.66%.

Về phòng thủ tiêm nhiễm trình duyệt, tỷ lệ tấn công thành công chỉ là 0.93%, trong khi Mythos 5 là 29.7%, Opus 4.8 là 31.5%.

Mô hình tầm trung $2, phản kích toàn bộ dòng đầu bảng của gia tộc, sau khi bật biện pháp bảo vệ trực tiếp giảm xuống 0%.

Về tiêm nhiễm mã độc, tỷ lệ tấn công thành công của Sonnet 4.6 cao tới 45.26%, Sonnet 5 giảm xuống còn 0.29%, cải thiện 150 lần.

Trong bài kiểm tra khai thác lỗ hổng Firefox 147, Mythos 5 có thể viết được 88.4% exploit khả dụng, Opus 4.8 là 8.8%, Sonnet 5 là 0.0%. Có thể viết mã nghiệp vụ đỉnh cao, nhưng không viết nổi một chương trình khai thác lỗ hổng khả dụng.

Tác dụng phụ là điểm đánh giá hành vi không phù hợp là 2.53 (trên 10), tốt hơn so với 2.89 của Sonnet 4.6, nhưng cao hơn 2.10 của Opus 4.8 và 1.95 của Mythos Preview.

Mạnh hơn, cũng trở nên có chính kiến hơn.

Không tranh vương miện, chuyên chém vào phân khúc trung

Sonnet 5 đứng ở một vị trí cực kỳ chính xác, khả năng hướng lên áp sát Opus 4.8 và GPT-5.5, giá cả hướng xuống gần với phân khúc Gemini 3.5 Flash.

OpenAI vừa tăng gấp đôi giá so với thế hệ trước, Anthropic lập tức ép giá nhập môn của Sonnet 5 xuống còn $3.

Những nhà phát triển đang do dự có nên trả tiền cho mô hình đầu bảng hay không, giờ đây đã có một lựa chọn thay thế sát thủ.

Khi tất cả mọi người đều nhắm vào đỉnh cao để đánh, Anthropic đã bắn một phát vào phân khúc trung.

Ví của nhà phát triển, tối nay đã bỏ phiếu trước

Ngày nay, hiệu suất của Sonnet 5 đã bước vào vùng đầu bảng, hầu hết các công việc sửa lỗi, bổ sung kiểm thử, tái cấu trúc đều có thể giải quyết một lần.

Sự lúng túng trước đây vì Opus quá đắt không nỡ dùng, Sonnet lại không đủ tốt, hôm nay đã biến mất.

Về giá cả thì còn hợp lý hơn. Cùng một ngân sách trước đây chỉ chạy được một Agent hạng Opus, giờ có thể chạy hai đến ba Sonnet song song.

Ngưỡng chi phí cho kiến trúc đa Agent, đã bị Sonnet 5 đạp đổ.

Fable 5 rốt cuộc bao giờ mới trở lại vẫn là một ẩn số.

Nhưng Sonnet 5 lúc này đã đứng vững vàng ở đây, hiệu suất trực tiếp đẩy đến ngưỡng cửa của Opus.

Đối với đại đa số nhà phát triển, nó chính là Claude mạnh nhất và dùng tốt nhất trong tầm tay, trong một khoảng thời gian dài sắp tới.

Tài liệu tham khảo:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

Bài viết từ tài khoản công chúng WeChat "Tân Trí Nguyên" (新智元), tác giả: ASI Khải Thị Lục

Câu hỏi Liên quan

QClaude Sonnet 5 có những cải tiến đáng kể nào về khả năng và hiệu suất so với phiên bản trước?

AClaude Sonnet 5 thể hiện sự cải thiện đáng kể trên nhiều lĩnh vực so với Sonnet 4.6. Về lập trình, điểm số SWE-bench Pro tăng từ 58.1% lên 63.2%. Khả năng sử dụng terminal (Terminal-Bench 2.1) tăng vọt từ 67.0% lên 80.4%. Trong các tác vụ tri thức (GDPval-AA v2), Sonnet 5 đạt 1618 điểm, thậm chí vượt qua cả Opus 4.8 (1615 điểm). Đặc biệt, đây là mô hình Sonnet có khả năng Agent mạnh nhất từ trước đến nay, có thể tự lập kế hoạch và sử dụng các công cụ như trình duyệt và terminal.

QGiá của Claude Sonnet 5 được định như thế nào và có gì đáng chú ý?

AClaude Sonnet 5 có mức giá khuyến mãi giới hạn thời gian: đầu vào 2 USD/triệu token và đầu ra 10 USD/triệu token, có hiệu lực đến ngày 31/8. Sau đó, giá sẽ trở về mức tiêu chuẩn là 3 USD (đầu vào) và 15 USD (đầu ra). So với Opus 4.8 (5 USD/25 USD) và GPT-5.5 tiêu chuẩn (5 USD/30 USD), Sonnet 5 rẻ hơn đáng kể. Tuy nhiên, cần lưu ý rằng Sonnet 5 sử dụng tokenizer mới có thể khiến số lượng token cho cùng một đầu vào tăng từ 1.0 đến 1.35 lần, điều này có thể ảnh hưởng đến chi phí thực tế sau khuyến mãi.

QClaude Sonnet 5 thể hiện ra sao về mặt bảo mật và chống tấn công?

ASonnet 5 có khả năng bảo mật vượt trội. Tỷ lệ thành công của tấn công prompt injection chỉ là 0.19%, ngang bằng với Opus 4.8 và thấp hơn nhiều so với GPT-5.5 (3.08%) hay Gemini 3.5 Flash (6.66%). Trong phòng thủ injection trình duyệt, tỷ lệ tấn công thành công chỉ là 0.93%, trong khi Mythos 5 là 29.7% và Opus 4.8 là 31.5%. Về injection mã độc, tỷ lệ thành công giảm mạnh từ 45.26% (Sonnet 4.6) xuống còn 0.29%. Trong bài kiểm tra khai thác lỗ hổng Firefox 147, Sonnet 5 không tạo ra được exploit nào khả dụng (0.0%).

QVị trí cạnh tranh của Claude Sonnet 5 trên thị trường AI là gì?

ASonnet 5 được định vị ở một vị trí chiến lược rất chính xác. Về hiệu năng, nó tiệm cận với các mô hình flagship như Opus 4.8 và GPT-5.5 (đạt 90-100% hiệu suất của Opus 4.8 trên nhiều bài benchmark). Về giá cả, nó lại gần với các mô hình tầm trung như Gemini 3.5 Flash, đặc biệt trong giai đoạn khuyến mãi. Điều này khiến nó trở thành lựa chọn cực kỳ hấp dẫn cho các nhà phát triển muốn có hiệu suất gần flagship nhưng với mức giá phải chăng hơn, nhắm trực tiếp vào phân khúc thị trường trung cấp.

QSự ra mắt của Claude Sonnet 5 có ý nghĩa gì đối với cộng đồng nhà phát triển?

AViệc ra mắt Claude Sonnet 5 có ý nghĩa lớn với cộng đồng phát triển. Nó xóa bỏ tình trạng khó xử khi Opus quá đắt còn Sonnet cũ chưa đủ mạnh. Giờ đây, với hiệu suất gần ngang Opus và giá thành hợp lý hơn, các nhà phát triển có một công cụ mạnh mẽ, thiết thực cho các tác vụ như sửa lỗi, bổ sung kiểm thử, tái cấu trúc code. Hơn nữa, chi phí thấp hơn giúp hạ thấp ngưỡng triển khai kiến trúc đa Agent (multi-Agent), cho phép chạy song song nhiều Agent với cùng ngân sách trước đây chỉ dành cho một Agent cấp Opus. Sonnet 5 được kỳ vọng sẽ là Claude mạnh mẽ và hữu ích nhất trong thời gian tới cho đa số nhà phát triển.

Nội dung Liên quan

Bitcoin ở mức 62 nghìn USD: Tại sao CoinShares cảnh báo ‘đây vẫn có vẻ là giai đoạn đầu của quá trình chạm đáy’

Bitcoin (BTC) đã hồi phục lên mức khoảng 62.500 USD sau khi lao dốc kéo dài, chủ yếu nhờ phản ứng thị trường trước báo cáo việc làm Mỹ tháng 6 yếu hơn dự kiến. Điều này khiến kỳ vọng về việc Fed tăng lãi suất trong ngắn hạn giảm xuống, dẫn đến lợi tức trái phiếu giảm và thúc đẩy dòng tiền chuyển hướng sang các tài sản rủi ro hơn như tiền mã hóa. Tuy nhiên, CoinShares cảnh báo đây chỉ là phản ứng tạm thời. Cục Dự trữ Liên bang (Fed) vẫn giữ lập trường thiên hướng "diều hâu" và dự báo lãi suất cuối năm 2026 cao hơn. Ngoài ra, thị trường vẫn đối mặt với nhiều thách thức như áp lực bán từ các "cá voi" (dù đã phần nào giảm bớt), dòng tiền ròng rút khỏi các sản phẩm ETF Bitcoin để chuyển sang các quỹ ETF tập trung vào AI, bất ổn địa chính trị và áp lực nguồn cung tiềm tàng. CoinShares kết luận rằng đây trông giống như giai đoạn đầu của quá trình chạm đáy hơn là khởi đầu cho một đợt tăng giá mới mạnh mẽ. Dù lãi suất mở (Open Interest) đang có xu hướng tăng lên, cho thấy các nhà giao dịch vẫn tiếp tục mở vị thế, nhưng điều này cũng làm tăng đòn bẩy và nguy cơ xảy ra các đợt thanh lọc có thể khuếch đại biến động giá tiếp theo của Bitcoin.

ambcrypto38 phút trước

Bitcoin ở mức 62 nghìn USD: Tại sao CoinShares cảnh báo ‘đây vẫn có vẻ là giai đoạn đầu của quá trình chạm đáy’

ambcrypto38 phút trước

Giao dịch

Giao ngay
活动图片