Tin Nóng, Claude 5 Phiên Bản 'Kẻ Làm Thuê' Đã Xuất Hiện, Ai Cũng Có Thể Dùng

marsbitXuất bản vào 2026-07-01Cập nhật gần nhất vào 2026-07-01

Tóm tắt

Ngay lập tức, Claude Sonnet 5 (biệt danh Fennec) đã chính thức ra mắt, trở thành mô hình mặc định mới cho tất cả người dùng miễn phí và Pro. Được Anthropic mô tả là phiên bản Sonnet mạnh mẽ nhất về khả năng Agent từ trước đến nay, Sonnet 5 có hiệu suất tiệm cận với flagship Opus 4.8. Mô hình này có thể lập kế hoạch tự động, sử dụng công cụ trình duyệt và terminal. So với Sonnet 4.6, nó cho thấy sự cải thiện vượt trội về lập luận, sử dụng công cụ, lập trình và các nhiệm vụ tri thức. **Điểm nổi bật về hiệu suất:** - SWE-bench Pro: 63.2%, vượt GPT-5.5 (58.6%) và gần bằng Opus 4.8 (69.2%). - Humanity's Last Exam: 57.4%, chỉ kém Opus 4.8 0.5 điểm. - Terminal-Bench 2.1: 80.4%, tăng 13 điểm so với thế hệ trước. - Trong nhiều bài kiểm tra, Sonnet 5 đạt 90-100% hiệu suất của Opus 4.8. **Giá cả hấp dẫn:** - Khuyến mãi giới hạn đến 31/8: Đầu vào 2 USD/triệu token, đầu ra 10 USD/triệu token. - Sau đó, giá tiêu chuẩn là 3 USD (vào) và 15 USD (ra), chỉ bằng 60% giá Opus 4.8. - Lưu ý: Tokenizer mới có thể khiến số token đầu vào tăng 1.0-1.35 lần. **Bảo mật vượt trội:** - Tỷ lệ thành công tấn công prompt injection chỉ 0.19%, ngang bằng Opus 4.8. - Phòng thủ browser injection: 0.93%, vượt trội so với Mythos 5 (29.7%) và Opus 4.8 (31.5%). - Tỷ lệ tấn công mã độc giảm từ 45.26% (Sonnet 4.6) xuống còn 0.29%. Tóm lại, Claude Sonnet 5 định vị chính xác ở phân khúc trung cấp, cung cấp hiệu suất gần bằng flagship với mức giá phải chăng hơn nhiều, trở thành lựa chọn "công cụ ...

Vừa mới đây, Claude Sonnet 5 đã chính thức ra mắt!

Biệt danh Fennec, loài cáo tai to, loài cáo nhỏ nhất ở sa mạc Sahara.

Đây là mô hình Sonnet có khả năng Agent mạnh nhất từ trước đến nay của Anthropic, và hiệu suất vươn tầm mô hình đầu bảng Opus 4.8.

Từ hôm nay, Sonnet 5 trở thành mô hình mặc định cho tất cả người dùng Free và Pro.

Nó có thể tự lập kế hoạch, sử dụng công cụ trình duyệt và terminal.

Chỉ vài tháng trước, việc này còn cần phải gọi tới các mô hình siêu lớn với chi phí cao, nhưng giờ đây, Sonnet đã dễ dàng đạt được.

So với thế hệ trước Sonnet 4.6, Sonnet 5 có hiệu suất được cải thiện đáng kể trong các nhiệm vụ suy luận, sử dụng công cụ, lập trình và công việc tri thức.

Điểm nhấn:

Điểm SWE-bench Pro đạt 63.2%, vượt qua GPT-5.5 (58.6%), chỉ kém Opus 4.8 một chút (69.2%)

Điểm "Bài kiểm tra cuối cùng của nhân loại" là 57.4%, chỉ thua Opus 4.8 đúng 0.5 điểm phần trăm

Giá tiêu chuẩn $3/triệu token đầu vào và $15/triệu token đầu ra, chỉ bằng 60% so với Opus 4.8

Tỉ lệ phòng thủ tiêm nhiễm trình duyệt 0.93%, đánh bại Mythos 5 và Opus 4.8

Điều thú vị là, Fable 5 cũng được tiết lộ sẽ trở lại trong cùng ngày. Nhưng cái giá là xác minh danh tính bắt buộc, và rất có thể chỉ dành cho người dùng Mỹ.

Trong khi đó, Sonnet 5 lại chủ trương không giữ lại gì cả, người dùng toàn cầu hôm nay có thể thoải mái sử dụng.

Áp sát Opus 4.8 trên mọi mặt trận, AI 'kẻ làm thuê' mạnh nhất đột kích

Lần này, việc Sonnet 5 đột ngột ra mắt cũng được coi là để lấp đầy nỗi thất vọng vì không dùng được Fable 5.

Đối với nhiều nhà phát triển, năm khởi đầu của kỷ nguyên Agent, chính là bắt đầu từ Sonnet.

Claude Sonnet 3.5, 3.6, 3.7, là những mô hình đầu tiên thể hiện khả năng đáng kinh ngạc trong việc viết mã và sử dụng công cụ.

Nói cách khác, việc "để AI tự làm việc" đã được thực hiện sớm nhất bởi dòng Sonnet "cỡ vừa".

Nhưng hơn một năm qua, những bước nhảy vọt mạnh mẽ nhất đều tập trung vào dòng Opus "cỡ lớn". Sonnet, bị bỏ lại phía sau bởi các mô hình đầu bảng.

Nhiệm vụ của Sonnet5 là thu hẹp khoảng cách đó!

Anthropic định hướng một câu — Claude Sonnet 5 là Sonnet "làm việc" giỏi nhất trong lịch sử.

Xét về thành tích thực chiến, điều này được thể hiện rõ nhất.

Trong lĩnh vực lập trình - thế mạnh truyền thống, Sonnet 5 đạt 63.2% trên SWE-bench Pro. Trong khi đó, Sonnet 4.6 thế hệ trước chỉ đạt 58.1%, còn Opus 4.8 dẫn đầu tạm thời với 69.2%.

Ngược lại, đối thủ cũ OpenAI với mô hình đầu bảng GPT-5.5 trên cùng bảng xếp hạng chỉ đạt 58.6%, còn Gemini 3.5 Flash của Google cũng chỉ có 55.1%.

Terminal-Bench 2.1 còn ấn tượng hơn, Sonnet 5 vọt lên 80.4%, vứt xa Sonnet 4.6 chỉ có 67.0% đến tận 13 điểm phần trăm. Chỉ kém Opus 4.8 (82.7%) chưa đầy 2 điểm.

Trên bài kiểm tra đa ngành được mệnh danh là "Bài kiểm tra cuối cùng của nhân loại" (Humanity's Last Exam), Sonnet 5 với công cụ đạt 57.4%, Opus 4.8 là 57.9%, chỉ chênh 0.5 điểm. GPT-5.5 trong cùng bài kiểm tra chỉ có 52.2%, Gemini 3.1 Pro là 51.4%.

Về khả năng điều khiển máy tính, điểm số của Sonnet 5 trên OSWorld-Verified là 81.2%, cũng vượt qua GPT-5.5 (78.7%) và áp sát Opus 4.8 (83.4%).

Điều bất ngờ hơn là trong công việc tri thức, Sonnet 5 thậm chí còn đạt 1618 điểm trên GDPval-AA v2, vượt thẳng qua Opus 4.8 (1615).

Trong các thể hiện về tìm kiếm tác nhân thông minh và sử dụng công cụ, Sonnet 5 có thể cung cấp khả năng ngang tầm Opus 4.8 với chi phí thấp nhất.

Có thể nói, hầu như mọi benchmark, Sonnet 5 đều nằm trong khoảng từ 90% đến 100% so với Opus 4.8.

Xứng đáng là bỏ tiền mua Sonnet, được 90% bộ não của Opus.

Khuyến mãi giới hạn $2, nhưng giấu một cái bẫy lớn

Giá cả, mới là "chiêu thức tử thần" lần này.

Về định giá API, Anthropic đưa ra chương trình khuyến mãi giới hạn: Đầu vào $2/triệu tokens, đầu ra $10/triệu tokens.

Sau ngày 31/8, sẽ khôi phục giá gốc là $3 đầu vào và $15 đầu ra.

Trong khi đó, Opus 4.8 là $5 và $25, GPT-5.5 bản tiêu chuẩn là $5 và $30.

Trong thời gian khuyến mãi, giá đầu vào và đầu ra chỉ bằng 40% so với Opus 4.8. Sau khi khôi phục giá tiêu chuẩn cũng chỉ bằng 60%.

Tuy nhiên, mặc dù bề ngoài tỏ ra đầy thiện chí, Anthropic vẫn giấu những toan tính nhỏ trong chi tiết.

Lý do là Sonnet 5 đã đổi sang bộ tokenizer hoàn toàn mới, cùng một đoạn đầu vào thì số lượng token có thể tăng lên từ 1.0 đến 1.35 lần.

Đợi hết thời gian khuyến mãi, giá gốc $3/$15 cộng thêm hiệu ứng phình tokenizer, chi phí thực tế bỏ ra chắc chắn sẽ đau hơn một chút so với dùng Sonnet 4.6.

Nhưng ngay cả như vậy, so với Opus vẫn là một khoảng cách áp đảo.

Phản kích toàn bộ dòng đầu bảng của gia tộc

System Card ẩn chứa khía cạnh bị đánh giá thấp nhất của Sonnet 5.

Tỷ lệ thành công của tấn công tiêm nhiễm gợi ý là 0.19%, ngang bằng với Opus 4.8. GPT-5.5 là 3.08%, Gemini 3.5 Flash là 6.66%.

Về phòng thủ tiêm nhiễm trình duyệt, tỷ lệ tấn công thành công chỉ là 0.93%, trong khi Mythos 5 là 29.7%, Opus 4.8 là 31.5%.

Mô hình tầm trung $2, phản kích toàn bộ dòng đầu bảng của gia tộc, sau khi bật biện pháp bảo vệ trực tiếp giảm xuống 0%.

Về tiêm nhiễm mã độc, tỷ lệ tấn công thành công của Sonnet 4.6 cao tới 45.26%, Sonnet 5 giảm xuống còn 0.29%, cải thiện 150 lần.

Trong bài kiểm tra khai thác lỗ hổng Firefox 147, Mythos 5 có thể viết được 88.4% exploit khả dụng, Opus 4.8 là 8.8%, Sonnet 5 là 0.0%. Có thể viết mã nghiệp vụ đỉnh cao, nhưng không viết nổi một chương trình khai thác lỗ hổng khả dụng.

Tác dụng phụ là điểm đánh giá hành vi không phù hợp là 2.53 (trên 10), tốt hơn so với 2.89 của Sonnet 4.6, nhưng cao hơn 2.10 của Opus 4.8 và 1.95 của Mythos Preview.

Mạnh hơn, cũng trở nên có chính kiến hơn.

Không tranh vương miện, chuyên chém vào phân khúc trung

Sonnet 5 đứng ở một vị trí cực kỳ chính xác, khả năng hướng lên áp sát Opus 4.8 và GPT-5.5, giá cả hướng xuống gần với phân khúc Gemini 3.5 Flash.

OpenAI vừa tăng gấp đôi giá so với thế hệ trước, Anthropic lập tức ép giá nhập môn của Sonnet 5 xuống còn $3.

Những nhà phát triển đang do dự có nên trả tiền cho mô hình đầu bảng hay không, giờ đây đã có một lựa chọn thay thế sát thủ.

Khi tất cả mọi người đều nhắm vào đỉnh cao để đánh, Anthropic đã bắn một phát vào phân khúc trung.

Ví của nhà phát triển, tối nay đã bỏ phiếu trước

Ngày nay, hiệu suất của Sonnet 5 đã bước vào vùng đầu bảng, hầu hết các công việc sửa lỗi, bổ sung kiểm thử, tái cấu trúc đều có thể giải quyết một lần.

Sự lúng túng trước đây vì Opus quá đắt không nỡ dùng, Sonnet lại không đủ tốt, hôm nay đã biến mất.

Về giá cả thì còn hợp lý hơn. Cùng một ngân sách trước đây chỉ chạy được một Agent hạng Opus, giờ có thể chạy hai đến ba Sonnet song song.

Ngưỡng chi phí cho kiến trúc đa Agent, đã bị Sonnet 5 đạp đổ.

Fable 5 rốt cuộc bao giờ mới trở lại vẫn là một ẩn số.

Nhưng Sonnet 5 lúc này đã đứng vững vàng ở đây, hiệu suất trực tiếp đẩy đến ngưỡng cửa của Opus.

Đối với đại đa số nhà phát triển, nó chính là Claude mạnh nhất và dùng tốt nhất trong tầm tay, trong một khoảng thời gian dài sắp tới.

Tài liệu tham khảo:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

Bài viết từ tài khoản công chúng WeChat "Tân Trí Nguyên" (新智元), tác giả: ASI Khải Thị Lục

Câu hỏi Liên quan

QClaude Sonnet 5 có những cải tiến đáng kể nào về khả năng và hiệu suất so với phiên bản trước?

AClaude Sonnet 5 thể hiện sự cải thiện đáng kể trên nhiều lĩnh vực so với Sonnet 4.6. Về lập trình, điểm số SWE-bench Pro tăng từ 58.1% lên 63.2%. Khả năng sử dụng terminal (Terminal-Bench 2.1) tăng vọt từ 67.0% lên 80.4%. Trong các tác vụ tri thức (GDPval-AA v2), Sonnet 5 đạt 1618 điểm, thậm chí vượt qua cả Opus 4.8 (1615 điểm). Đặc biệt, đây là mô hình Sonnet có khả năng Agent mạnh nhất từ trước đến nay, có thể tự lập kế hoạch và sử dụng các công cụ như trình duyệt và terminal.

QGiá của Claude Sonnet 5 được định như thế nào và có gì đáng chú ý?

AClaude Sonnet 5 có mức giá khuyến mãi giới hạn thời gian: đầu vào 2 USD/triệu token và đầu ra 10 USD/triệu token, có hiệu lực đến ngày 31/8. Sau đó, giá sẽ trở về mức tiêu chuẩn là 3 USD (đầu vào) và 15 USD (đầu ra). So với Opus 4.8 (5 USD/25 USD) và GPT-5.5 tiêu chuẩn (5 USD/30 USD), Sonnet 5 rẻ hơn đáng kể. Tuy nhiên, cần lưu ý rằng Sonnet 5 sử dụng tokenizer mới có thể khiến số lượng token cho cùng một đầu vào tăng từ 1.0 đến 1.35 lần, điều này có thể ảnh hưởng đến chi phí thực tế sau khuyến mãi.

QClaude Sonnet 5 thể hiện ra sao về mặt bảo mật và chống tấn công?

ASonnet 5 có khả năng bảo mật vượt trội. Tỷ lệ thành công của tấn công prompt injection chỉ là 0.19%, ngang bằng với Opus 4.8 và thấp hơn nhiều so với GPT-5.5 (3.08%) hay Gemini 3.5 Flash (6.66%). Trong phòng thủ injection trình duyệt, tỷ lệ tấn công thành công chỉ là 0.93%, trong khi Mythos 5 là 29.7% và Opus 4.8 là 31.5%. Về injection mã độc, tỷ lệ thành công giảm mạnh từ 45.26% (Sonnet 4.6) xuống còn 0.29%. Trong bài kiểm tra khai thác lỗ hổng Firefox 147, Sonnet 5 không tạo ra được exploit nào khả dụng (0.0%).

QVị trí cạnh tranh của Claude Sonnet 5 trên thị trường AI là gì?

ASonnet 5 được định vị ở một vị trí chiến lược rất chính xác. Về hiệu năng, nó tiệm cận với các mô hình flagship như Opus 4.8 và GPT-5.5 (đạt 90-100% hiệu suất của Opus 4.8 trên nhiều bài benchmark). Về giá cả, nó lại gần với các mô hình tầm trung như Gemini 3.5 Flash, đặc biệt trong giai đoạn khuyến mãi. Điều này khiến nó trở thành lựa chọn cực kỳ hấp dẫn cho các nhà phát triển muốn có hiệu suất gần flagship nhưng với mức giá phải chăng hơn, nhắm trực tiếp vào phân khúc thị trường trung cấp.

QSự ra mắt của Claude Sonnet 5 có ý nghĩa gì đối với cộng đồng nhà phát triển?

AViệc ra mắt Claude Sonnet 5 có ý nghĩa lớn với cộng đồng phát triển. Nó xóa bỏ tình trạng khó xử khi Opus quá đắt còn Sonnet cũ chưa đủ mạnh. Giờ đây, với hiệu suất gần ngang Opus và giá thành hợp lý hơn, các nhà phát triển có một công cụ mạnh mẽ, thiết thực cho các tác vụ như sửa lỗi, bổ sung kiểm thử, tái cấu trúc code. Hơn nữa, chi phí thấp hơn giúp hạ thấp ngưỡng triển khai kiến trúc đa Agent (multi-Agent), cho phép chạy song song nhiều Agent với cùng ngân sách trước đây chỉ dành cho một Agent cấp Opus. Sonnet 5 được kỳ vọng sẽ là Claude mạnh mẽ và hữu ích nhất trong thời gian tới cho đa số nhà phát triển.

Nội dung Liên quan

Claude đã có ‘biên chế’ rồi, được Anthropic phát hành

Hôm nay, Anthropic đã chính thức giới thiệu Claude Tag – một thành viên AI cố định trong kênh Slack của nhóm. Khác với trợ lý AI cá nhân thông thường, Claude Tag có "danh tính tác nhân" riêng: tài khoản riêng, bộ nhớ riêng và quyền riêng, không mượn thông tin đăng nhập của bất kỳ người dùng nào. Giải pháp này giải quyết vấn đề phân quyền khi AI trở thành thành viên hợp tác đa người: quyền không còn gắn với cá nhân, mà được cấu hình theo kênh. Ví dụ, trong kênh kỹ thuật, Claude có quyền truy cập kho mã nguồn, cho phép mọi người trong kênh (kể cả người không có quyền trực tiếp) yêu cầu Claude kiểm tra mã. Chế độ "nghe lén" cho phép Claude tự động theo dõi và xử lý các cuộc thảo luận chưa được giải quyết. Tính bảo mật được đảm bảo: danh tính và ngữ cảnh của Claude được phân tách theo kênh, việc thu hồi quyền chỉ cần thao tác trên một danh tính tác nhân. Hiện tại, Claude Tag đang trong giai đoạn beta cho khách hàng doanh nghiệp và nhóm, tính phí theo mức sử dụng. Anthropic cho biết nhóm sản phẩm của họ đã có hơn 80% mã được tạo bởi Claude, nâng cao đáng kể hiệu suất làm việc.

marsbit5 phút trước

Claude đã có ‘biên chế’ rồi, được Anthropic phát hành

marsbit5 phút trước

Thẻ thanh toán bằng tiền mã hóa 1,5 tỷ USD/tháng bị mắc kẹt ở những năm 1990

**Tóm tắt bài viết: "Thẻ thanh toán tiền mã hóa với giao dịch 1,5 tỷ USD mỗi tháng, mắc kẹt trong thập niên 1990"** Tình trạng hiện tại của thẻ thanh toán tiền mã hóa tương tự như thẻ ghi nợ trước thập niên 1990: cả hai đều sử dụng mạng lưới thanh toán hiện có nhưng thiếu mối quan hệ tài chính chủ đạo (như lương tự động, thanh toán định kỳ) xoay quanh tài khoản ngân hàng chính. Quy mô giao dịch thẻ hàng năm đạt khoảng 18 tỷ USD, nhưng một mình RedotPay đã chiếm hơn một nửa thị phần và người dùng tập trung ở các thị trường mới nổi. Thẻ tiền mã hóa hiện chỉ là công cụ bổ sung cho các khu vực thiếu kênh tiếp cận USD, chưa trở thành cơ sở hạ tầng tài chính toàn dân. Tăng trưởng giao dịch đơn thuần không đủ để thiết lập vị thế. Các đối thủ quyết định thị trường cuối cùng sẽ là: nền tảng kiểm soát dòng tiền, nhà cung cấp chiếm lĩnh khu vực chưa được ngân hàng truyền thống phủ sóng, và doanh nghiệp xây dựng mối quan hệ tài khoản cốt lõi hàng ngày trên nền tảng thanh toán cơ bản. Ngành công nghiệp này tập trung cao độ vào cơ sở hạ tầng phát hành thẻ. Các mô hình kinh doanh chính bao gồm: (1) Cơ sở hạ tầng phát hành thẻ; (2) Thẻ đi kèm từ các sàn giao dịch (như một công cụ giữ chân người dùng); (3) Ví phi tập trung (DeFi) - tiện ích nhưng có rào cản kỹ thuật; (4) Ngân hàng số stablecoin - mô hình chiếm thị phần giao dịch lớn nhất, tập trung vào chức năng tài khoản. Chức năng thanh toán đơn thuần khó duy trì phát triển lâu dài. Để tồn tại, người chơi phải: kiểm soát trực tiếp luồng tiền, chiếm lĩnh các thị trường ngách mới nổi và xây dựng hệ thống tài khoản người dùng độc lập không thể thay thế. Nếu không, thẻ tiền mã hóa sẽ chỉ mãi là thẻ nạp tiền trước cho một nhóm nhỏ.

Foresight News21 phút trước

Thẻ thanh toán bằng tiền mã hóa 1,5 tỷ USD/tháng bị mắc kẹt ở những năm 1990

Foresight News21 phút trước

7.8 Tỷ USD Bị Trộm Tiết Lộ Sự Thật: Chi Phí An Ninh Đã Trở Thành 'Thuế Thanh Khoản' Không Thể Tránh Khỏi của DeFi

Bài báo phân tích tình hình an ninh và tổn thất trong lĩnh vực DeFi (Tài chính phi tập trung) trong quý II năm 2026. Dữ liệu từ DeFiLlama cho thấy đã có 88 vụ tấn công được ghi nhận với tổng thiệt hại lên tới 780,3 triệu USD, trong đó các lỗ hổng hợp đồng thông minh là phổ biến nhất, còn các lỗ hổng cơ sở hạ tầng (như cầu nối chuỗi chéo) gây thiệt hại lớn nhất. Bài viết nhấn mạnh rằng tổn thất an ninh giờ đây đã trở thành một loại "thuế thanh khoản" hay chi phí vốn không thể tránh khỏi trong DeFi. Rủi ro không chỉ nằm ở lợi suất mà còn ở toàn bộ con đường lưu chuyển tài sản (cầu nối, oracle, giao diện...). Điều này buộc thị trường phải định giá lại rủi ro: người dùng đòi hỏi bồi thường rủi ro cao hơn, các nền tảng phải tăng chi phí an ninh và bảo hiểm, và thanh khoản có xu hướng dịch chuyển đến các kênh an toàn hơn. Các sự kiện trong quý II được coi như một đợt kiểm tra áp lực liên tục, thay đổi nhận thức từ phân tích sự cố sau khi xảy ra sang tính toán phí bảo hiểm rủi ro từ trước. Độ tin cậy của tuyến đường tài sản trở thành một phần của giao dịch. Để thu hút vốn, các giao thức buộc phải coi đầu tư an ninh (kiểm toán, giám sát, chương trình tiền thưởng lỗ hổng...) như một chi phí phân phối cần thiết. Tóm lại, vấn đề an ninh DeFi không chỉ là lỗ hổng kỹ thuật mà đã phát triển thành một thách thức cấu trúc thị trường, đánh thuế ngầm vào mọi luồng chuyển tài sản và việc tạo ra lợi nhuận trên chuỗi.

Foresight News51 phút trước

7.8 Tỷ USD Bị Trộm Tiết Lộ Sự Thật: Chi Phí An Ninh Đã Trở Thành 'Thuế Thanh Khoản' Không Thể Tránh Khỏi của DeFi

Foresight News51 phút trước

Giao dịch

Giao ngay
活动图片