Tin Nóng, Claude 5 Phiên Bản 'Kẻ Làm Thuê' Đã Xuất Hiện, Ai Cũng Có Thể Dùng

marsbitXuất bản vào 2026-07-01Cập nhật gần nhất vào 2026-07-01

Tóm tắt

Ngay lập tức, Claude Sonnet 5 (biệt danh Fennec) đã chính thức ra mắt, trở thành mô hình mặc định mới cho tất cả người dùng miễn phí và Pro. Được Anthropic mô tả là phiên bản Sonnet mạnh mẽ nhất về khả năng Agent từ trước đến nay, Sonnet 5 có hiệu suất tiệm cận với flagship Opus 4.8. Mô hình này có thể lập kế hoạch tự động, sử dụng công cụ trình duyệt và terminal. So với Sonnet 4.6, nó cho thấy sự cải thiện vượt trội về lập luận, sử dụng công cụ, lập trình và các nhiệm vụ tri thức. **Điểm nổi bật về hiệu suất:** - SWE-bench Pro: 63.2%, vượt GPT-5.5 (58.6%) và gần bằng Opus 4.8 (69.2%). - Humanity's Last Exam: 57.4%, chỉ kém Opus 4.8 0.5 điểm. - Terminal-Bench 2.1: 80.4%, tăng 13 điểm so với thế hệ trước. - Trong nhiều bài kiểm tra, Sonnet 5 đạt 90-100% hiệu suất của Opus 4.8. **Giá cả hấp dẫn:** - Khuyến mãi giới hạn đến 31/8: Đầu vào 2 USD/triệu token, đầu ra 10 USD/triệu token. - Sau đó, giá tiêu chuẩn là 3 USD (vào) và 15 USD (ra), chỉ bằng 60% giá Opus 4.8. - Lưu ý: Tokenizer mới có thể khiến số token đầu vào tăng 1.0-1.35 lần. **Bảo mật vượt trội:** - Tỷ lệ thành công tấn công prompt injection chỉ 0.19%, ngang bằng Opus 4.8. - Phòng thủ browser injection: 0.93%, vượt trội so với Mythos 5 (29.7%) và Opus 4.8 (31.5%). - Tỷ lệ tấn công mã độc giảm từ 45.26% (Sonnet 4.6) xuống còn 0.29%. Tóm lại, Claude Sonnet 5 định vị chính xác ở phân khúc trung cấp, cung cấp hiệu suất gần bằng flagship với mức giá phải chăng hơn nhiều, trở thành lựa chọn "công cụ ...

Vừa mới đây, Claude Sonnet 5 đã chính thức ra mắt!

Biệt danh Fennec, loài cáo tai to, loài cáo nhỏ nhất ở sa mạc Sahara.

Đây là mô hình Sonnet có khả năng Agent mạnh nhất từ trước đến nay của Anthropic, và hiệu suất vươn tầm mô hình đầu bảng Opus 4.8.

Từ hôm nay, Sonnet 5 trở thành mô hình mặc định cho tất cả người dùng Free và Pro.

Nó có thể tự lập kế hoạch, sử dụng công cụ trình duyệt và terminal.

Chỉ vài tháng trước, việc này còn cần phải gọi tới các mô hình siêu lớn với chi phí cao, nhưng giờ đây, Sonnet đã dễ dàng đạt được.

So với thế hệ trước Sonnet 4.6, Sonnet 5 có hiệu suất được cải thiện đáng kể trong các nhiệm vụ suy luận, sử dụng công cụ, lập trình và công việc tri thức.

Điểm nhấn:

Điểm SWE-bench Pro đạt 63.2%, vượt qua GPT-5.5 (58.6%), chỉ kém Opus 4.8 một chút (69.2%)

Điểm "Bài kiểm tra cuối cùng của nhân loại" là 57.4%, chỉ thua Opus 4.8 đúng 0.5 điểm phần trăm

Giá tiêu chuẩn $3/triệu token đầu vào và $15/triệu token đầu ra, chỉ bằng 60% so với Opus 4.8

Tỉ lệ phòng thủ tiêm nhiễm trình duyệt 0.93%, đánh bại Mythos 5 và Opus 4.8

Điều thú vị là, Fable 5 cũng được tiết lộ sẽ trở lại trong cùng ngày. Nhưng cái giá là xác minh danh tính bắt buộc, và rất có thể chỉ dành cho người dùng Mỹ.

Trong khi đó, Sonnet 5 lại chủ trương không giữ lại gì cả, người dùng toàn cầu hôm nay có thể thoải mái sử dụng.

Áp sát Opus 4.8 trên mọi mặt trận, AI 'kẻ làm thuê' mạnh nhất đột kích

Lần này, việc Sonnet 5 đột ngột ra mắt cũng được coi là để lấp đầy nỗi thất vọng vì không dùng được Fable 5.

Đối với nhiều nhà phát triển, năm khởi đầu của kỷ nguyên Agent, chính là bắt đầu từ Sonnet.

Claude Sonnet 3.5, 3.6, 3.7, là những mô hình đầu tiên thể hiện khả năng đáng kinh ngạc trong việc viết mã và sử dụng công cụ.

Nói cách khác, việc "để AI tự làm việc" đã được thực hiện sớm nhất bởi dòng Sonnet "cỡ vừa".

Nhưng hơn một năm qua, những bước nhảy vọt mạnh mẽ nhất đều tập trung vào dòng Opus "cỡ lớn". Sonnet, bị bỏ lại phía sau bởi các mô hình đầu bảng.

Nhiệm vụ của Sonnet5 là thu hẹp khoảng cách đó!

Anthropic định hướng một câu — Claude Sonnet 5 là Sonnet "làm việc" giỏi nhất trong lịch sử.

Xét về thành tích thực chiến, điều này được thể hiện rõ nhất.

Trong lĩnh vực lập trình - thế mạnh truyền thống, Sonnet 5 đạt 63.2% trên SWE-bench Pro. Trong khi đó, Sonnet 4.6 thế hệ trước chỉ đạt 58.1%, còn Opus 4.8 dẫn đầu tạm thời với 69.2%.

Ngược lại, đối thủ cũ OpenAI với mô hình đầu bảng GPT-5.5 trên cùng bảng xếp hạng chỉ đạt 58.6%, còn Gemini 3.5 Flash của Google cũng chỉ có 55.1%.

Terminal-Bench 2.1 còn ấn tượng hơn, Sonnet 5 vọt lên 80.4%, vứt xa Sonnet 4.6 chỉ có 67.0% đến tận 13 điểm phần trăm. Chỉ kém Opus 4.8 (82.7%) chưa đầy 2 điểm.

Trên bài kiểm tra đa ngành được mệnh danh là "Bài kiểm tra cuối cùng của nhân loại" (Humanity's Last Exam), Sonnet 5 với công cụ đạt 57.4%, Opus 4.8 là 57.9%, chỉ chênh 0.5 điểm. GPT-5.5 trong cùng bài kiểm tra chỉ có 52.2%, Gemini 3.1 Pro là 51.4%.

Về khả năng điều khiển máy tính, điểm số của Sonnet 5 trên OSWorld-Verified là 81.2%, cũng vượt qua GPT-5.5 (78.7%) và áp sát Opus 4.8 (83.4%).

Điều bất ngờ hơn là trong công việc tri thức, Sonnet 5 thậm chí còn đạt 1618 điểm trên GDPval-AA v2, vượt thẳng qua Opus 4.8 (1615).

Trong các thể hiện về tìm kiếm tác nhân thông minh và sử dụng công cụ, Sonnet 5 có thể cung cấp khả năng ngang tầm Opus 4.8 với chi phí thấp nhất.

Có thể nói, hầu như mọi benchmark, Sonnet 5 đều nằm trong khoảng từ 90% đến 100% so với Opus 4.8.

Xứng đáng là bỏ tiền mua Sonnet, được 90% bộ não của Opus.

Khuyến mãi giới hạn $2, nhưng giấu một cái bẫy lớn

Giá cả, mới là "chiêu thức tử thần" lần này.

Về định giá API, Anthropic đưa ra chương trình khuyến mãi giới hạn: Đầu vào $2/triệu tokens, đầu ra $10/triệu tokens.

Sau ngày 31/8, sẽ khôi phục giá gốc là $3 đầu vào và $15 đầu ra.

Trong khi đó, Opus 4.8 là $5 và $25, GPT-5.5 bản tiêu chuẩn là $5 và $30.

Trong thời gian khuyến mãi, giá đầu vào và đầu ra chỉ bằng 40% so với Opus 4.8. Sau khi khôi phục giá tiêu chuẩn cũng chỉ bằng 60%.

Tuy nhiên, mặc dù bề ngoài tỏ ra đầy thiện chí, Anthropic vẫn giấu những toan tính nhỏ trong chi tiết.

Lý do là Sonnet 5 đã đổi sang bộ tokenizer hoàn toàn mới, cùng một đoạn đầu vào thì số lượng token có thể tăng lên từ 1.0 đến 1.35 lần.

Đợi hết thời gian khuyến mãi, giá gốc $3/$15 cộng thêm hiệu ứng phình tokenizer, chi phí thực tế bỏ ra chắc chắn sẽ đau hơn một chút so với dùng Sonnet 4.6.

Nhưng ngay cả như vậy, so với Opus vẫn là một khoảng cách áp đảo.

Phản kích toàn bộ dòng đầu bảng của gia tộc

System Card ẩn chứa khía cạnh bị đánh giá thấp nhất của Sonnet 5.

Tỷ lệ thành công của tấn công tiêm nhiễm gợi ý là 0.19%, ngang bằng với Opus 4.8. GPT-5.5 là 3.08%, Gemini 3.5 Flash là 6.66%.

Về phòng thủ tiêm nhiễm trình duyệt, tỷ lệ tấn công thành công chỉ là 0.93%, trong khi Mythos 5 là 29.7%, Opus 4.8 là 31.5%.

Mô hình tầm trung $2, phản kích toàn bộ dòng đầu bảng của gia tộc, sau khi bật biện pháp bảo vệ trực tiếp giảm xuống 0%.

Về tiêm nhiễm mã độc, tỷ lệ tấn công thành công của Sonnet 4.6 cao tới 45.26%, Sonnet 5 giảm xuống còn 0.29%, cải thiện 150 lần.

Trong bài kiểm tra khai thác lỗ hổng Firefox 147, Mythos 5 có thể viết được 88.4% exploit khả dụng, Opus 4.8 là 8.8%, Sonnet 5 là 0.0%. Có thể viết mã nghiệp vụ đỉnh cao, nhưng không viết nổi một chương trình khai thác lỗ hổng khả dụng.

Tác dụng phụ là điểm đánh giá hành vi không phù hợp là 2.53 (trên 10), tốt hơn so với 2.89 của Sonnet 4.6, nhưng cao hơn 2.10 của Opus 4.8 và 1.95 của Mythos Preview.

Mạnh hơn, cũng trở nên có chính kiến hơn.

Không tranh vương miện, chuyên chém vào phân khúc trung

Sonnet 5 đứng ở một vị trí cực kỳ chính xác, khả năng hướng lên áp sát Opus 4.8 và GPT-5.5, giá cả hướng xuống gần với phân khúc Gemini 3.5 Flash.

OpenAI vừa tăng gấp đôi giá so với thế hệ trước, Anthropic lập tức ép giá nhập môn của Sonnet 5 xuống còn $3.

Những nhà phát triển đang do dự có nên trả tiền cho mô hình đầu bảng hay không, giờ đây đã có một lựa chọn thay thế sát thủ.

Khi tất cả mọi người đều nhắm vào đỉnh cao để đánh, Anthropic đã bắn một phát vào phân khúc trung.

Ví của nhà phát triển, tối nay đã bỏ phiếu trước

Ngày nay, hiệu suất của Sonnet 5 đã bước vào vùng đầu bảng, hầu hết các công việc sửa lỗi, bổ sung kiểm thử, tái cấu trúc đều có thể giải quyết một lần.

Sự lúng túng trước đây vì Opus quá đắt không nỡ dùng, Sonnet lại không đủ tốt, hôm nay đã biến mất.

Về giá cả thì còn hợp lý hơn. Cùng một ngân sách trước đây chỉ chạy được một Agent hạng Opus, giờ có thể chạy hai đến ba Sonnet song song.

Ngưỡng chi phí cho kiến trúc đa Agent, đã bị Sonnet 5 đạp đổ.

Fable 5 rốt cuộc bao giờ mới trở lại vẫn là một ẩn số.

Nhưng Sonnet 5 lúc này đã đứng vững vàng ở đây, hiệu suất trực tiếp đẩy đến ngưỡng cửa của Opus.

Đối với đại đa số nhà phát triển, nó chính là Claude mạnh nhất và dùng tốt nhất trong tầm tay, trong một khoảng thời gian dài sắp tới.

Tài liệu tham khảo:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

Bài viết từ tài khoản công chúng WeChat "Tân Trí Nguyên" (新智元), tác giả: ASI Khải Thị Lục

Câu hỏi Liên quan

QClaude Sonnet 5 có những cải tiến đáng kể nào về khả năng và hiệu suất so với phiên bản trước?

AClaude Sonnet 5 thể hiện sự cải thiện đáng kể trên nhiều lĩnh vực so với Sonnet 4.6. Về lập trình, điểm số SWE-bench Pro tăng từ 58.1% lên 63.2%. Khả năng sử dụng terminal (Terminal-Bench 2.1) tăng vọt từ 67.0% lên 80.4%. Trong các tác vụ tri thức (GDPval-AA v2), Sonnet 5 đạt 1618 điểm, thậm chí vượt qua cả Opus 4.8 (1615 điểm). Đặc biệt, đây là mô hình Sonnet có khả năng Agent mạnh nhất từ trước đến nay, có thể tự lập kế hoạch và sử dụng các công cụ như trình duyệt và terminal.

QGiá của Claude Sonnet 5 được định như thế nào và có gì đáng chú ý?

AClaude Sonnet 5 có mức giá khuyến mãi giới hạn thời gian: đầu vào 2 USD/triệu token và đầu ra 10 USD/triệu token, có hiệu lực đến ngày 31/8. Sau đó, giá sẽ trở về mức tiêu chuẩn là 3 USD (đầu vào) và 15 USD (đầu ra). So với Opus 4.8 (5 USD/25 USD) và GPT-5.5 tiêu chuẩn (5 USD/30 USD), Sonnet 5 rẻ hơn đáng kể. Tuy nhiên, cần lưu ý rằng Sonnet 5 sử dụng tokenizer mới có thể khiến số lượng token cho cùng một đầu vào tăng từ 1.0 đến 1.35 lần, điều này có thể ảnh hưởng đến chi phí thực tế sau khuyến mãi.

QClaude Sonnet 5 thể hiện ra sao về mặt bảo mật và chống tấn công?

ASonnet 5 có khả năng bảo mật vượt trội. Tỷ lệ thành công của tấn công prompt injection chỉ là 0.19%, ngang bằng với Opus 4.8 và thấp hơn nhiều so với GPT-5.5 (3.08%) hay Gemini 3.5 Flash (6.66%). Trong phòng thủ injection trình duyệt, tỷ lệ tấn công thành công chỉ là 0.93%, trong khi Mythos 5 là 29.7% và Opus 4.8 là 31.5%. Về injection mã độc, tỷ lệ thành công giảm mạnh từ 45.26% (Sonnet 4.6) xuống còn 0.29%. Trong bài kiểm tra khai thác lỗ hổng Firefox 147, Sonnet 5 không tạo ra được exploit nào khả dụng (0.0%).

QVị trí cạnh tranh của Claude Sonnet 5 trên thị trường AI là gì?

ASonnet 5 được định vị ở một vị trí chiến lược rất chính xác. Về hiệu năng, nó tiệm cận với các mô hình flagship như Opus 4.8 và GPT-5.5 (đạt 90-100% hiệu suất của Opus 4.8 trên nhiều bài benchmark). Về giá cả, nó lại gần với các mô hình tầm trung như Gemini 3.5 Flash, đặc biệt trong giai đoạn khuyến mãi. Điều này khiến nó trở thành lựa chọn cực kỳ hấp dẫn cho các nhà phát triển muốn có hiệu suất gần flagship nhưng với mức giá phải chăng hơn, nhắm trực tiếp vào phân khúc thị trường trung cấp.

QSự ra mắt của Claude Sonnet 5 có ý nghĩa gì đối với cộng đồng nhà phát triển?

AViệc ra mắt Claude Sonnet 5 có ý nghĩa lớn với cộng đồng phát triển. Nó xóa bỏ tình trạng khó xử khi Opus quá đắt còn Sonnet cũ chưa đủ mạnh. Giờ đây, với hiệu suất gần ngang Opus và giá thành hợp lý hơn, các nhà phát triển có một công cụ mạnh mẽ, thiết thực cho các tác vụ như sửa lỗi, bổ sung kiểm thử, tái cấu trúc code. Hơn nữa, chi phí thấp hơn giúp hạ thấp ngưỡng triển khai kiến trúc đa Agent (multi-Agent), cho phép chạy song song nhiều Agent với cùng ngân sách trước đây chỉ dành cho một Agent cấp Opus. Sonnet 5 được kỳ vọng sẽ là Claude mạnh mẽ và hữu ích nhất trong thời gian tới cho đa số nhà phát triển.

Nội dung Liên quan

Nhóm cựu thuộc đội doanh nghiệp của Ethereum Foundation ra mắt Ethereum Institutional

Nhóm từng xây dựng bộ phận quan hệ doanh nghiệp của Ethereum Foundation đã ra mắt Ethereum Institutional, một tổ chức phi lợi nhuận độc lập chuyên thúc đẩy việc áp dụng Ethereum bởi các tổ chức tài chính, bao gồm mạng Lớp 2 và hệ sinh thái rộng hơn. Tổ chức này sẽ đóng vai trò là điểm tiếp xúc trung lập, cung cấp hướng dẫn kỹ thuật và thông tin hệ sinh thái cho các ngân hàng, công ty quản lý tài sản và tổ chức tài chính khác khi họ đưa ra các quyết định dài hạn về token hóa, stablecoin và tài chính trên chuỗi. Ethereum Institutional nhấn mạnh tính trung lập của Ethereum là một lợi thế lớn, đồng thời cho biết họ sẽ mở rộng công việc tiếp cận doanh nghiệp trước đây thông qua năm lĩnh vực trọng tâm: Gắn kết tổ chức, Thông tin tổ chức, Tiếp thị hệ sinh thái Ethereum và ETH, Nghiên cứu nhu cầu ngành, cùng các sự kiện và hội nghị. Tổ chức được hỗ trợ tài chính ban đầu bởi Bitmine, SharpLink và đồng sáng lập Ethereum Joseph Lubin. Việc ra mắt này diễn ra sau đợt tái cấu trúc gần đây của Ethereum Foundation và sự ra đời của Ethlabs, phản ánh nỗ lực mở rộng hệ sinh thái Ethereum thông qua các tổ chức chuyên biệt hoạt động độc lập.

ambcrypto1 giờ trước

Nhóm cựu thuộc đội doanh nghiệp của Ethereum Foundation ra mắt Ethereum Institutional

ambcrypto1 giờ trước

Việc Riot Platforms bán 500 BTC có phải là cảnh báo sớm cho Bitcoin trong quý 3?

Sự chuyển đổi từ khai thác Bitcoin (BTC) sang AI đang nổi lên như một rủi ro ngày càng tăng khi thị trường bước vào quý 3. Gần đây, Riot Platforms đã bán khoảng 500 BTC (trị giá ~30 triệu USD), phản ánh sự thay đổi chiến lược này. Điều đáng chú ý là dù BTC giảm xuống dưới 57.000 USD, cổ phiếu RIOT vẫn tăng mạnh 120% trong quý 2, cho thấy sự tách biệt giữa cổ phiếu thợ đào và giá BTC. Riot đã bán nhiều BTC hơn số khai thác được trong quý trước, làm giảm kho dự trữ xuống còn ~15.680 BTC. Việc bán 500 BTC gần đây tiếp tục mô hình này, cho thấy BTC ngày càng được dùng như nguồn tiền mặt để tài trợ cho các khoản đầu tư vào trung tâm dữ liệu và điện toán AI. Áp lực lên thợ đào đang gia tăng khi giá BTC (~58k USD) thấp hơn chi phí sản xuất ước tính (~78k USD). Dù hashrate (tốc độ băm) phục hồi vào tháng 6, điều này có thể làm giảm phần thưởng khai thác do cạnh tranh khốc liệt hơn. Bối cảnh này thúc đẩy các thợ đào lớn đa dạng hóa sang lĩnh vực AI. Do đó, việc nắm giữ BTC có thể tiếp tục được bán để tài trợ cho chuyển đổi chiến lược, báo hiệu một sự thay đổi cấu trúc trong hành vi của thợ đào trong nửa cuối năm 2026. Vụ bán 500 BTC của Riot có thể là dấu hiệu sớm của xu hướng rộng lớn hơn này.

ambcrypto1 giờ trước

Việc Riot Platforms bán 500 BTC có phải là cảnh báo sớm cho Bitcoin trong quý 3?

ambcrypto1 giờ trước

"Đợt nâng cấp lớn nhất kể từ The Merge"? Glamsterdam ảnh hưởng thế nào đến Ethereum và người dùng thông thường?

Bài viết thảo luận về bản nâng cấp Glamsterdam sắp tới của Ethereum, dự kiến ra mắt mainnet vào nửa cuối năm 2026, được coi là bản nâng cấp lớn nhất kể từ sau The Merge. Trọng tâm của nó là cải thiện hiệu suất L1 thông qua ba thay đổi cốt lõi: 1. **ePBS (Proposer-Builder Separation được mã hóa):** Tích hợp cơ chế PBS trực tiếp vào giao thức, loại bỏ trung gian relay bên ngoài, giúp mở rộng cửa sổ xử lý khối. Điều này tạo điều kiện tăng Gas Limit và dung lượng Blob, hỗ trợ cả L1 và L2. 2. **BALs (Block-Level Access Lists):** Cung cấp một "bản đồ truy cập" trạng thái cho mỗi khối, cho phép xử lý song song một phần các giao dịch không xung đột và tăng tốc độ đồng bộ hóa nút, từ đó nâng cao hiệu suất tổng thể. 3. **Định giá lại Gas (EIP-8037):** Tách biệt chi phí cho tính toán và lưu trữ trạng thái, định giá chính xác hơn dựa trên mức tiêu thụ tài nguyên thực tế. Mục tiêu là kiểm soát sự bùng nổ trạng thái, khiến các hoạt động tạo trạng thái mới có thể đắt hơn, trong khi các giao dịch đơn giản có lợi từ việc tăng dung lượng khối. **Tác động đến người dùng:** Glamsterdam hướng tới việc **giảm và ổn định phí giao dịch** nhờ tăng dung lượng khối, đặc biệt cho các giao dịch đơn giản như chuyển ETH. Ví sẽ dự toán phí chính xác hơn. Tuy nhiên, các hoạt động tạo nhiều trạng thái mới (như triển khai hợp đồng phức tạp) có thể tăng chi phí. Người dùng L2 cũng được hưởng lợi gián tiếp từ dung lượng Blob lớn hơn. Ngoài ra, EIP-7708 sẽ chuẩn hóa nhật ký chuyển ETH, giúp ví và sàn giao dịch theo dõi dòng tiền rõ ràng hơn. **Ý nghĩa cốt lõi:** Glamsterdam không chỉ đơn thuần là mở rộng quy mô. Nó định hình lại cơ sở hạ tầng cốt lõi của Ethereum—từ quy trình sản xuất khối, thực thi giao dịch đến định giá tài nguyên—nhằm mở đường cho việc tăng đáng kể dung lượng mainnet trong khi vẫn cố gắng duy trì khả năng phi tập trung bằng cách giảm áp lực phần cứng lên các nút.

marsbit3 giờ trước

"Đợt nâng cấp lớn nhất kể từ The Merge"? Glamsterdam ảnh hưởng thế nào đến Ethereum và người dùng thông thường?

marsbit3 giờ trước

Giao dịch

Giao ngay
活动图片