Только что вышел Claude Sonnet 5!
Кодовое имя Fennec, фенек — самая маленькая лисица в пустыне Сахара.
Это самая мощная модель Sonnet от Anthropic на сегодняшний день с точки зрения возможностей агента, и её производительность приближается к флагманской Opus 4.8.
Начиная с сегодняшнего дня, Sonnet 5 становится моделью по умолчанию для всех пользователей Free и Pro.


Он умеет автономно планировать, использовать инструменты браузера и терминала.
Ещё несколько месяцев назад для этого требовалось дорого вызывать огромные модели, а теперь Sonnet легко с этим справляется.
По сравнению с предыдущим поколением Sonnet 4.6, производительность Sonnet 5 в задачах логического мышления, использования инструментов, программирования и работы со знаниями значительно улучшилась.
Ключевые моменты:
SWE-bench Pro: 63.2%, опережает GPT-5.5 (58.6%), немного уступает Opus 4.8 (69.2%)
«Последний экзамен человечества»: 57.4%, всего на 0.5 процентных пункта меньше, чем у Opus 4.8
Стандартная цена: $3 за 1 млн токенов ввода / $15 за вывод, что составляет лишь 60% от цены Opus 4.8
Защита от инъекций в браузер: 0.93%, превосходит Mythos 5 и Opus 4.8

Интересно, что Fable 5 в тот же день объявили о скором возвращении. Но ценой стала обязательная верификация по имени, и, вероятно, она будет доступна только пользователям из США.
А Sonnet 5 позиционируется как полностью открытая, сегодня же доступная для пользователей по всему миру.

Достигает уровня Opus 4.8 по всем фронтам, сильнейший рабочий ИИ наносит удар
Внезапный выпуск Sonnet 5 в какой-то мере восполняет разочарование от недоступности Fable 5.
Для многих разработчиков год агентов начался именно с Sonnet.
Claude Sonnet 3.5, 3.6, 3.7 были одними из первых моделей, проявивших невероятные способности в написании кода и использовании инструментов.
Другими словами, идея «заставить ИИ работать самостоятельно» впервые была успешно реализована именно в линейке «средней чашки» Sonnet.
Но за последний год самые значительные скачки в возможностях происходили в флагманской линии «большой чашки» Opus. Sonnet остался позади.
Sonnet 5 ставит цель наверстать это отставание!
Anthropic одним предложением даёт установку — Claude Sonnet 5 — самый «работоспособный» Sonnet в истории.
Это лучше всего подтверждают практические результаты.

В традиционно сильной области программирования Sonnet 5 набирает 63.2% на SWE-bench Pro. В то время как предыдущее поколение Sonnet 4.6 показывает лишь 58.1%, а Opus 4.8 пока лидирует с 69.2%.
Для сравнения, флагманский продукт старого конкурента OpenAI, GPT-5.5, на том же тесте набирает лишь 58.6%, а Gemini 3.5 Flash от Google — 55.1%.
На Terminal-Bench 2.1 показатели ещё более впечатляющие: Sonnet 5 сразу выходит на 80.4%, сильно отрываясь от Sonnet 4.6 (67.0%) на целых 13 процентных пунктов. До Opus 4.8 (82.7%) остаётся менее 2 пунктов.
На междисциплинарном тесте логики «Последний экзамен человечества» Sonnet 5 с инструментами набирает 57.4%, Opus 4.8 — 57.9%, разница всего 0.5 процентных пункта. GPT-5.5 в том же тесте показывает 52.2%, Gemini 3.1 Pro — 51.4%.
В области управления компьютером Sonnet 5 набирает 81.2% на OSWorld-Verified, также опережая GPT-5.5 (78.7%) и приближаясь к Opus 4.8 (83.4%).
Что ещё более неожиданно, в области работы со знаниями Sonnet 5 набирает 1618 баллов на GDPval-AA v2, обгоняя Opus 4.8 (1615).
В поиске агентов и использовании инструментов Sonnet 5 предоставляет возможности уровня Opus 4.8 при минимальной стоимости.


Можно сказать, что практически по каждому бенчмарку результат Sonnet 5 попадает в интервал от 90% до 100% от результата Opus 4.8.
По сути, это покупка 90% мозга Opus за деньги Sonnet.
Временная акция за $2, но с большой ловушкой
Цена — это настоящий «козырь» на этот раз.
Что касается API-ценообразования, Anthropic предлагает ограниченную по времени акцию: 2 доллара за 1 миллион токенов на входе, 10 долларов за 1 миллион токенов на выходе.
После 31 августа вернётся исходная цена: 3 доллара за ввод и 15 долларов за вывод.
Для сравнения, у Opus 4.8 это 5 и 25 долларов, у стандартной версии GPT-5.5 — 5 и 30 долларов.
В период акции цена на ввод и вывод составляет лишь 40% от цены Opus 4.8. После восстановления стандартной цены — 60%.

Однако, хотя Anthropic демонстрирует внешнюю искренность, в деталях скрываются хитрости.
Дело в том, что Sonnet 5 использует совершенно новый токенизатор, и количество токенов для одного и того же входного фрагмента может увеличиться в 1.0–1.35 раза.
Когда акционный период закончится, исходная цена в $3/$15 в сочетании с эффектом расширения токенизатора обязательно ударит по кошельку сильнее, чем при использовании Sonnet 4.6.
Но даже в этом случае разница по сравнению с Opus остаётся огромной.
Обратный разгром всех флагманов семейства
В System Card скрыта самая недооценённая сторона Sonnet 5.
Успешность атак с внедрением подсказок — 0.19%, на уровне Opus 4.8. У GPT-5.5 — 3.08%, у Gemini 3.5 Flash — 6.66%.

В защите от инъекций в браузер успешность атак составляет всего 0.93%, в то время как у Mythos 5 — 29.7%, у Opus 4.8 — 31.5%.
Средняя модель за $2 разгромила всех флагманов семейства, а при включении защитных мер этот показатель падает до 0%.
В области внедрения вредоносного кода успешность атак на Sonnet 4.6 достигала 45.26%, а у Sonnet 5 снизилась до 0.29%, что в 150 раз лучше.
В тесте на эксплуатацию уязвимости Firefox 147, Mythos 5 способен написать 88.4% работоспособных эксплойтов, Opus 4.8 — 8.8%, Sonnet 5 — 0.0%. Может писать первоклассный бизнес-код, но не может написать ни одного работоспособного эксплойта.

Побочный эффект — оценка несогласованного поведения 2.53 (из 10), что лучше, чем у Sonnet 4.6 (2.89), но выше, чем у Opus 4.8 (2.10) и Mythos Preview (1.95).
Стал сильнее, но и стал более самостоятельным.

Не борется за корону, а нацелен на середину
Sonnet 5 занимает чрезвычайно точную позицию: его возможности приближаются к Opus 4.8 и GPT-5.5, а цена — к уровню Gemini 3.5 Flash.
OpenAI только что удвоила цены по сравнению с предыдущим поколением, а Anthropic тут же снижает стартовую цену Sonnet 5 до 3 долларов.
Теперь у разработчиков, которые ранее сомневались, стоит ли платить за флагман, появился смертоносный вариант для замены.
Пока все смотрят на вершину, Anthropic стреляет по средней части.
Кошельки разработчиков сегодня уже проголосовали
Сегодня производительность Sonnet 5 уже вошла в диапазон флагманских моделей, и большинство задач по исправлению багов, дополнению тестов и рефакторингу могут быть выполнены за один раз.
Неловкая ситуация, когда Opus казался слишком дорогим, а Sonnet — недостаточно хорошим, сегодня исчезла.
С точки зрения цены, это выгоднее. На тот же бюджет, на который раньше можно было запустить одного агента уровня Opus, теперь можно запустить два или три параллельных агента Sonnet.
Порог стоимости архитектуры с несколькими агентами был резко снижен Sonnet 5.
Неизвестно, когда именно Fable 5 триумфально вернётся.
Но Sonnet 5 уже прочно стоит здесь и сейчас, а его производительность подошла прямо к порогу Opus.
Для подавляющего большинства разработчиков он станет самым мощным и удобным в использовании Claude на долгое время вперёд.
Источники:
https://x.com/claudeai/status/2072017450611142835
https://www.anthropic.com/news/claude-sonnet-5
Статья из официального аккаунта WeChat «Новый ИИ», автор: ASI Откровение





