Только что Anthropic официально представил новую модель Claude Sonnet 5, назвав её «наиболее агентной на сегодняшний день моделью семейства Sonnet», способной строить планы, использовать такие инструменты, как браузер, терминал, и работать автономно на уровне, который несколько месяцев назад требовал более крупных и дорогих моделей.
Sonnet 5 демонстрирует значительное улучшение производительности по сравнению с Sonnet 4.6 в рассуждениях, использовании инструментов, программировании и интеллектуальной работе, приближаясь к Opus 4.8, но по более низкой цене.

По заявлению компании, для разработчиков эпоха ИИ-агентов началась именно с моделей уровня Sonnet: Claude Sonnet 3.5, 3.6 и 3.7 были одними из первых моделей, продемонстрировавших впечатляющие способности в программировании и использовании инструментов. Однако в последнее время наиболее заметный прогресс в агентских возможностях наблюдался в основном в моделях уровня Opus.
Claude Sonnet 5 значительно сократил этот разрыв: его производительность уже близка к Opus 4.8, но цена ниже. По сравнению с предыдущим поколением Sonnet 4.6, он демонстрирует значительный прогресс в ключевых для агентской производительности аспектах: рассуждениях, использовании инструментов, программировании и интеллектуальной работе. Конкретное сравнение показано на диаграмме ниже:

На диаграмме ниже сравнивается производительность Sonnet 5, Sonnet 4.6 и Opus 4.8 в агентском поисковом бенчмарке BrowseComp и бенчмарке использования компьютера OSWorld-Verified при разном уровне "усилий":
- Sonnet 5 (оранжевая линия) демонстрирует четкое преимущество в производительности по сравнению с Sonnet 4.6 (серая линия) и охватывает более широкий диапазон опций по соотношению стоимость-производительность, чем Opus 4.8 (желтая линия).
- При среднем уровне усилий Sonnet 5 значительно повышает эффективность затрат; при более высоком уровне усилий его производительность в некоторых задачах может быть сопоставима с Opus 4.8.
- Между Sonnet 5 и Opus 4.8 пользователи могут гибко регулировать уровень усилий в зависимости от конкретной задачи, находя оптимальный баланс стоимости и производительности для своих нужд.

Кривая соотношения стоимости и производительности при разных уровнях усилий показана на диаграмме выше. Предыдущая лучшая модель Sonnet (Sonnet 4.6) значительно уступала Opus 4.8. Sonnet 5 предлагает более широкий выбор по соотношению стоимость-производительность, чем Sonnet 4.6, а в некоторых случаях может достигать уровня возможностей Opus 4.8. На диаграмме показана цена Sonnet 5: $3 за миллион входных токенов, $15 за миллион выходных токенов. Благодаря специальной стартовой цене (до 31 августа 2026 года) — $2 за миллион входных токенов и $10 за миллион выходных токенов — фактическая стоимость использования Sonnet 5 даже ниже, чем показано на диаграмме. Цена Opus 4.8 составляет $5 за миллион входных токенов и $25 за миллион выходных токенов.

Отзывы ранних партнеров Anthropic по программе доступа были единодушны: Sonnet 5 обладает более выраженными автономными агентскими способностями (агентностью), чем его предшественник. Тестировщики описывают, что он может выполнять сложные задачи, на которых предыдущие модели Sonnet останавливались на полпути; он самостоятельно проверяет свои выходные данные без явных указаний; и все эти агентские задачи он выполняет по очень привлекательной цене:

Оценка безопасности
Предварительная оценка безопасности, проведенная Anthropic перед развертыванием, показала, что Sonnet 5 в целом стал безопаснее по сравнению с Sonnet 4.6. В области безопасности автономных агентов эта модель лучше противостоит вредоносным запросам и попыткам захвата при атаках внедрением в промпт. Уровень галлюцинаций и склонность к подобострастию у модели ниже, чем у Sonnet 4.6. В автоматизированном аудите поведения (который тестирует широкий спектр неподобающего поведения, такого как содействие злоупотреблениям и обману) Sonnet 5 получил более низкий балл (т.е. является более безопасным).
Однако по сравнению с более мощными моделями Opus 4.8 и Claude Mythos Preview он действительно демонстрирует несколько более высокий уровень неподобающего поведения в этой оценке.

На диаграмме выше показан уровень неподобающего поведения в автоматизированном аудите поведения, который тестирует широкий спектр неподобающих действий в различных контекстах и ситуациях (полный список и результаты по каждому действию см. в разделе 6.4 системной карты Sonnet 5). Общий уровень неподобающего поведения у Sonnet 5 ниже, чем у Sonnet 4.6, но выше, чем у Mythos Preview и Opus 4.8.
Anthropic заявляет, что они целенаправленно не обучали Sonnet 5 задачам кибербезопасности. Он может выполнять некоторые обычные, безвредные сетевые задачи, но в оценке потенциально опасных сетевых навыков (таких как разработка эксплойтов для уязвимостей программного обеспечения) его результаты значительно уступают моделям Opus 4.8 и Mythos 5.
На диаграмме ниже показаны результаты одной из таких оценок, тестирующей способность модели разрабатывать эксплойты для уязвимостей браузера Firefox. Sonnet 5 неизменно не смог разработать полноценный рабочий эксплойт, но его частичная успешность была несколько выше, чем у Sonnet 4.6. Улучшение у последнего, вероятно, связано с общим повышением интеллекта, а не с целевым обучением.

На диаграмме выше показаны результаты оценки способности моделей успешно разрабатывать эксплойты для уязвимостей программного обеспечения в Firefox 147 (эта оценка была разработана совместно с Mozilla; все уязвимости были исправлены в Firefox 148). Для каждой модели левый столбец показывает частоту, с которой модель (без ограничений безопасности) разрабатывала рабочий эксплойт, правый столбец показывает частоту частичного успеха. Обе модели Sonnet не смогли успешно разработать рабочий эксплойт (результат 0.0%); у Sonnet 5 частота частичного успеха была немного выше, чем у Sonnet 4.6. Сетевые возможности обеих моделей Sonnet значительно слабее, чем у Opus 4.8 и Mythos 5.
Поскольку Sonnet 5 в этих задачах стал немного лучше своего предшественника, Anthropic по умолчанию активировал ограничения безопасности для кибербезопасности. Эти ограничения, способные в реальном времени обнаруживать и блокировать опасное сетевое использование, идентичны тем, что используются в Claude Opus 4.7 и 4.8 (поскольку Anthropic считает, что общий риск для кибербезопасности у Sonnet 5 низкий, строгость его ограничений ниже, чем у активированных для Fable 5 — последние блокируют более широкий спектр задач кибербезопасности).
Полный отчет Anthropic по оценке безопасности и возможностей Sonnet 5 в многочисленных тестах доступен в документе «Системная карта Claude Sonnet 5».
Ценообразование
Начиная с сегодняшнего дня, Claude Sonnet 5 официально доступен на всех каналах. В честь запуска Anthropic предлагает ограниченную по времени стартовую цену:
- С сегодняшнего дня до 31 августа 2026 года: входные данные — $2 за миллион токенов, выходные данные — $10 за миллион токенов.
- После этого будет действовать стандартное ценообразование: входные данные — $3 за миллион токенов, выходные данные — $15 за миллион токенов.
Одновременно компания объявила о повсеместном повышении лимитов скорости (rate limits) для Chat, Cowork, Claude Code и платформы Claude, чтобы адаптироваться к большему расходу токенов, вызванному режимами с более высоким уровнем "усилий".
Примечания
Верификация кибербезопасности
Sonnet 5 включен в программу Anthropic «Верификация кибербезопасности». Эта программа уже доступна для использования на следующих платформах:
- Нативная платформа Claude
- Платформа Claude на AWS
- Claude в Microsoft Foundry (размещено на Azure и Anthropic)
Поддержка в Claude на Google Vertex появится в ближайшее время.
Организации, уже участвующие в этой программе, автоматически получают аналогичный доступ к Sonnet 5 без необходимости повторной подачи заявки. Если для вашей работы в области кибербезопасности требуются менее строгие ограничения безопасности, Anthropic рекомендует использовать Claude Opus 4.8.
Обновление токенизатора и пояснения по ценообразованию
Sonnet 5 является улучшенной версией Sonnet 4.6, но использует новый токенизатор для оптимизации производительности обработки текста (это изменение аналогично внедренному в Claude Opus 4.7).
Изменение заключается в следующем: теперь один и тот же входной текст будет преобразовываться в большее количество токенов, примерно в 1.0–1.35 раза больше, в зависимости от типа контента.
Именно поэтому Anthropic установил стартовую цену, чтобы общие затраты пользователей при переходе на Sonnet 5 остались примерно на том же уровне.
Пояснения по корректировке лимитов скорости
Еще 26 апреля 2026 года Anthropic уже повысил лимиты скорости для моделей Sonnet и Haiku на всех уровнях использования и упростил тарифные планы нативной платформы Claude до трех уровней: Start, Build, Scale.
В этом обновлении Anthropic дополнительно повысил лимиты скорости для Chat, Cowork, Claude Code и платформы Claude, чтобы соответствовать большему расходу токенов, вызванному режимами с более высоким уровнем "усилий".
Вы можете просмотреть свой текущий уровень и конкретные ограничения в Claude Console или ознакомиться с документацией для получения дополнительной информации.
Пояснения по исправлению оценок бенчмарков (дополнение)
- Humanity’s Last Exam: Anthropic обновил модель оценки для этого бенчмарка и, соответственно, скорректировал результат Sonnet 4.6 до 34.6% (без инструментов) и 46.8% (с инструментами). Поэтому эти данные отличаются от тех, что были указаны в блоге о выпуске Sonnet 4.6, о чем и сообщается.
- OSWorld-Verified: Anthropic оптимизировал метод запуска этого бенчмарка, чтобы он более точно отражал реальную производительность моделей, и скорректировал результат Sonnet 4.6 до 78.5%. Это также причина расхождения этих данных с информацией из блога о выпуске Sonnet 4.6.
Отзывы разработчиков, опробовавших модель
Сразу после выпуска Claude Sonnet 5 разработчики уже начали его тестирование.
Пользователь Nicolas Bustamante отметил, что ему нравится в Sonnet 5 то, что он работает быстро и оптимизирован для работы в качестве агента. «Мой любимый пример — использование браузера: быстро и безопасно.»
Согласно результатам системной карты, частота успешных атак с внедрением в промпт при использовании браузера составляет всего 0.93% для Sonnet 5, в то время как для Opus 4.8 — 31.5%, а для Sonnet 4.6 — 50.7%.

Однако некоторые пользователи заявляют: «Слишком дорого.»

Согласно анализу Artificial Analysis, в индексе Intelligence стоимость выполнения одной задачи Claude Sonnet 5 составляет 2.29 доллара, что примерно в 2 раза выше, чем у Sonnet 4.6, и примерно на 15% выше, чем у Claude Opus 4.8. Этот рост затрат полностью обусловлен увеличением потребления токенов, что делает Claude Sonnet 5 одной из самых дорогих в эксплуатации моделей, уступая только Claude Fable 5.

А как вы думаете? Поделитесь своим мнением о новой модели в комментариях!
Ссылки:
https://x.com/claudeai/status/2072017450611142835
https://www.anthropic.com/news/claude-sonnet-5
https://x.com/ArtificialAnlys/status/2072062595482456431
Эта статья взята из официального аккаунта WeChat «Сердце машины» (ID: almosthuman2014), автор: «Следящий за ИИ».





