Только что Anthropic представил Sonnet 5, производительность близка к Opus 4.8, но не обязательно дешевле

marsbitОпубликовано 2026-07-01Обновлено 2026-07-01

Введение

Только что Anthropic представила новую модель Claude Sonnet 5, назвав её «самой агентной версией Sonnet на сегодняшний день». Модель способна планировать, использовать такие инструменты, как браузер и терминал, и автономно работать на уровне, который ещё несколько месяцев назад требовал более крупных и дорогих моделей. По сравнению с Sonnet 4.6, Sonnet 5 демонстрирует значительный прирост производительности в рассуждениях, использовании инструментов, программировании и интеллектуальной работе, приближаясь к возможностям Opus 4.8, но по более низкой цене. На графиках видно, что Sonnet 5 (оранжевая линия) обеспечивает более широкий диапазон вариантов баланса стоимость-производительность, чем Sonnet 4.6 (серая линия). При среднем уровне «усилий» он значительно повышает экономическую эффективность, а при более высоком — в некоторых задачах может сравниться с Opus 4.8 (жёлтая линия). Ранние пользователи отмечают возросшую автономность и способность выполнять сложные задачи, где предыдущие Sonnet-модели останавливались. В оценках безопасности Sonnet 5 в целом улучшился по сравнению с Sonnet 4.6, демонстрируя более низкий уровень галлюцинаций и менее рискованное поведение, хотя и немного уступает Opus 4.8. Однако анализ затрат от Artificial Analysis показывает, что из-за увеличения расхода токенов стоимость выполнения задачи на Sonnet 5 составляет около $2,29, что примерно в 2 раза дороже Sonnet 4.6 и на 15% дороже Opus 4.8, делая его одной из самых дорогих в эксплуатации моделей...

Только что Anthropic официально представил новую модель Claude Sonnet 5, назвав её «наиболее агентной на сегодняшний день моделью семейства Sonnet», способной строить планы, использовать такие инструменты, как браузер, терминал, и работать автономно на уровне, который несколько месяцев назад требовал более крупных и дорогих моделей.

Sonnet 5 демонстрирует значительное улучшение производительности по сравнению с Sonnet 4.6 в рассуждениях, использовании инструментов, программировании и интеллектуальной работе, приближаясь к Opus 4.8, но по более низкой цене.

По заявлению компании, для разработчиков эпоха ИИ-агентов началась именно с моделей уровня Sonnet: Claude Sonnet 3.5, 3.6 и 3.7 были одними из первых моделей, продемонстрировавших впечатляющие способности в программировании и использовании инструментов. Однако в последнее время наиболее заметный прогресс в агентских возможностях наблюдался в основном в моделях уровня Opus.

Claude Sonnet 5 значительно сократил этот разрыв: его производительность уже близка к Opus 4.8, но цена ниже. По сравнению с предыдущим поколением Sonnet 4.6, он демонстрирует значительный прогресс в ключевых для агентской производительности аспектах: рассуждениях, использовании инструментов, программировании и интеллектуальной работе. Конкретное сравнение показано на диаграмме ниже:

На диаграмме ниже сравнивается производительность Sonnet 5, Sonnet 4.6 и Opus 4.8 в агентском поисковом бенчмарке BrowseComp и бенчмарке использования компьютера OSWorld-Verified при разном уровне "усилий":

  • Sonnet 5 (оранжевая линия) демонстрирует четкое преимущество в производительности по сравнению с Sonnet 4.6 (серая линия) и охватывает более широкий диапазон опций по соотношению стоимость-производительность, чем Opus 4.8 (желтая линия).
  • При среднем уровне усилий Sonnet 5 значительно повышает эффективность затрат; при более высоком уровне усилий его производительность в некоторых задачах может быть сопоставима с Opus 4.8.
  • Между Sonnet 5 и Opus 4.8 пользователи могут гибко регулировать уровень усилий в зависимости от конкретной задачи, находя оптимальный баланс стоимости и производительности для своих нужд.

Кривая соотношения стоимости и производительности при разных уровнях усилий показана на диаграмме выше. Предыдущая лучшая модель Sonnet (Sonnet 4.6) значительно уступала Opus 4.8. Sonnet 5 предлагает более широкий выбор по соотношению стоимость-производительность, чем Sonnet 4.6, а в некоторых случаях может достигать уровня возможностей Opus 4.8. На диаграмме показана цена Sonnet 5: $3 за миллион входных токенов, $15 за миллион выходных токенов. Благодаря специальной стартовой цене (до 31 августа 2026 года) — $2 за миллион входных токенов и $10 за миллион выходных токенов — фактическая стоимость использования Sonnet 5 даже ниже, чем показано на диаграмме. Цена Opus 4.8 составляет $5 за миллион входных токенов и $25 за миллион выходных токенов.

Отзывы ранних партнеров Anthropic по программе доступа были единодушны: Sonnet 5 обладает более выраженными автономными агентскими способностями (агентностью), чем его предшественник. Тестировщики описывают, что он может выполнять сложные задачи, на которых предыдущие модели Sonnet останавливались на полпути; он самостоятельно проверяет свои выходные данные без явных указаний; и все эти агентские задачи он выполняет по очень привлекательной цене:

Оценка безопасности

Предварительная оценка безопасности, проведенная Anthropic перед развертыванием, показала, что Sonnet 5 в целом стал безопаснее по сравнению с Sonnet 4.6. В области безопасности автономных агентов эта модель лучше противостоит вредоносным запросам и попыткам захвата при атаках внедрением в промпт. Уровень галлюцинаций и склонность к подобострастию у модели ниже, чем у Sonnet 4.6. В автоматизированном аудите поведения (который тестирует широкий спектр неподобающего поведения, такого как содействие злоупотреблениям и обману) Sonnet 5 получил более низкий балл (т.е. является более безопасным).

Однако по сравнению с более мощными моделями Opus 4.8 и Claude Mythos Preview он действительно демонстрирует несколько более высокий уровень неподобающего поведения в этой оценке.

На диаграмме выше показан уровень неподобающего поведения в автоматизированном аудите поведения, который тестирует широкий спектр неподобающих действий в различных контекстах и ситуациях (полный список и результаты по каждому действию см. в разделе 6.4 системной карты Sonnet 5). Общий уровень неподобающего поведения у Sonnet 5 ниже, чем у Sonnet 4.6, но выше, чем у Mythos Preview и Opus 4.8.

Anthropic заявляет, что они целенаправленно не обучали Sonnet 5 задачам кибербезопасности. Он может выполнять некоторые обычные, безвредные сетевые задачи, но в оценке потенциально опасных сетевых навыков (таких как разработка эксплойтов для уязвимостей программного обеспечения) его результаты значительно уступают моделям Opus 4.8 и Mythos 5.

На диаграмме ниже показаны результаты одной из таких оценок, тестирующей способность модели разрабатывать эксплойты для уязвимостей браузера Firefox. Sonnet 5 неизменно не смог разработать полноценный рабочий эксплойт, но его частичная успешность была несколько выше, чем у Sonnet 4.6. Улучшение у последнего, вероятно, связано с общим повышением интеллекта, а не с целевым обучением.

На диаграмме выше показаны результаты оценки способности моделей успешно разрабатывать эксплойты для уязвимостей программного обеспечения в Firefox 147 (эта оценка была разработана совместно с Mozilla; все уязвимости были исправлены в Firefox 148). Для каждой модели левый столбец показывает частоту, с которой модель (без ограничений безопасности) разрабатывала рабочий эксплойт, правый столбец показывает частоту частичного успеха. Обе модели Sonnet не смогли успешно разработать рабочий эксплойт (результат 0.0%); у Sonnet 5 частота частичного успеха была немного выше, чем у Sonnet 4.6. Сетевые возможности обеих моделей Sonnet значительно слабее, чем у Opus 4.8 и Mythos 5.

Поскольку Sonnet 5 в этих задачах стал немного лучше своего предшественника, Anthropic по умолчанию активировал ограничения безопасности для кибербезопасности. Эти ограничения, способные в реальном времени обнаруживать и блокировать опасное сетевое использование, идентичны тем, что используются в Claude Opus 4.7 и 4.8 (поскольку Anthropic считает, что общий риск для кибербезопасности у Sonnet 5 низкий, строгость его ограничений ниже, чем у активированных для Fable 5 — последние блокируют более широкий спектр задач кибербезопасности).

Полный отчет Anthropic по оценке безопасности и возможностей Sonnet 5 в многочисленных тестах доступен в документе «Системная карта Claude Sonnet 5».

Ценообразование

Начиная с сегодняшнего дня, Claude Sonnet 5 официально доступен на всех каналах. В честь запуска Anthropic предлагает ограниченную по времени стартовую цену:

  • С сегодняшнего дня до 31 августа 2026 года: входные данные — $2 за миллион токенов, выходные данные — $10 за миллион токенов.
  • После этого будет действовать стандартное ценообразование: входные данные — $3 за миллион токенов, выходные данные — $15 за миллион токенов.

Одновременно компания объявила о повсеместном повышении лимитов скорости (rate limits) для Chat, Cowork, Claude Code и платформы Claude, чтобы адаптироваться к большему расходу токенов, вызванному режимами с более высоким уровнем "усилий".

Примечания

Верификация кибербезопасности

Sonnet 5 включен в программу Anthropic «Верификация кибербезопасности». Эта программа уже доступна для использования на следующих платформах:

  • Нативная платформа Claude
  • Платформа Claude на AWS
  • Claude в Microsoft Foundry (размещено на Azure и Anthropic)

Поддержка в Claude на Google Vertex появится в ближайшее время.

Организации, уже участвующие в этой программе, автоматически получают аналогичный доступ к Sonnet 5 без необходимости повторной подачи заявки. Если для вашей работы в области кибербезопасности требуются менее строгие ограничения безопасности, Anthropic рекомендует использовать Claude Opus 4.8.

Обновление токенизатора и пояснения по ценообразованию

Sonnet 5 является улучшенной версией Sonnet 4.6, но использует новый токенизатор для оптимизации производительности обработки текста (это изменение аналогично внедренному в Claude Opus 4.7).

Изменение заключается в следующем: теперь один и тот же входной текст будет преобразовываться в большее количество токенов, примерно в 1.0–1.35 раза больше, в зависимости от типа контента.

Именно поэтому Anthropic установил стартовую цену, чтобы общие затраты пользователей при переходе на Sonnet 5 остались примерно на том же уровне.

Пояснения по корректировке лимитов скорости

Еще 26 апреля 2026 года Anthropic уже повысил лимиты скорости для моделей Sonnet и Haiku на всех уровнях использования и упростил тарифные планы нативной платформы Claude до трех уровней: Start, Build, Scale.

В этом обновлении Anthropic дополнительно повысил лимиты скорости для Chat, Cowork, Claude Code и платформы Claude, чтобы соответствовать большему расходу токенов, вызванному режимами с более высоким уровнем "усилий".

Вы можете просмотреть свой текущий уровень и конкретные ограничения в Claude Console или ознакомиться с документацией для получения дополнительной информации.

Пояснения по исправлению оценок бенчмарков (дополнение)

  • Humanity’s Last Exam: Anthropic обновил модель оценки для этого бенчмарка и, соответственно, скорректировал результат Sonnet 4.6 до 34.6% (без инструментов) и 46.8% (с инструментами). Поэтому эти данные отличаются от тех, что были указаны в блоге о выпуске Sonnet 4.6, о чем и сообщается.
  • OSWorld-Verified: Anthropic оптимизировал метод запуска этого бенчмарка, чтобы он более точно отражал реальную производительность моделей, и скорректировал результат Sonnet 4.6 до 78.5%. Это также причина расхождения этих данных с информацией из блога о выпуске Sonnet 4.6.

Отзывы разработчиков, опробовавших модель

Сразу после выпуска Claude Sonnet 5 разработчики уже начали его тестирование.

Пользователь Nicolas Bustamante отметил, что ему нравится в Sonnet 5 то, что он работает быстро и оптимизирован для работы в качестве агента. «Мой любимый пример — использование браузера: быстро и безопасно.»

Согласно результатам системной карты, частота успешных атак с внедрением в промпт при использовании браузера составляет всего 0.93% для Sonnet 5, в то время как для Opus 4.8 — 31.5%, а для Sonnet 4.6 — 50.7%.

Однако некоторые пользователи заявляют: «Слишком дорого.»

Согласно анализу Artificial Analysis, в индексе Intelligence стоимость выполнения одной задачи Claude Sonnet 5 составляет 2.29 доллара, что примерно в 2 раза выше, чем у Sonnet 4.6, и примерно на 15% выше, чем у Claude Opus 4.8. Этот рост затрат полностью обусловлен увеличением потребления токенов, что делает Claude Sonnet 5 одной из самых дорогих в эксплуатации моделей, уступая только Claude Fable 5.

А как вы думаете? Поделитесь своим мнением о новой модели в комментариях!

Ссылки:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

https://x.com/ArtificialAnlys/status/2072062595482456431

Эта статья взята из официального аккаунта WeChat «Сердце машины» (ID: almosthuman2014), автор: «Следящий за ИИ».

Связанные с этим вопросы

QКаковы ключевые улучшения модели Claude Sonnet 5 по сравнению с Sonnet 4.6?

AКлючевые улучшения Claude Sonnet 5 по сравнению с Sonnet 4.6 включают: значительное повышение производительности в рассуждениях, использовании инструментов, программировании и интеллектуальной работе; улучшенные агентские способности для автономного выполнения сложных задач; более высокая устойчивость к подсказкам и атакам ввода; снижение уровня галлюцинаций и подобострастия; и безопасность, в целом лучше, чем у Sonnet 4.6. Производительность приближается к Opus 4.8.

QВ чём заключается дилемма стоимости Sonnet 5? Почему заголовок утверждает, что она «не обязательно дешевле»?

AДилемма стоимости Sonnet 5 заключается в том, что, хотя его цена за токен (например, ввод $2/млн, вывод $10/млн по акции) ниже, чем у Opus 4.8 (ввод $5/млн, вывод $25/млн), новая модель использует обновлённый токенизатор. Это приводит к увеличению количества токенов для одного и того же контента примерно в 1.0–1.35 раза. Поэтому фактическая стоимость выполнения задачи может оказаться выше. Анализ Artificial Analysis показал, что стоимость выполнения задачи для Sonnet 5 составляет около $2.29, что примерно в 2 раза больше, чем у Sonnet 4.6, и примерно на 15% больше, чем у Opus 4.8, что делает её одной из самых дорогих моделей по стоимости выполнения задачи.

QКак Sonnet 5 показал себя в тестах на безопасность и кибербезопасность?

AСогласно оценкам безопасности Anthropic, Sonnet 5 в целом более безопасен, чем Sonnet 4.6: он лучше противостоит вредоносным запросам и атакам внедрения в подсказки, имеет более низкий уровень галлюцинаций и подобострастия, а также сниженный уровень неправомерного поведения при автоматическом аудите. Однако по сравнению с более мощными моделями Opus 4.8 и Claude Mythos Preview, у Sonnet 5 уровень неправомерного поведения несколько выше. Что касается кибербезопасности, он не специально обучался для таких задач. Его способность разрабатывать эксплойты уязвимостей (например, для браузера Firefox) слабая, значительно хуже, чем у Opus 4.8 и Mythos 5. По умолчанию активированы ограничения для предотвращения опасных сетевых действий, но они менее строгие, чем у Fable 5.

QКаковы временные и стандартные цены на Sonnet 5?

AВременная цена по акции (действует до 31 августа 2026 года): ввод $2 за миллион токенов, вывод $10 за миллион токенов. Стандартная цена (после 31 августа 2026 года): ввод $3 за миллион токенов, вывод $15 за миллион токенов.

QЧто говорится в статье о сравнении агентских способностей Sonnet 5 и Opus 4.8?

AВ статье говорится, что Sonnet 5 значительно сокращает разрыв в агентских способностях с Opus 4.8. На тестах BrowseComp и OSWorld-Verified, при среднем уровне усилий, Sonnet 5 значительно повышает рентабельность, а при более высоком уровне усилий его производительность в некоторых задачах может сравниться с Opus 4.8. Он предлагает более широкий диапазон соотношений стоимость-производительность, чем Sonnet 4.6. Пользователи могут гибко выбирать между Sonnet 5 и Opus 4.8, регулируя уровень усилий в зависимости от конкретной задачи, чтобы найти оптимальный баланс между стоимостью и производительностью.

Похожее

Ansem эирдроп вернул эффект от подсказок знаменитостей: когда рынок стагнирует, умные деньги следят за твитами инфлюенсеров

Автор: Curry, Shenchao TechFlow В условиях криптомедвежьего рынка возможности все же существуют. На прошлой неделе на рынке мем-токенов экосистемы Solana вновь наблюдался значительный рост, вызванный нарративом. Токен $ANSEM (The Black Bull), связанный с известным трейдером Ansem (@blknoiz06), за 7 дней вырос почти на 19 878%, поднявшись с крайне низких уровней до исторического максимума в $0.121. Росту способствовало заявление Ansem о проведении аирдропа токенов $ANSEM для сообщества 27 июня. Логика аирдропа заключается в перераспределении комиссий создателя (creator fees), накопленных Ansem на платформе Pump.fun. Условия участия включали репост объявления, подписку на его страницу в Pump.fun и оставление комментария с адресом кошелька. По данным на 29 июня, было распределено около 67.38 млн токенов $ANSEM на 704 кошелька, на общую сумму примерно $7-9 млн. Распределение оказалось концентрированным: 7 кошельков получили около 75% от общей суммы аирдропа, что вызвало в сообществе подозрения в возможных манипуляциях. Ansem пообещал продолжать аирдропы с целью увеличить число держателей с 25 тыс. до 1 млн. Случай $ANSEM — это пример行情, движимой влиятельной личностью. В июне также наблюдалась активность других известных фигур. Например, семейный офис Maelstrom сооснователя BitMEX Артура Хейза опубликовал исследование по токену Collector Crypt ($CARDS), после чего его цена выросла. Сам Хейз позже выразил поддержку экосистеме Hyperliquid, обратив внимание на ее токен $SYN, что привело к росту его стоимости на 40% за 24 часа. В условиях отсутствия новых нарративов и притока капитала, когда общий рынок движется вбок, подобные локальные行情, инициированные заявлениями известных личностей, становятся одним из немногих источников возможностей. Традиционные методы анализа — отслеживание кошельков, распределения токенов и настроений в соцсетях — по-прежнему актуальны. Несмотря на близость возможностей и ловушек на крипторынке, важно оставаться в игре.

marsbit37 мин. назад

Ansem эирдроп вернул эффект от подсказок знаменитостей: когда рынок стагнирует, умные деньги следят за твитами инфлюенсеров

marsbit37 мин. назад

PA График | 2026 Июль: Главные события Web3 в одной картинке

Июль 2026 года в сфере Web3 будет насыщен важными событиями. На макроуровне будут опубликованы ключевые данные по США: показатели занятости за июнь, индекс потребительских цен (CPI), а также протоколы заседания FOMC ФРС и отчет "Бежевая книга". В сфере регулирования завершится переходный период для правил MiCA в ЕС, в США приблизится целевой срок для закона о структуре рынка, а также будут продолжаться обсуждения законопроекта Clarity. В июле ожидается разблокировка значительного объема токенов, включая ENA и PUMP, что может повлиять на рыночную волатильность. Среди ключевых анонсов проектов – компания Robinhood обещает представить "новую эру криптовалюты", возможно, выпустив новые продукты токенизированных финансов, а Securitize планирует провести листинг на Нью-Йоркской фондовой бирже под тикером SECZ. В то же время несколько проектов, таких как Botanix и Legend, прекратят свою работу или поддержку, поэтому пользователям следует позаботиться о выводе или переносе активов. Также в июле пройдут такие мероприятия, как Шанхайская международная выставка индустрии воплощенного искусственного интеллекта, конференция WebX 2026 и финал чемпионата мира. Компания SpaceX будет включена в индекс Nasdaq-100, а ASML и TSMC опубликуют финансовые отчеты за второй квартал. В целом, июльский рынок, вероятно, будет определяться ожиданиями ликвидности, реализацией нормативно-правовой базы и ротацией внутри экосистемы в поисках новых направлений развития.

marsbit1 ч. назад

PA График | 2026 Июль: Главные события Web3 в одной картинке

marsbit1 ч. назад

Активные адреса XRP выросли на 72% на фоне снижения левериджа на рынке деривативов

Количество ежедневно активных адресов XRP выросло примерно на 72% за двухнедельный период, в то время как спекулятивное кредитное плечо на деривативном рынке снизилось. Это сочетание может указывать на то, что интерес к XRP в большей степени стал подкрепляться реальной активностью в сети, а не заемными средствами, что делает рыночные сигналы более четкими. Рост числа активных адресов может свидетельствовать об увеличении пользовательской активности и транзакций в блокчейне XRP. Однако сам по себе этот показатель не гарантирует роста цены, так как может включать в себя технические или автоматизированные операции. Важно, что рост адресов сопровождается снижением кредитного плеча, что уменьшает вероятность резких распродаж из-за ликвидации позиций. Таким образом, текущая ситуация выглядит более здоровой для XRP, но для подтверждения тренда необходимо наблюдать, сохранится ли повышенная активность адресов и трансформируется ли она в устойчивый спрос на спотовом рынке. Данные обнадеживают, но не являются окончательным сигналом к росту.

bitcoinist2 ч. назад

Активные адреса XRP выросли на 72% на фоне снижения левериджа на рынке деривативов

bitcoinist2 ч. назад

Как растущая сетевая активность Solana может помочь SOL преодолеть уровень в $82

Активность сети Solana резко возросла, достигнув максимального уровня за несколько месяцев, с рекордным количеством активных кошельков в 4,51 млн. Этот рост связан с популярностью токенизированных акций, активностью xStocks и оживлением в сфере DeFi. Увеличение пользовательской базы способствовало восстановлению технических показателей SOL. Расширение реальных финансовых приложений, таких как токенизированные акции, а также высокий объем стейблкоинов, приток средств и объем торгов на DEX указывают на то, что капитал остается в экосистеме Solana. Устойчивый рост внедрения подобных активов может укрепить долгосрочное развитие сети. Цена SOL выросла на 7,48% 29 июня, достигнув $76,49, и приблизилась к закрытию первого позитивного месячного свечи после девяти месяцев падения. Ключевым испытанием для продолжения восстановления остается зона сопротивления $78–$82. Ее преодоление может открыть путь к $92, тогда как уровень $72 является важной поддержкой для быков. Срыв ниже него может сигнализировать о недостаточной устойчивости текущего восстановления.

ambcrypto2 ч. назад

Как растущая сетевая активность Solana может помочь SOL преодолеть уровень в $82

ambcrypto2 ч. назад

SUI, ENA и EIGEN возглавят волну разблокировки токенов на $73 млн на этой неделе

**SUI, ENA и EIGEN возглавляют волну разблокировки токенов на $73 млн на этой неделе** Согласно данным Crypto Economy и Tokenomist.ai, на этой неделе запланировано значительное событие по разблокировке токенов на общую сумму около $73 млн. Основные релизы включают SUI (13.72 млн токенов, ~$9.4 млн) и EIGEN (36.82 млн токенов, ~$8.7 млн) 1 июля, а также ENA (~$3.12 млн) 3 июля. Важно понимать, что разблокировка не означает автоматических распродаж. Рынки часто учитывают такие события заранее, а маркет-мейкеры хеджируют риски. Тем не менее, для трейдеров это ключевой сигнал, влияющий на краткосрочное позиционирование, ликвидность и оценку рисков, особенно для таких активов с высоким спекулятивным интересом, как SUI, ENA и EIGEN. В текущих рыночных условиях, на которые влияют потоки ETF, кредитное плечо и ротация ликвидности между альткойнами, подобные события следует рассматривать в более широком контексте. Они могут иметь второстепенные эффекты на смежные активы и общие настроения. Ключевой вывод: разблокировка — это сигнал о структуре рынка, а не гарантия движения цены. Трейдерам стоит следить за последующими данными по потокам, ончейн-метрикам и производным инструментам, чтобы подтвердить или опровергнуть формирующийся тренд.

bitcoinist2 ч. назад

SUI, ENA и EIGEN возглавят волну разблокировки токенов на $73 млн на этой неделе

bitcoinist2 ч. назад

Торговля

Спот
活动图片