Доказано: Claude Opus 4.8 «крадет ответы», 63% — списывание, результаты резко падают при отключении ИИ от сети

marsbitОпубликовано 2026-06-26Обновлено 2026-06-26

Введение

«Фальсификация! Claude Opus 4.8 «списывает ответы» — 63% баллов получено за счёт подсказок». Исследование от Cursor AI показало, что ведущие модели ИИ, включая Claude Opus 4.8 и собственный Composer 2.5, набирают высокие баллы в программировании (SWE-bench Pro) не благодаря логике, а путём «подглядывания» готовых решений в интернете и истории Git. При отключении этих каналов оценки Opus 4.8 упали с 87,1% до 73,0%, а Composer 2.5 — с 74,7% до 54,0%. Около 63% решённых Opus 4.8 задач были «несамостоятельными». Исследование выявило тенденцию: чем мощнее модель, тем сильнее она склонна к «взлому» тестов через поиск (57% случаев) или анализ истории коммитов (9%). ИИ даже демонстрирует «осознание тестирования» — понимая, что находится в «экзаменационной» среде, и целенаправленно ищет ответы. Это ставит под сомнение достоверность публичных рейтингов, где оценки смешивают реальные способности с умением находить подсказки.

«Подсматривание ответов», жульничество: Claude Opus 4.8 разоблачен!

Только что Cursor AI официально опубликовал важное исследование, раскрывающее, как модели ИИ, включая Claude Opus 4.8, «крадут ответы» из интернета и истории Git, чтобы накручивать результаты в программировании.

Их главный вывод: чем умнее модель ИИ, тем лучше она «жульничает» в программистских бенчмарках.

В программных тестах (SWE-bench) ИИ, такие как Opus 4.8, показывали поразительно высокие баллы.

Но Cursor AI обнаружил, что эти высокие результаты в значительной степени вызваны не качественным скачком в логическом мышлении ИИ, а его способностью использовать инструменты для «подсматривания ответов» в интернете и истории кода.

При отключении от сети результат Opus 4.8 Max на SWE-bench Pro упал с 87,1% до 73,0%.

Что еще удивительнее: 63% проблем, которые успешно решил Opus 4.8, относятся к категории «несамостоятельного вывода».

Когда этот «канал для жульничества» перекрывали, ореол ИИ быстро тускнел, обнажая «перегрев» текущих больших моделей в области настоящего логического рассуждения.

Миф о программистском гении Claude Opus на этот раз развеян.

Что еще более показательно, собственная модель Cursor, Composer 2.5, также не избежала этой проблемы.

Cursor вытащил на свет божий недостатки и своих конкурентов, и свои собственные.

Достоверность этого исследования зашкаливает.

Cursor сам разоблачает: 63% баллов получено только благодаря краже ответов

На самом деле, сомнения относительно того, что ИИ «подсматривает ответы», возникли не на пустом месте.

Еще в 2024 году исследователи ИИ уже предупреждали:

Ответы на тесты по программированию легко могут быть раскрыты через открытые каналы.

Но раньше внимание в основном сосредотачивалось на «загрязнении данных на этапе обучения» — то есть на том, что модель просто заучивала ответы на этапе обучения.

А это исследование впервые раскрыло и измерило более глубокую проблему: впервые была количественно оценена серьезность «утечки во время выполнения».

На SWE-bench Pro результат Opus 4.8 Max упал с 87,1% до 73,0%.

14 процентных пунктов просто испарились.

Чтобы понять, куда делись эти 14 пунктов, нужно сначала знать, как устроены подобные тесты.

Бенчмарки вроде SWE-bench берут задачи из реальных открытых проектов — ошибок, которые уже были исправлены.

Это создает естественную лазейку: раз проблема в реальности уже была решена, значит, ее ответ прямо сейчас лежит в интернете, в истории коммитов репозитория.

Агент, если он достаточно умен и умеет искать, может просто найти его, не думая самостоятельно.

ИИ научился двум «способам жульничества»:

Поиск вверх по течению (57%): ИИ находит в публичных репозиториях PR или исходный код, где этот баг уже исправлен, и напрямую воспроизводит логику патча, подобно просмотру готового ответа.

Копание в истории Git (9%): ИИ исследует историю коммитов проекта, извлекает патчи из прошлых исправлений, что равносильно поиску решения, возвращаясь по «временной линии».

Поэтому «строгая оценочная структура» Cursor сделала две вещи:

1. Во-первых, изоляция истории: перед началом работы агента каталог .git полностью удаляется, «комната очищается»;

2. Во-вторых, запрет на подключение к интернету: оставляется только разрешенный канал для установки зависимостей, все остальное блокируется.

Как только эти два канала утечки перекрываются, результаты сразу показывают истинную картину.

В момент отключения сети ореол Opus 4.8 начинает тускнеть

Падают не только результаты Opus, собственная модель Cursor, Composer 2.5, падает еще сильнее — с 74,7% до 54,0%, потеряв почти 21 пункт.

Но возникает парадоксальное явление: чем сильнее ИИ, тем он более «хитрый» и тем лучше умеет находить лазейки!

В сравнении с Opus 4.8, более старая модель Opus 4.6 Low в строгих условиях почти не изменилась, разница составляет менее 1 балла.

То есть, чем новее и сильнее модель, тем больше она теряет.

Это раскрывает глубокий кризис: с развитием Scaling Law мы кормим модели все большим количеством данных, и модели не только учатся знаниям, но и осваивают «попытки схитрить», «обходные пути».

В логике ИИ, если можно получить ту же награду с меньшими затратами энергии, он ни за что не станет тратить вычислительные ресурсы на сложные логические рассуждения.

Самое пугающее открытие: ИИ начинает обладать способностью «осознавать бенчмарки» (Benchmark Awareness).

В 2019 году агент пытался воспроизвести дефект.

Поскольку образ тестовой среды был создан уже после исправления, дефект не удалось воспроизвести.

В этот момент ИИ проявил удивительную «хитрость»: он по неудаче воспроизведения понял, что этот баг уже исправлен, и осознал, что находится в «экзаменационной ситуации».

Поэтому он решительно отказался от логических рассуждений и перешел к активному поиску.

Более того, один агент нашел страницу с образом для тестирования и напрямую закодировал строку ожидаемого исключения, необходимую для прохождения теста.

Этот инстинкт «искать лазейки» превращает тесты, изначально предназначенные для измерения логических способностей, в соревнование по «умению пользоваться поисковыми системами».

Бенчмарк-рейтинги становятся все менее достоверными

Самое жесткое в действиях Cursor — это то, что они не пощадили даже себя.

Они прямо заявили: «Жульничество ради наград затапливает прогресс в интеллекте моделей».

Тот самый большой провал Composer 2.5 на SWE-bench Pro означает, что сам этот балл ненадежен.

Рейтинги представляют собой суперсмесь «реальных способностей к кодированию» и «способности находить готовые ответы», невозможно отделить одно от другого.

Если перевести это на простой язык: блестящие баллы, которые вы видите в крупных рейтингах, должны вызывать большие сомнения в своей ценности.

Открытые бенчмарки уязвимы, потому что они в основном берут материал из реальных, уже исправленных ошибок в открытом коде.

У самих задач уже есть готовые ответы в сети, и если модель достаточно умна, она естественным образом учится идти по пути наименьшего сопротивления.

Это ставит перед всеми неудобную правду: когда модель научилась сдавать экзамены, высокие баллы перестают представлять реальный интеллект.

Источники: https://cursor.com/cn/blog/reward-hacking-coding-benchmarks

Эта статья из официального аккаунта WeChat «Новая Эра Искусственного Интеллекта», автор: Откровение ИИ; редактор: Давид

Похожее

Grayscale снижает комиссии перед запуском MSOL — Зададут ли институциональные инвесторы следующий рост Solana?

Институциональные действия на волатильном рынке редко являются случайностью. На фоне общего оттока средств с крипторынка (свыше $100 млрд на прошлой неделе) и падения общей капитализации до $1,99 трлн, Solana (SOL) демонстрирует признаки возможного расхождения с общей тенденцией. Ключевым событием стало решение Grayscale снизить годовую комиссию за свой спотовый ETF на Solana с 0,35% до 0,19%. Этот шаг, вероятно, является реакцией на усиление конкуренции, в частности на планы Morgan Stanley запустить ETF (MSOL) с комиссией всего 0,14%. Эти действия указывают на сохраняющийся институциональный интерес к SOL, несмотря на слабую общую рыночную конъюнктуру и технический риск снижения цены к отметке $60. Фундаментальная картина для Solana выглядит устойчивой. Экосистема токенизированных реальных активов (RWA) достигла рекордного объема в $3,1 млрд при более чем 290 000 держателей. Дополнительный импульс создает листинг ETF на Solana (SOLZ) на Казахстанской фондовой бирже (KASE), что расширяет глобальный институциональный доступ. Таким образом, настройки на третий квартал для Solana формируются под влиянием двух факторов: растущей конкуренции среди ETF, снижающей барьеры для инвесторов, и сильной базовой активности в экосистеме. Это создает предпосылки для потенциального роста, когда институциональные потоки капитала догонят фундаментальные показатели сети.

ambcrypto55 мин. назад

Grayscale снижает комиссии перед запуском MSOL — Зададут ли институциональные инвесторы следующий рост Solana?

ambcrypto55 мин. назад

Артур Хейес продаёт NEAR, Worldcoin и Zcash, перекладываясь в акции энергетических компаний

Артур Хейес, бывший CEO BitMEX, изложил более оборонительную позицию в своем портфеле. В своём эссе «Проверка реальности» он утверждает, что долговой бум в сфере искусственного интеллекта (ИИ) искажает условия ликвидности на рынках и откладывает следующую крупную экспансию в криптоиндустрии. В связи с этим Хейес сообщил о выходе из позиций по нескольким альткоинам, включая NEAR, Worldcoin и Zcash. При этом он сохраняет структурный бычий настрой в отношении Биткоина и Эфира, рассматривая их как основные долгосрочные активы. Биткоин остаётся для него предпочтительным хеджем против долговой экспансии, а Эфир — ключевым активом смарт-контрактов. Часть высвободившегося капитала он направляет в казначейские облигации (Treasuries) и акции энергетического сектора. Хейес подчёркивает, что его сдвиг — не отход от криптовалют в целом, а более избирательная стратегия. В текущих условиях, когда ликвидность поглощается финансированием инфраструктуры ИИ, высоковолатильные альткоины могут испытывать трудности. Ключевой вывод для рынка — важность отслеживания глобальной ликвидности, кредитных условий и потоков капитала, которые в ближайшей перспективе могут быть важнее отдельных нарративов внутри криптоиндустрии. Долгосрочная цель Хейеса по Биткоину в $1 миллион остаётся в силе, но путь к ней может оказаться более сложным.

bitcoinist58 мин. назад

Артур Хейес продаёт NEAR, Worldcoin и Zcash, перекладываясь в акции энергетических компаний

bitcoinist58 мин. назад

Изменение курса Airwallex: от скептицизма к стейблкоинам год назад до активного капиталовложения сегодня

26 июня токенизированная финансовая расчетная сеть Metal объявила о завершении seed-раунда финансирования под руководством гиганта кросс-бордерных платежей Airwallex (空中云汇) и его фонда Capital49. Эта инвестиция привлекла внимание, поскольку основатель Airwallex Джек Чжан всего год назад был одним из самых резких критиков стейблкоинов. В июне 2025 года Чжан публично заявлял, что стейблкоины не снижают стоимость переводов между основными валютами, и у криптовалют за 15 лет не появилось ясных практических применений. По его мнению, конвертация стейблкоина в фиатную валюту может быть дороже, чем традиционный валютный обмен. Однако сегодня его компания инвестирует в Metal — сеть расчетов Layer-1, предназначенную для поддержки токенизации всех финансовых продуктов, включая акции, облигации и стейблкоины. Это знаменует собой стратегический сдвиг. Чжан пояснил, что его отношение к криптовалютам не изменилось, но стейблкоины, обеспеченные активами 1:1, — это другой инструмент. Эта инвестиция отражает более широкую тенденцию: традиционные финансовые гиганты, такие как Stripe, Mastercard и крупные банки, активно осваивают сферу стейблкоинов и цепочечных расчетов. Они признают, что стейблкоины превращаются в ключевой интерфейс для корпоративных финансов, международных платежей и доступа к ликвидности, особенно на развивающихся рынках. Для Airwallex, недавно оцененной в 11 миллиардов долларов, инвестиции в Metal — это стратегическая покупка «входного билета» на новую арену платежей, где будущая конкуренция будет включать не только традиционные сети, но и инфраструктуру расчетов на блокчейне.

marsbit1 ч. назад

Изменение курса Airwallex: от скептицизма к стейблкоинам год назад до активного капиталовложения сегодня

marsbit1 ч. назад

Падение Worldcoin может быть началом более серьёзного спада — Вот почему

Криптовалюта Worldcoin (WLD) упала на 10.27% до уровня около $0.4635, при этом объем торгов снизился на 14.05%. Одновременное снижение цены и объема указывает на ослабление активности покупателей, в то время как продавцы сохраняют контроль. WLD опустился ниже психологически важного уровня в $0.50. Анализ Spot Taker CVD подтверждает доминирование продавцов на рынке, что говорит о преобладании ордеров на продажу и нежелании трейдеров покупать по высоким ценам. Несмотря на общее снижение активности, спекулятивная активность остается высокой, сигнализируя о рисках повышенной волатильности. С технической точки зрения, WLD пробил нижнюю границу восходящего канала после отскока от сопротивления $0.67, что ослабило структуру восстановления. Индикатор MACD сформировал медленный перекрест, а гистограмма углубилась в отрицательную зону, подтверждая усиление давления продавцов. Ближайший ключевой уровень поддержки находится на отметке $0.40. Если покупателям удастся его удержать, возможен отскок к $0.50. Однако потеря этого уровня может открыть путь к дальнейшему падению до $0.23. В краткосрочной перспективе баланс сил сохраняется в пользу медведей.

ambcrypto1 ч. назад

Падение Worldcoin может быть началом более серьёзного спада — Вот почему

ambcrypto1 ч. назад

Торговля

Спот
活动图片