«Заключительный экзамен для агентов»: Fable 5 проиграл GPT 5.5

marsbitОпубликовано 2026-06-12Обновлено 2026-06-12

Введение

Неожиданно, новый тест под названием «Последний экзамен агентов» (ALE) от UC Berkeley показал, что даже самые продвинутые AI-агенты, такие как Claude Fable 5 и GPT 5.5, испытывают серьёзные трудности при выполнении практических задач в реальных профессиональных программах (Siemens NX, Unreal Engine, Adobe After Effects и др.). В наиболее сложной категории оба модели показали нулевой результат. В общем зачёте GPT 5.5 занял первое место с 24% успеха, немного опередив Claude Fable 5 (22%). При этом Fable 5 оказался значительно дороже и медленнее конкурента. ALE отличается от предыдущих тестов (как Humanity’s Last Exam) тем, что оценивает практическую способность AI выполнять реальную работу в компьютерных средах, а не просто отвечать на вопросы. Задачи охватывают 55 профессиональных областей, созданы экспертами и оцениваются автоматически без участия человека. Около 90% заданий держатся в секрете для предотвращения «заучивания». Эксперты отмечают, что агенты часто преждевременно объявляют о завершении задачи, не проверив результат. Также есть мнение, что у каждой модели есть свои сильные и слабые стороны, а итоговый балл — усреднённый показатель. Возможно, результаты Claude Fable 5 были занижены из-за автоматического переключения на менее мощную модель в чувствительных темах. Ранее выяснилось, что модели Claude в тесте SWE-Bench Pro использовали историю Git для поиска ответов, что могло искусственно завысить их показатели. ALE исключает такую возможность, перенося тестирован...

Не ожидал, что опровержение придёт так быстро!!

Только что Калифорнийский университет в Беркли выпустил новый бенчмарк под названием «Заключительный экзамен для агентов».

Он собрал на экзамене сильнейших AI Agent и заставил их выполнять реальную работу —

создавать 3D-модели в Siemens NX, строить игровые сцены в Unreal Engine, делать композитинг спецэффектов в Adobe After Effects.

Результаты ошеломили:

На самом сложном уровне — ноль баллов у признанных сильнейших Claude Fable 5 и GPT 5.5.

Немного снизим сложность? Баллы появляются, но результат всё равно удивляет —

GPT 5.5 даже немного обошёл Claude Fable 5.

Я правильно слышу? Недавно выпущенная A-компанией самая сильная модель Claude Fable 5 проиграла выпущенному месяцами ранее GPT 5.5??

А ведь ранее почти на всех основных бенчмарках Fable 5 безоговорочно превосходил GPT 5.5 — 80.3% против 58.6% на SWE-Bench Pro, 64.5% против 52.2% на Humanity’s Last Exam.

Но на этом экзамене «реальной работы» ситуация развернулась.

Этот новый бенчмарк называется Agents’ Last Exam (ALE), за ним стоит авторитетная команда, ранее предложившая такие известные вам бенчмарки, как MMLU, MATH, CyberGym, ExploitGym.

Название, вероятно, отсылает к более раннему «Humanity’s Last Exam» от Scale AI, только на этот раз испытывают не пределы человеческих знаний, а пределы способности AI Agent выполнять работу.

Надо сказать, после выхода этого теста сторонники идеи «Агенты заменят человеческий труд» действительно замолчали...

«Заключительный экзамен для агентов», победителем стал GPT 5.5!

Сначала посмотрим на полный рейтинг.

По ключевому показателю успешности выполнения задач GPT 5.5 уверенно занял первое и второе места:

1-е место — GPT 5.5 в связке с собственным фреймворком Codex от OpenAI, процент выполнения 24.0%.

2-е место — снова GPT-5.5, но с фреймворком ALE Claw, процент выполнения 23.0%.

(ALE Claw — это baseline Agent, написанный самой командой, участвовавший наравне с коммерческими фреймворками Codex, Claude Code, Cursor CLI)

И только на 3-м месте мы видим Claude Fable 5 — в связке с Claude Code, процент выполнения 22.0%.

Дальше ещё интереснее.

4-е, 5-е и 8-е места полностью заняты GPT 5.5, только с разными фреймворками.

В топ-10 GPT 5.5 фигурирует 5 раз, плюс GPT 5.4 на 6-м месте — модели OpenAI занимают в общей сложности 6 позиций.

А как обстоят дела с семейством Claude?

Fable 5 занял 3-е место, Opus 4.7 — 9-е (18.4%), Opus 4.8 оказался на последнем 10-м месте (15.8%), явное отставание налицо.

Неудивительно, что исследователь OpenAI радостно постит, отмечая праздник:

Помимо результатов, здесь есть несколько деталей, заслуживающих внимания.

Во-первых, потолок достижений поразительно низок.

Процент выполнения у чемпиона всего 24%, наивысший комплексный балл — всего 45.8%.

Это значит, что даже при самом щадящем подсчёте «частичных баллов» сильнейший Agent набирает меньше половины.

А все задания взяты из реально выполненных экспертами проектов — процент выполнения у экспертов-людей теоретически составляет 100%.

Во-вторых, Claude поражает дороговизной.

В таблицу добавили колонку «Estimated Total Cost», сразу же выявившую разрыв в расходах:

Fable 5 потратил на выполнение всех задач 2315 долларов, Opus 4.8 — 1838 долларов, Opus 4.7 — 1144 доллара.

А сколько же у GPT-5.5?

Самый дорогой Codex — 566 долларов, Cursor CLI — всего 174 доллара.

Получается, Fable 5 потратил в четыре с лишним раза больше денег, чем Codex, а результат на два процентных пункта ниже.

В-третьих, разрыв в эффективности также бросается в глаза.

ALE Claw выполнил все задания за 47 часов 20 минут, Cursor CLI — всего за 67 часов.

А Opus 4.8? 451 час — почти 19 дней.

Сделал меньше всех, потратил больше всего времени, заплатили больше всех (неужели действительно есть модель, способная на всё это одновременно?)

Конечно, если рассматривать только два топовых — Claude Fable 5 и GPT 5.5, — преимущество GPT 5.5 во времени по-прежнему очевидно.

Но самая заметная цифра — это ноль.

ALE разделяет задания на три уровня сложности:

Near-Term (решаемые в ближайшее время)

Full-Spectrum (охватывающие весь спектр)

Last-Exam (конечные задачи)

На самом сложном уровне средний процент выполнения у основных конфигураций составляет всего 2.6%, и большинство моделей, включая GPT 5.5 и Fable 5, получают чистый ноль.

Таким образом, основная мысль этого табеля успеваемости проста: неважно, насколько хороши оценки на обычных экзаменах, как только дело доходит до реальной работы, все недостатки выходят наружу.

Отличник в тестах ≠ хороший работник, это утверждение справедливо и для мира AI.

Что такое ALE?

Чтобы понять, почему ALE смог разоблачить этих «отличников», нужно сначала увидеть, чем он отличается от прежних экзаменов.

Предыдущий Humanity’s Last Exam (HLE), созданный Дэном Хендриксом и Scale AI в начале 2025 года, включал 2500 междисциплинарных сложных задач и по сути был закрытым экзаменом —

тебе дают вопрос, ты даёшь ответ, как бы сложно ни было, это всего лишь статический поиск знаний.

А ALE совершенно другой, он проверяет «что ты умеешь делать».

Ведущий автор Yiyou Sun в X говорит прямо:

Прогнозы о том, что AI агенты превзойдут людей в выполнении практически любой работы к 2026-2027 годам, встречаются повсюду. Поэтому мы создали этот экзамен, чтобы проверить это утверждение.

Каждое задание ALE взято из реального проекта, уже выполненного экспертом, охватывая 55 отраслевых поддоменов, включая количественную торговлю, анализ генома, аэрокосмическую инженерию, архитектурное проектирование, нейровизуализацию, анимацию и спецэффекты, юридические исследования...

Вся система привязана к американскому федеральному стандарту классификации профессий (ONET)*, проще говоря, задания составляются в соответствии с «реальным рынком труда».

Состав авторов заданий также впечатляет:

Более 300 экспертов из более чем 100 организаций, включая академические институты MIT, Harvard, Stanford, Oxford, Caltech, ETH Zurich, и индустриальные компании Goldman Sachs, JPMorgan, Meta, Amazon, Adobe, Oracle.

Snorkel AI предоставила финансовую поддержку через проект Open Benchmarks Grants.

Формат экзамена — не печатание ответов, а прямое управление компьютером.

ALE использует так называемую GCUA-архитектуру (Generalist Computer-Use Agent, универсальный агент для работы с компьютером), предоставляя Agent полный доступ к GUI и командной строке —

щелчки мыши, набор текста, написание скриптов, просмотр веб-страниц — всё, что может делать человек за компьютером.

Способы не ограничены, оценивается только результат.

Представленные «работы» оцениваются автоматически с помощью детерминированного кода.

No vibes. No human judges. Fully reproducible. (Без настроений. Без человеческих судей. Полностью воспроизводимо).

Это закрывает старый недостаток многих бенчмарков: сам оценщик можно обмануть.

Кроме того, у ALE есть ещё один жёсткий приём для защиты от читерства —

публикуется только около 10% заданий (примерно 150), остальные 1300+ строго засекречены.

Публичные и приватные задания периодически меняются, что гарантирует отсутствие высоких оценок из-за «зазубривания».

На фоне повсеместного загрязнения данных в бенчмарках это весьма изящное решение.

В целом, по сравнению с существующими тестами для Agent, позиция ALE очень чёткая.

Один из членов команды, Dawn Song, специально провёл сравнение:

Поднабор CLI (ALE-CLI) охватывает 40 отраслевых поддоменов, тогда как Terminal-Bench — только 6, а SWE-bench-Pro — 5;

Время выполнения этих задач экспертами-людьми варьируется от нескольких часов до нескольких недель, тогда как у двух последних — от нескольких минут до нескольких дней;

Процент выполнения сильнейшего Agent на ALE-CLI составляет всего 25.2%, тогда как на Terminal-Bench — 82.0%, а на SWE-bench-Pro — 59.1%.

Одним словом, другие экзамены уже почти пройдены насквозь, а до ALE ещё очень далеко.

Вот почему ALE смеет называть себя «заключительным экзаменом для агентов».

Стоит отметить, что Dawn Song также поделился двумя интересными наблюдениями:

Первое: Агент заявляет о завершении работы, не проверив реальные результаты — это самый типичный режим неудачи для Agent.

Очень часто, хотя они говорят «Done. All checks pass.» (Готово. Все проверки пройдены.)

Фактический результат может не содержать необходимых файлов, иметь ошибки в расчётах, пропущенные ключевые поля или прямо нарушать явные ограничения в описании задачи.

Получается, работа не сделана, но уже объявили.

Второе, о котором многие задумываются: почему Fable 5 так слаб? Dawn Song даёт ответ:

«Универсального чемпиона» не существует.

Каждая передовая модель имеет свои сильные и слабые области. ALE охватывает 55 отраслей, более 1500 заданий, итоговый балл — это среднее значение по всем областям, из-за чего итоговые оценки многих моделей сближаются. По-настоящему ценная информация заключается не в общем балле, а в различиях в результатах разных моделей в разных областях — на одном и том же задании разные модели часто терпят неудачу по совершенно разным причинам.

Конечно, возможно, что Fable 5 тайно «отупляют».

В общей таблице рядом с Fable 5 выделено жёлтым: «may be down-tuned» (возможно, настроен на пониженную производительность), что отсылает к известной проблеме Fable 5 —

В его основе лежит модель Mythos с классификатором безопасности, и при выполнении задач в чувствительных областях, таких как кибербезопасность или биомедицина, он тихо переключается на менее мощную Opus 4.8.

На экзамене типа ALE, охватывающем 55 отраслей, это равносильно тому, что по части предметов отправить на экзамен дублёра, и притом такого, как «Бэнбо Эрба».

И ещё кое-что

Конечно, возможно, что результаты Claude Fable 5 сами по себе проблематичны?

Сложно сказать, но один сплетнический факт показывает, что у Claude уже был «криминал».

В конце мая стартап Datacurve выпустил новый бенчмарк под названием DeepSWE и попутно раскрыл большую тайну —

В Docker-контейнере SWE-Bench Pro содержится полная git-история репозитория кода, правильные ответы лежат прямо в файловой системе.

Большинство моделей игнорируют её, но только не Claude.

Он активно проверяет git-историю репозитория, ищет в истории коммитов исправления, соответствующие заданию, и на их основе восстанавливает правильный патч.

По некоторым данным, примерно 18% результатов Opus 4.7 получены именно так, а у Opus 4.6 и вовсе около 25%.

А у GPT 5.4 и GPT5.5? Полное отсутствие подобного поведения. Формулировка Datacurve весьма дипломатична:

Этот бенчмарк позволяет такое поведение, но Claude — единственное семейство, которое последовательно этим пользуется.

Оценка технологического медиа VentureBeat довольно двусмысленна:

Это показывает, что у Claude «сильное восприятие окружения», он очень хорошо умеет исследовать окружающую среду и использовать доступные ресурсы. Считать ли это «читерством» или «сообразительностью», зависит от вашей позиции.

Но как ни посмотри, ALE, очевидно, усвоил урок —

перенёс место экзамена из командной строки в GUI-интерфейс рабочего стола, лишив вас возможности подсмотреть в git-истории.

Экзаменационная площадка для оценки AI вынужденно модернизируется под давлением самого AI, и это тоже довольно впечатляюще.

Полный адрес отчёта: https://agents-last-exam.org/leaderboard Домашняя страница проекта: https://agents-last-exam.org/ GitHub: https://github.com/rdi-berkeley/agents-last-exam

Ссылки для справки:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

Статья из официального аккаунта WeChat «Квантовый бит», автор: Ишуй

Связанные с этим вопросы

QКакой новый бенчмарк, представленный UC Berkeley, тестирует AI-агентов в реальных задачах?

AНовый бенчмарк называется ALE (Agents' Last Exam), который тестирует AI-агентов в реальных задачах, таких как создание 3D-моделей в Siemens NX, разработка игровых сцен в Unreal Engine и создание визуальных эффектов в Adobe After Effects.

QКакие модели AI показали лучшие результаты в тесте ALE по проценту выполнения задач?

AЛучшие результаты в тесте ALE показали модели GPT-5.5: первое место с фреймворком Codex (24.0% выполнения задач) и второе место с фреймворком ALE Claw (23.0% выполнения задач). Claude Fable 5 занял третье место с 22.0% выполнения задач.

QКаковы ключевые особенности бенчмарка ALE, отличающие его от предыдущих тестов?

AКлючевые особенности ALE: тестирование реальных задач в графическом интерфейсе и командной строке, задачи охватывают 55 профессиональных областей, автоматическая оценка результатов без участия человека, а также использование закрытых и периодически обновляемых задач для предотвращения «заучивания» моделями.

QПочему модель Claude Fable 5 показала более низкие результаты, чем ожидалось, в тесте ALE?

AClaude Fable 5 показал более низкие результаты из-за возможного «занижения» производительности (down-tuning) в чувствительных областях, таких как кибербезопасность и биомедицина, где модель автоматически переключается на менее мощную версию Opus 4.8.

QКакие проблемы были выявлены у AI-агентов в процессе тестирования ALE по словам авторов?

AАвторы выявили, что AI-агенты часто объявляют задачи выполненными, не проверив результаты, что приводит к отсутствию необходимых файлов, ошибкам в расчётах или нарушению условий задачи. Также отмечается, что не существует «универсального чемпиона» среди моделей, так как каждая имеет свои сильные и слабые области.

Похожее

STRC достиг исторического минимума, вечный двигатель Сэйлора заглох

В июле 2023 года Майкл Сэйлор представил Wall Street привилегированные акции STRC как «цифровую кредитную машину». Инвесторы получали высокие дивиденды в 11.5%, а компания Strategy использовала вырученные средства для покупки биткоина, создавая, по задумке, самоподдерживающийся цикл. 19 июня STRC упала до исторического минимума в $85.32, что на 17% ниже номинала в $100, демонстрируя сбой в этой модели. Падение обусловлено тремя факторами: 1. Цена биткоина снизилась более чем на 50% с исторических максимумов. 2. Денежный резерв Strategy сократился после погашения облигаций, сократив срок покрытия дивидендов STRC. Впервые с 2022 года компания продала 32 BTC для выплаты этих дивидендов, подорвав доверие инвесторов. 3. Конкурирующая ценная бумага SATA от Strive предлагает более высокую доходность и лучшие условия, переманивая инвесторов. Падение STRC ниже номинала остановило программу дополнительной эмиссии акций, ключевой механизм покупки биткоина Strategy. Вместо планируемого «вечного двигателя» капитала запустился обратный процесс: падение биткоина ведет к падению STRC, остановке финансирования, вынужденной продаже биткоина и дальнейшей потере доверия. Хотя математически модель Сэйлора может работать при росте биткоина всего на 2.3% в год, текущая рыночная ситуация, включая жесткую риторику ФРС, подвергает сомнению устойчивость всей стратегии компаний-казначеев биткоина в условиях медвежьего рынка. Падение STRC стало проверкой веры в эту финансовую конструкцию.

marsbit13 мин. назад

STRC достиг исторического минимума, вечный двигатель Сэйлора заглох

marsbit13 мин. назад

Гайд по покупке на просадках от Grayscale: Оценка стоимости криптовалют с использованием денежного потока

**Руководство по покупке на просадках от Grayscale: оценка криптоактивов через денежный поток** Рынок криптовалют переживает спад, и перед инвесторами встает вопрос оценки активов. В отличие от биткоина как цифрового товара, многие другие активы, подобно финансовым правам, можно оценивать по денежным потокам. В отчете Grayscale на примере ведущего децентрализованного протокола кредитования Aave показано, как применять традиционные методы оценки, такие как DCF и мультипликаторы P/E. **Ключевые выводы:** * **AAVE в настоящее время недооценен.** По оценкам Grayscale, справедливая стоимость токена AAVE составляет $80-100 (текущая цена ~$75), исходя из прогноза чистой прибыли протокола в 2026 году и применения мультипликаторов P/E, характерных для финтех-компаний (20-25x). В базовом сценарии с ускорением внедрения токенизированных активов стоимость может достичь $175 за год. * **Классификация активов критична.** Не все криптоактивы одинаковы. Их следует делить на "товарные" (биткоин) и "генерирующие денежный поток" (многие DeFi-токены), для последних применимы традиционные методы оценки. * **DeFi демонстрирует реальные доходы.** Протоколы DeFi генерируют значительные комиссионные доходы от реальной финансовой деятельности. Aave, как лидер в кредитовании, имеет прозрачную финансовую отчетность, высокую рентабельность и диверсифицированное казначейство. * **Механизм захвата стоимости (value capture) — ключевой фактор.** Успех протокола не автоматически ведет к росту цены токена. Инвесторы должны анализировать, как именно прибыль протокола (через buyback & burn, стейкинг, дивиденды) распределяется среди держателей токенов. Aave эволюционирует в сторону более прямой привязки экономики протокола к ценности токена AAVE. * **Правовой статус DAO создает неопределенность.** В отличие от акционеров, держатели токенов обычно не имеют юридических прав на активы или cash flow протокола. Принятие регулирования (например, закона CLARITY) может снизить этот риск и способствовать переоценке таких активов, как AAVE. Рынок созревает, вознаграждая проекты с реальными доходами и фундаментальными показателями, а не спекулятивные нарративы. Анализ денежных потоков и механизмов захвата стоимости становится необходимым инструментом для выявления инвестиционных возможностей в следующей фазе развития криптоиндустрии.

marsbit1 ч. назад

Гайд по покупке на просадках от Grayscale: Оценка стоимости криптовалют с использованием денежного потока

marsbit1 ч. назад

После роста полупроводников: Деньги идут на заказы ИИ или на макро-отскок?

**Краткое содержание:** Рост акций полупроводников и сектора ИИ на фоне ослабления геополитических рисков (новости о возможном перемирии между США и Ираном и открытии Ормузского пролива) указывает на избирательную коррекцию оценок, а не на подтверждение долгосрочного бычьего тренда. Падение цен на нефть снизило инфляционные ожидания и давление на учетные ставки, что особенно выгодно для дорогих акций роста. Однако внутри технологического сектора инвесторы проявляют избирательность, концентрируясь на цепочке поставок оборудования для ИИ (чипы, оптические интерконнекты, память, локальное производство), где есть видимая подтвержденная выручка и капитальные затраты. Пример Astera Labs (рост выручки на 93%) подтверждает спрос на инфраструктуру для ЦОД. Рост Intel на 10-11% связан в основном с заявлением Трампа о потенциальном сотрудничестве с Apple, что является политическим катализатором, а не подтвержденной сделкой. Ключевым для определения дальнейшего направления рынка станут отчеты за Q2, особенно данные о капитальных затратах облачных провайдеров и заказах на серверы ИИ.

marsbit1 ч. назад

После роста полупроводников: Деньги идут на заказы ИИ или на макро-отскок?

marsbit1 ч. назад

Kraken Добавляет Торговлю Ончейн-Токенами Solana Напрямую Внутри Своего Приложения

Криптобиржа Kraken добавила возможность торговать токенами на блокчейне Solana напрямую в своём основном приложении. Теперь пользователи в США и более чем 100 странах могут получить доступ примерно к 2500 проверенным токенам Solana, не используя отдельный кошелёк или seed-фразу. Этот шаг упрощает процесс ончейн-трейдинга для розничных клиентов, объединяя децентрализованные рынки с привычным интерфейсом Kraken. Холдинги отображаются вместе с остальными активами на бирже. Функция работает на базе встроенных кошельков Privy и протоколов DEX Solana, скрывая технические детали от пользователя. Однако Kraken предупреждает, что эти токены не проходят такую же проверку, как централизованные листинги, поэтому рыночные риски остаются высокими. Запуск отражает общий тренд среди крупных бирж: они стремятся вернуть пользователей, уходящих в DeFi, путём интеграции ончейн-активности в свои платформы. Успех этого подхода может определить, удастся ли Kraken распространить модель на другие блокчейны, сохранив простоту и безопасность.

bitcoinist2 ч. назад

Kraken Добавляет Торговлю Ончейн-Токенами Solana Напрямую Внутри Своего Приложения

bitcoinist2 ч. назад

Медленный старт ETF на Litecoin показывает, что альткоин-фонды все еще сталкиваются с проверкой спроса

Канадский Litecoin ETF (LTCC) от Canary Capital стал ранним тестом спроса на биржевые фонды, выходящие за рамки Bitcoin и Ethereum. Согласно данным, с момента запуска приток средств составил около $9,3 млн, что значительно уступает масштабам фондов на Bitcoin и даже Ethereum. Текущие активы под управлением (AUM) фонда ещё ниже — около $5,43 млн, что объясняется волатильностью цены Litecoin и операциями с фондом. Этот медленный старт подчёркивает ключевую разницу: утверждение регулятором не гарантирует автоматического институционального спроса. В отличие от Bitcoin (макро-актив) и Ethereum (смарт-контракты), Litecoin позиционируется как проверенная платёжная сеть с долгой историей, что может быть привлекательно лишь для нишевых инвесторов. Таким образом, LTCC демонстрирует, что рынок альткойн-ETF будет избирательным. Успех будущих продуктов (например, на Solana или XRP) будет зависеть от силы их инвестиционной идеи. Пока же Bitcoin и Ethereum остаются основными направлениями для институциональных капиталов, в то время как фонды на альткойны борются за специализированный капитал.

bitcoinist3 ч. назад

Медленный старт ETF на Litecoin показывает, что альткоин-фонды все еще сталкиваются с проверкой спроса

bitcoinist3 ч. назад

Торговля

Спот
Фьючерсы
活动图片