Кто действительно является сильнейшим агентом OpenClaw? Опубликован рейтинг из 23 реальных задач

marsbitОпубликовано 2026-04-08Обновлено 2026-04-08

Введение

Рейтинг лучших AI-агентов OpenClaw: опубликованы результаты тестирования 23 реальных задач. Платформа MyToken представила прозрачный бенчмарк, оценивающий способности моделей на основе успешного выполнения задач. Ключевой критерий — процент успеха (Success Rate). Тестирование включало 23 задачи: от создания событий в календаре и анализа акций до написания блогов и исследования рынка. Использовались три метода оценки: автоматизированная проверка, оценка моделью-судьёй (Claude Opus) и гибридный подход. Топ-10 моделей по успешности (Best % / Avg %): 1. anthropic/claude-opus-4.6 — 93.3% / 82.0% 2. arcee-ai/trinity-large-thinking — 91.9% / 91.9% 3. openai/gpt-5.4 — 90.5% / 81.7% 4. qwen/qwen3.5-27b — 90.0% / 78.5% 5. minimax/minimax-m2.7 — 89.8% / 83.2% Claude Opus показал наивысший результат, но Trinity от Arcee выделился стабильностью. Все методики и данные открыты для проверки.

Хотите узнать, какая большая языковая модель действительно сильнее всего в реальных задачах агента OpenClaw?

MyToken на основе сайта с тестами подготовил прозрачный бенчмарк, сфокусированный на оценке практических способностей ИИ-агентов для программирования, рассматривая только одно ключевое измерение — успешность (скорость и стоимость относятся к другим независимым измерениям, которые будут проанализированы отдельно позже). Полностью открытый, воспроизводимый, представляющий только строгие стандарты тестирования + актуальный Топ-10 рейтинг по успешности.

I. Измерение для оценки:Успешность

Конкретный стандарт: доля задач, которые ИИ-агент точно и полностью выполняет. Каждая задача использует высокостандартизированный процесс:

Точные пользовательские промпты (Prompt)

Отправляются агенту для имитации реальных сценариев пользовательских запросов

Ожидаемое поведение (Expected Behavior)

Указываются приемлемые способы реализации и ключевые моменты принятия решений

Критерии оценки (checklist)

Предоставляется атомизированный список критериев успеха для поэтапной проверки

II. Три метода оценки

В этом тестировании в основном используются 3 метода оценки:

Автоматическая проверка: Python-скрипты напрямую проверяют объективные результаты, такие как содержимое файлов, записи выполнения, вызовы инструментов
Судья LLM-модель: Claude Opus выставляет оценки по подробной шкале (качество контента, уместность, полнота и т.д.)
Смешанный режим: сочетание автоматической объективной проверки и качественной оценки судьей LLM

Все определения задач, промпты, логика оценки полностью открыты для повторного тестирования и проверки.

III. Задачи, используемые для оценки

Этот бенчмарк охватывает 23 задачи разных категорий. Охватывает множество измерений: базовое взаимодействие, операции с файлами/кодом, создание контента, исследовательский анализ, вызов системных инструментов, постоянство памяти и другие, что高度 соответствует повседневным сценариям использования OpenClaw разработчиками:

Sanity Check(Автоматизация) — Обработка простых инструкций и корректный ответ на приветствие
Calendar Event Creation(Автоматизация) — Генерация стандартного ICS-файла календаря на естественном языке
Stock Price Research(Автоматизация) — Запрос актуальной цены акций и вывод отформатированного отчета
Blog Post Writing(Судья LLM) — Написание структурированного Markdown-блога объемом около 500 слов
Weather Script Creation(Автоматизация) — Написание Python-скрипта для погодного API с обработкой ошибок
Document Summarization(Судья LLM) — 3-этапное сжатое изложение основных тем
Tech Conference Research(Судья LLM) — Исследование и систематизация информации о 5 реальных tech-конференциях (название, дата, место, ссылка)
Professional Email Drafting(Судья LLM) — Вежливый отказ от встречи с предложением альтернативы
Memory Retrieval from Context(Автоматизация) — Точное извлечение дат, участников, технологического стека и т.д. из проектных заметок
File Structure Creation(Автоматизация) — Автоматическое создание стандартной структуры проекта, README, .gitignore
Multi-step API Workflow(Смешанный) — Чтение конфигурации → Написание скрипта вызова → Полная документация
Install ClawdHub Skill(Автоматизация) — Установка из репозитория навыков и проверка работоспособности
Search and Install Skill(Автоматизация) — Поиск погодных навыков и корректная установка
AI Image Generation(Смешанный) — Генерация и сохранение изображения по описанию
Humanize AI-Generated Blog(Судья LLM) — Преобразование машинного контента в естественную разговорную речь
Daily Research Summary(Судья LLM) — Синтез связного ежедневного резюме из нескольких документов
Email Inbox Triage(Смешанный) — Анализ нескольких писем и составление отчета по степени срочности
Email Search and Summarization(Смешанный) — Поиск в архиве писем и извлечение ключевой информации
Competitive Market Research(Смешанный) — Анализ конкурентов в области корпоративных APM
CSV and Excel Summarization(Смешанный) — Анализ табличных файлов и вывод инсайтов
ELI5 PDF Summarization(Судья LLM) — Объяснение технического PDF-файла языком, понятным 5-летнему ребенку
OpenClaw Report Comprehension(Автоматизация) — Точный ответ на конкретные вопросы из PDF-отчета исследования
Second Brain Knowledge Persistence(Смешанный) — Межсессионное хранение и точное воспроизведение информации

IV. Ключевой вывод: Рейтинг Топ-10 больших моделей по успешности (Лучший %/Средний %)

Данные обновлены по состоянию на 7 апреля 2026 года
Лучший % — наивысшая единичная успешность, Средний % — средняя успешность за несколько попыток, лучше отражает стабильность

以下是成功率最高的前十模型

anthropic/claude-opus-4.6(Anthropic) — 93.3% / 82.0%
arcee-ai/trinity-large-thinking(Arcee AI) — 91.9% / 91.9%
openai/gpt-5.4(OpenAI) — 90.5% / 81.7%
qwen/qwen3.5-27b(Qwen) — 90.0% / 78.5%
minimax/minimax-m2.7(MiniMax) — 89.8% / 83.2%
anthropic/claude-haiku-4.5(Anthropic) — 89.5% / 78.1%
qwen/qwen3.5-397b-a17b(Qwen) — 89.1% / 80.4%
xiaomi/mimo-v2-flash(Xiaomi) — 88.8% / 70.2%
qwen/qwen3.6-plus-preview(Qwen) — 88.6% / 84.0%
nvidia/nemotron-3-super-120b-a12b(NVIDIA) — 88.6% / 75.5%

Claude Opus 4.6 в настоящее время лидирует с наивысшей успешностью 93.3%, но Trinity от Arcee демонстрирует впечатляющие результаты по средней стабильности. Серия Qwen также имеет несколько моделей в топ-10, показывая большой потенциал с точки зрения соотношения цены и качества. Успешность — это базовый порог, последующие измерения скорости и стоимости будут further влиять на фактический опыт.

Этот бенчмарк из 23 задач полностью прозрачен, настоятельно рекомендуем протестировать его в соответствии с вашими сценариями. Больше рейтингов других моделей ждите в即将推出的 функции рейтинга агентов от MyToken.

(Данные来源于открытого бенчмарка тестирования агентов OpenClaw от PinchBench, постоянно обновляются.)

Связанные с этим вопросы

QКакой показатель является основным критерием оценки в тестировании OpenClaw агентов?

AОсновным критерием оценки является процент успешного выполнения (Success Rate) — доля задач, которые агент смог выполнить полностью и точно.

QКакие три метода оценки использовались в тестировании?

AИспользовались три метода: автоматизированная проверка скриптами, оценка моделью ИИ-судьей (Claude Opus) и гибридный режим, сочетающий автоматическую проверку и качественную оценку ИИ.

QКакая модель показала наивысший максимальный процент успеха (Best %)?

AМодель anthropic/claude-opus-4.6 (от Anthropic) показала наивысший максимальный процент успеха — 93.3%.

QКакая модель продемонстрировала наилучшую стабильность результатов (самый высокий средний процент успеха Avg %)?

AМодель arcee-ai/trinity-large-thinking (от Arcee AI) продемонстрировала наилучшую стабильность с самым высоким средним процентом успеха — 91.9%.

QСколько всего задач было включено в бенчмарк для тестирования?

AВ бенчмарк было включено 23 задачи, охватывающих различные аспекты: базовое взаимодействие, работу с файлами и кодом, создание контента, исследования, системные вызовы и сохранение памяти.

Похожее

Диалог с Далио: Сейчас мы находимся в пузыре ИИ, 1% моего инвестиционного портфеля — это биткоин

Источник: интервью Рэя Далио, основателя Bridgewater Associates, для подкаста "The Diary Of A CEO". Далио, предсказавший кризис 2008 года, обсуждает "большой цикл" — концепцию, охватывающую долговые проблемы, растущее неравенство и геополитические сдвиги. Он указывает, что текущий ажиотаж вокруг ИИ демонстрирует классические признаки пузыря, который может лопнуть из-за высокой долговой нагрузки, роста процентных ставок и чрезмерной эмиссии акций, что способно привести к рецессии. Для защиты личного капитала в неопределенные времена Далио советует диверсификацию: вместо хранения наличных инвестировать в акции, золото, облигации. Сам он держит около 1% портфеля в биткоине, считая его "твердыми деньгами", но предпочитает физическое золото из-за его статуса резервного актива и независимости от технологических рисков. Говоря о влиянии ИИ, Далио отмечает, что технология заменяет не только физический труд, но и элементы мышления, что увеличит разрыв между капиталом и трудом. Ключевыми останутся человеческие качества — эмоции и интуиция, а успеха добьются те, кто научится работать в партнерстве с ИИ. На геополитической арене, по его мнению, мир движется к регионализации с центрами в виде США и Китая. Вовлечение США в конфликты, подобные иранскому, обнажает снижение их абсолютного влияния. Внутренние вызовы, такие как дебаты о налогах на богатство, риск капитального бегства и низкая производительность, также ставят под вопрос стабильность традиционных держав в текущей фазе цикла.

marsbit2 ч. назад

Диалог с Далио: Сейчас мы находимся в пузыре ИИ, 1% моего инвестиционного портфеля — это биткоин

marsbit2 ч. назад

7.2 трлн вон за один день: иностранные инвесторы установили рекорд чистых покупок в пятницу! Уолл-Стрит: встречный ветер в плане ликвидности на южнокорейском рынке уже утих

Капиталы возвращаются на южнокорейский рынок акций. 31 июля иностранные инвесторы осуществили чистые покупки акций KOSPI на рекордные 7,2 трлн вон за один день, что стало самым высоким показателем в истории. По данным Citigroup, эта цифра знаменует собой кардинальный разворот после месяцев масштабного оттока средств нерезидентов. В июле чистые продажи иностранными инвесторами значительно сократились до 9,8 трлн вон по сравнению с 48,4 трлн и 44,5 трлн вон в июне и мае соответственно. Одновременно внутренние пенсионные и инвестиционные фонды в июле вернулись к чистым покупкам на 1,0 трлн вон. Дополнительным фактором снижения волатильности стали новые правила Комиссии по финансовым услугам (FSC), ужесточившие с 31 июля доступ розничных инвесторов к ETF с плечом на отдельные акции. После введения норм торговый оборот таких инструментов упал примерно вдвое. Citigroup сохраняет целевую точку для KOSPI на уровне 10000 пунктов, отмечая ослабление давления со стороны движения капиталов. Аналитики видят поддержку рынку в устойчивости фундаментальных показателей сектора чипов памяти, низких оценках KOSPI, сильной экономике и благоприятной политике властей, включая возможные меры по поддержке ликвидности.

marsbit2 ч. назад

7.2 трлн вон за один день: иностранные инвесторы установили рекорд чистых покупок в пятницу! Уолл-Стрит: встречный ветер в плане ликвидности на южнокорейском рынке уже утих

marsbit2 ч. назад

Экстренная новость! Следующее поколение ИИ от OpenAI прорывает 10 задач уровня Филдсовской премии

У OpenAI произошел прорыв: их новая модель Astra решила 10 сложнейших математических проблем уровня Филдсовской премии. Среди достижений — построение первого примера несофической группы, опровергающее гипотезу Громова (1999 г.), прорыв в задаче упаковки сфер в высоких размерностях, где не было прогресса 46 лет, и опровержение гипотезы жесткости Конна. Результаты, изложенные в 249-страничной работе, проверены с помощью Lean 4. По оценкам, стоимость создания доказательств составила около 2000 долларов. Это событие знаменует поворотный момент, демонстрирующий способность ИИ совершать глубокие открытия в фундаментальной математике.

marsbit4 ч. назад

Экстренная новость! Следующее поколение ИИ от OpenAI прорывает 10 задач уровня Филдсовской премии

marsbit4 ч. назад

Как стать человеком, которого искусственный интеллект никогда не сможет заменить

В статье рассматривается вопрос о том, как остаться незаменимым в эпоху искусственного интеллекта. Автор утверждает, что вместо страха перед ИИ следует сосредоточиться на развитии качеств, которые машины не смогут заменить. Он критикует «зарплатное рабство» — зависимость от работы, не приносящей удовлетворения, и предлагает путь к финансовой независимости через создание собственного дела. Ключ к успеху — развитие пяти элементов: самостоятельности (агентности), вкуса, умения убеждать, упорства и способности к итерациям. Главное — не просто создавать что-либо (сегодня это может каждый), а создавать что-то ценное, востребованное и уметь это продвигать. Автор считает, что наиболее важным навыком будущего является создание контента (медиа), а не просто написание кода, поскольку ценность контента субъективна и требует уникального человеческого вкуса и суждения. ИИ может помочь в производстве, но не заменит оригинальность мысли и связь с аудиторией. В качестве практического шага предлагается упражнение: за 15 минут ответить на вопросы, чтобы обнаружить свои уникальные знания, опыт и точку зрения, которые станут основой для личного бренда и дела жизни. Первый шаг — немедленно опубликовать свою основную идею, чтобы получить обратную связь от реального мира и начать процесс роста. Цель — стать «непригодным для найма», построив жизнь вокруг собственного творчества и экспертизы.

marsbit4 ч. назад

Как стать человеком, которого искусственный интеллект никогда не сможет заменить

marsbit4 ч. назад

Благодаря броскам кубиков ключи от биткоинов хранятся в автономном режиме, но не все будут этим заниматься

Статья посвящена практике генерации сид-фраз для биткоин-кошельков с помощью бросков кубиков в свете уязвимости, обнаруженной в аппаратных кошельках Coldcard. Подчеркивается, что физический бросок кубика (дающий около 2.6 бит энтропии за бросок) создает высококачественную случайность, поскольку предсказать результат практически невозможно из-за множества переменных. Для создания стандартной сид-фразы из 12 слов (128 бит энтропии) требуется около 50 бросков, а для повышенной безопасности рекомендуется 99 и более. В связи с инцидентом Coldcard, когда неисправный генератор случайных чисел в прошивке (2021-2026 гг.) мог создавать предсказуемые ключи, выяснилось, что сид-фразы, сгенерированные вручную через кубики, были защищены от этой уязвимости. Однако исследование показало, что другие функции устройства (создание бумажных кошельков, ключей для мультиподписи, паролей и т.д.) по-прежнему использовали скомпрометированный генератор, подвергая риску владельцев даже с безопасной основной сид-фразой. Автор отмечает, что, хотя метод с кубиками криптографически надежен, он непрактичен для массового использования из-за трудоемкости, высокой вероятности ошибок при вводе и необходимости строгой дисциплины для сохранения секретности процесса. Делается вывод, что будущее безопасности лежит в создании надежных аппаратных генераторов случайных чисел и понятных интерфейсов, а ручные методы остаются нишевым инструментом для опытных пользователей. Владельцам Coldcard рекомендуется обновить прошивку и проверить/заменить все ключи, сгенерированные уязвимыми функциями.

cryptonews.ru7 ч. назад

Благодаря броскам кубиков ключи от биткоинов хранятся в автономном режиме, но не все будут этим заниматься

cryptonews.ru7 ч. назад

Торговля

Спот

Кто действительно является сильнейшим агентом OpenClaw? Опубликован рейтинг из 23 реальных задач

Введение

I. Измерение для оценки:Успешность

II. Три метода оценки

III. Задачи, используемые для оценки

IV. Ключевой вывод: Рейтинг Топ-10 больших моделей по успешности (Лучший %/Средний %)

Связанные с этим вопросы

Похожее

Диалог с Далио: Сейчас мы находимся в пузыре ИИ, 1% моего инвестиционного портфеля — это биткоин

Экстренная новость! Следующее поколение ИИ от OpenAI прорывает 10 задач уровня Филдсовской премии

Как стать человеком, которого искусственный интеллект никогда не сможет заменить

Благодаря броскам кубиков ключи от биткоинов хранятся в автономном режиме, но не все будут этим заниматься

Торговля

Популярные категории

Популярные теги