¿Quién es realmente el agente más fuerte de OpenClaw? Se publica la lista de 23 tareas reales evaluadas

marsbitPublicado a 2026-04-08Actualizado a 2026-04-08

Resumen

¿Quién es el mejor agente de OpenClaw? Se publica un ranking basado en 23 tareas reales. MyToken ha creado un benchmark transparente que evalúa la capacidad real de los agentes de IA para codificar, centrándose únicamente en la **tasa de éxito** (el porcentaje de tareas completadas con precisión). Las pruebas son totalmente públicas y reproducibles. **Dimensiones de la prueba:** Se utilizan instrucciones estandarizadas, comportamientos esperados y listas de verificación para cada tarea. La evaluación se realiza mediante tres métodos: verificación automatizada con scripts Python, un "árbitro" LLM (Claude Opus) y un modo híbrido que combina ambos. **Tareas:** La evaluación incluye 23 tareas del mundo real que cubren múltiples dimensiones: interacción básica, operaciones con archivos/código, creación de contenido, investigación, uso de herramientas del sistema y persistencia de memoria. **Top 10 de Modelos por Tasa de Éxito (Mejor % / Promedio %):** 1. anthropic/claude-opus-4.6: 93.3% / 82.0% 2. arcee-ai/trinity-large-thinking: 91.9% / 91.9% 3. openai/gpt-5.4: 90.5% / 81.7% 4. qwen/qwen3.5-27b: 90.0% / 78.5% 5. minimax/minimax-m2.7: 89.8% / 83.2% 6. anthropic/claude-haiku-4.5: 89.5% / 78.1% 7. qwen/qwen3.5-397b-a17b: 89.1% / 80.4% 8. xiaomi/mimo-v2-flash: 88.8% / 70.2% 9. qwen/qwen3.6-plus-preview: 88.6% / 84.0% 10. nvidia/nemotron-3-super-120b-a12b: 88.6% / 75.5% Claude Opus 4.6 lidera en el mejor resultado único, pero Trinity de Arcee muestra una estabilidad nota...

¿Quieres saber qué modelo de lenguaje grande es realmente el más fuerte en las tareas de agente del mundo real de OpenClaw?

MyToken, basándose en un sitio web de evaluación, ha organizado un conjunto de puntos de referencia transparentes centrados en evaluar la capacidad práctica de los agentes de codificación de IA, observando solo la tasa de éxito como dimensión central (la velocidad y el costo pertenecen a otras dimensiones independientes, que se analizarán por separado más adelante). Completamente público, reproducible, solo presenta estándares de evaluación rigurosos + el Top 10 de las últimas tasas de éxito.

I. Dimensión de evaluación: Tasa de éxito

Estándar específico: el porcentaje de tareas dadas que el agente de IA completa con precisión. Cada tarea adopta un proceso altamente estandarizado:

Indicaciones de usuario precisas (Prompt)

Se envían al agente para simular escenarios reales de solicitud de usuario.

Comportamiento esperado (Expected Behavior)

Se especifican los métodos de implementación aceptables y los puntos clave de decisión.

Criterios de puntuación (checklist)

Se lista una lista de verificación atomizada para validar punto por punto el éxito.

II. Tres métodos de puntuación

Esta evaluación adopta principalmente 3 métodos de puntuación:

Verificación automatizada: Scripts de Python verifican directamente el contenido del archivo, registros de ejecución, llamadas a herramientas y otros resultados objetivos.
Juez de modelo de lenguaje grande (LLM): Claude Opus puntúa según una escala detallada (calidad del contenido, idoneidad, integridad, etc.).
Modo mixto: Combina verificación objetiva automatizada + evaluación cualitativa del juez LLM.

Todas las definiciones de tareas, Prompts y lógica de puntuación son completamente públicos para permitir la verificación y repetición de pruebas.

III. Tareas utilizadas para la evaluación

Esta prueba de referencia cubre 23 tareas de diferentes categorías. Abarca múltiples dimensiones como interacción básica, operación de archivos/código, creación de contenido, investigación y análisis, llamadas a herramientas del sistema, persistencia de memoria, etc., acercándose mucho a los escenarios de uso diario de OpenClaw por parte de los desarrolladores:

Sanity Check (Automatizado) —— Procesar instrucciones simples y responder correctamente a saludos.
Calendar Event Creation (Automatizado) —— Generar un archivo de calendario ICS estándar a partir de lenguaje natural.
Stock Price Research (Automatizado) —— Consultar el precio de las acciones en tiempo real y generar un informe formateado.
Blog Post Writing (Juez LLM) —— Escribir un blog estructurado en Markdown de aproximadamente 500 palabras.
Weather Script Creation (Automatizado) —— Escribir un script de Python para API del tiempo con manejo de errores.
Document Summarization (Juez LLM) —— Resumen refinado en 3 partes de los temas centrales.
Tech Conference Research (Juez LLM) —— Investigar y organizar información de 5 conferencias tecnológicas reales (nombre, fecha, lugar, enlace).
Professional Email Drafting (Juez LLM) —— Rechazar educadamente una reunión y proponer una alternativa.
Memory Retrieval from Context (Automatizado) —— Extraer con precisión fechas, miembros, stack tecnológico, etc., de las notas del proyecto.
File Structure Creation (Automatizado) —— Generar automáticamente directorios de proyecto estándar, README, .gitignore.
Multi-step API Workflow (Mixto) —— Leer configuración → Escribir script de llamada → Documentar completamente.
Install ClawdHub Skill (Automatizado) —— Instalar desde el repositorio de habilidades y verificar la usabilidad.
Search and Install Skill (Automatizado) —— Buscar habilidades relacionadas con el clima e instalarlas correctamente.
AI Image Generation (Mixto) —— Generar y guardar una imagen según la descripción.
Humanize AI-Generated Blog (Juez LLM) —— Cambiar contenido con sabor a máquina a lenguaje natural y coloquial.
Daily Research Summary (Juez LLM) —— Sintetizar múltiples documentos en un resumen diario coherente.
Email Inbox Triage (Mixto) —— Analizar múltiples correos electrónicos y organizar un informe por urgencia.
Email Search and Summarization (Mixto) —— Buscar correos electrónicos archivados y extraer información clave.
Competitive Market Research (Mixto) —— Análisis de la competencia en el campo empresarial APM.
CSV and Excel Summarization (Mixto) —— Analizar archivos tabulares y generar insights.
ELI5 PDF Summarization (Juez LLM) —— Explicar un PDF técnico en un lenguaje comprensible para un niño de 5 años.
OpenClaw Report Comprehension (Automatizado) —— Responder con precisión a preguntas específicas a partir de un PDF de informe de investigación.
极
Second Brain Knowledge Persistence (Mixto) —— Almacenar información entre sesiones y recordarla con precisión.

IV. Conclusión principal: Ranking Top 10 de modelos de lenguaje grande por tasa de éxito (Mejor % / Promedio %)

Datos actualizados al 7 de abril de 2026.
Mejor % es la tasa de éxito máxima en una sola ejecución, Promedio % es la tasa de éxito promedio en múltiples ejecuciones, lo que refleja mejor la estabilidad.

A continuación se muestran los diez modelos con la mayor tasa de éxito:

anthropic/claude-opus-4.6 (Anthropic) —— 93.3% / 82.0%
arcee-ai/trinity-large-thinking (Arcee AI) —— 91.9% / 91.9%
openai/gpt-5.4 (OpenAI) —— 90.5% / 81.7%
qwen/qwen3.5-27b (Qwen) —— 90.0% / 78.5%
minimax/minimax-m2.极7 (MiniMax) —— 89.8% / 83.2%
anthropic/claude-haiku-4.5 (Anthropic) —— 89.5% / 78.1%
qwen/qwen3.5-397b-a17b (Qwen) —— 89.1% / 80.4%
xiaomi/mimo-v2-flash (Xiaomi) —— 88.8% / 70.2%
qwen/qwen3.6-plus-preview (Qwen) —— 88.6% / 84.0%
nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88.6% / 75.5%

Claude Opus 4.6 lidera actualmente con una tasa de éxito del 93.3%, pero Trinity de Arcee tiene un rendimiento destacado en estabilidad promedio, y la serie Qwen también tiene varios modelos en el top 10, mostrando un gran potencial de relación calidad-precio. La tasa de éxito es el umbral básico; las dimensiones de velocidad y costo afectarán aún más la experiencia práctica.

Este conjunto de referencia de 23 tareas es completamente transparente, y se recomienda encarecidamente probarlo en escenarios prácticos结合自身场景实际测试。Para ver las clasificaciones de otros modelos, estén atentos a la función de ranking de agentes que MyToken lanzará pronto.

(Los datos provienen de las pruebas de referencia de agentes OpenClaw公开的OpenClaw代理基准测试公开公开, publicadas por PinchBench, en constante actualización.)

Preguntas relacionadas

Q¿Cuál es el modelo de IA con la mayor tasa de éxito máximo en las tareas de agente OpenClaw?

AEl modelo anthropic/claude-opus-4.6 de Anthropic tiene la mayor tasa de éxito máximo con un 93.3%.

Q¿Cuántas tareas diferentes se utilizaron para evaluar a los agentes de IA en este benchmark?

ASe utilizaron 23 tareas diferentes que cubren múltiples dimensiones como interacción básica, operaciones de archivos/código, creación de contenido, investigación y análisis, entre otros.

Q¿Qué métodos de evaluación se utilizaron para calificar el desempeño de los agentes?

ASe utilizaron tres métodos: verificación automatizada con scripts Python, evaluación por un modelo LLM (Claude Opus) según escalas detalladas, y un modo híbrido que combina ambos.

Q¿Qué modelo demostró la mejor estabilidad según la tasa de éxito promedio?

AEl modelo arcee-ai/trinity-large-thinking de Arcee AI mostró la mejor estabilidad con una tasa de éxito promedio del 91.9%.

Q¿Qué empresa o organización desarrolló el modelo Trinity Large Thinking que aparece en el ranking?

AEl modelo Trinity Large Thinking fue desarrollado por Arcee AI.

Lecturas Relacionadas

¡Michael Saylor declaró que se ha vuelto imposible adoptar una actualización de Bitcoin contra la que había estado luchando!

Michael Saylor declaró que actualmente es matemáticamente imposible que la propuesta BIP-110 alcance el umbral de un 55% de apoyo voluntario durante el ciclo de ajuste de dificultad de Bitcoin. Según sus datos, de los 946 bloques generados hasta el bloque 960.561, solo 24 (todos minados por DATUM a través del grupo OCEAN) señalaron soporte para BIP-110. Por ello, Saylor afirma que la propuesta no logrará el consenso voluntario requerido y que las señales actuales no representan un apoyo generalizado de los mineros. BIP-110 busca dificultar la inclusión de datos no financieros (como imágenes o textos) en la red de Bitcoin, defendiendo que la red debe usarse principalmente para transacciones monetarias. Saylor se opone, argumentando que Bitcoin no debe decidir qué transacciones son "necesarias" y que cambiar las reglas por capricho de unos pocos es problemático. Además, sugiere que el alto apoyo aparente podría deberse a procesos automatizados de señalización, no a un consenso genuino.

cryptonews.ruHace 10 min(s)

¡Michael Saylor declaró que se ha vuelto imposible adoptar una actualización de Bitcoin contra la que había estado luchando!

cryptonews.ruHace 10 min(s)

En el marco de la estrategia, el rendimiento por dividendos de STRC se mantiene en el 12% mientras el precio de las acciones sigue por debajo del valor nominal

El presidente ejecutivo de Strategy, Michael Saylor, confirmó el 1 de agosto que la tasa de dividendo para las acciones preferentes perpetuas STRC se mantendrá en un 12,00% hasta agosto de 2026. La tasa ha subido desde un 9% inicial en julio de 2025 mediante un mecanismo de "trinquete" que la incrementa un 0,5% cada vez que el precio de STRC cae por debajo de 95 dólares, con el objetivo de llevarlo de vuelta a su valor nominal de 100 dólares. Sin embargo, el mecanismo no ha funcionado según lo previsto. A 31 de julio, STRC cotizaba a 89,46 dólares, aproximadamente un 11% por debajo del nominal, a pesar de su rentabilidad récord. La competencia de instrumentos como SATA de Strive, que ofrece un 13% de rendimiento, y la volatilidad del precio del Bitcoin han ejercido presión. Este descuento sostenido ha obligado a Strategy a suspender nuevas emisiones de STRC para financiar compras de Bitcoin. Analistas han advertido sobre los riesgos a largo plazo de la estructura del "trinquete", que solo aumenta las obligaciones. Una firma legal está investigando la capacidad de Strategy para mantener los pagos si el Bitcoin se mantiene por debajo de su coste medio. Para mitigar preocupaciones, la empresa ha establecido reservas de liquidez para cubrir unos 26 meses de pagos de dividendos y un programa de recompra de acciones de 2.000 millones de dólares.

cryptonews.ruHace 11 min(s)

En el marco de la estrategia, el rendimiento por dividendos de STRC se mantiene en el 12% mientras el precio de las acciones sigue por debajo del valor nominal

cryptonews.ruHace 11 min(s)

Analista: El precio del bitcoin caerá a 60 mil dólares en agosto y luego se recuperará a 70 mil dólares

El analista financiero Andrei Poroshin, de la plataforma Bitbanker, anticipa que Bitcoin experimentará una caída en agosto, probando los niveles de 60,000 a 62,000 dólares, antes de recuperarse hasta los 70,000 dólares. Señala que la falta de nuevos estímulos macroeconómicos, como la reciente decisión de la Reserva Federal de mantener las tasas de interés sin dar señales claras al mercado, mantiene a los inversores en un estado de cautela. Poroshin también menciona que el cese de operaciones de BitMEX podría actuar como catalizador para la recuperación, al eliminar participantes débiles del mercado. Además, considera que factores geopolíticos, como la escalada entre Irán y EE.UU., tienen cada vez menos impacto en el mercado de criptomonedas. Finalmente, espera que septiembre sea un mes de mayor volatilidad, impulsado por las decisiones sobre tasas de interés de la Fed y el posible avance de la ley CLARITY Act.

cryptonews.ruHace 12 min(s)

Analista: El precio del bitcoin caerá a 60 mil dólares en agosto y luego se recuperará a 70 mil dólares

cryptonews.ruHace 12 min(s)

¡Como resultado de la piratería de Coldcard, uno de los mayores hackeos de billeteras de Bitcoin en los últimos tiempos, comienza una nueva ola de pérdidas! Las pérdidas aumentan

La empresa Galaxy Research ha identificado una tercera oleada de ataques dirigidos a direcciones de carteras Coldcard, resultando en el robo de 207.7294 BTC. Esto eleva las pérdidas totales a 1,367.05 BTC (aproximadamente 88.6 millones de dólares) afectando a 4,585 direcciones. Mientras las dos primeras oleadas mostraban comportamientos similares en la blockchain -usando unas pocas direcciones compartidas y apuntando a carteras con diferentes derivaciones-, la tercera presenta diferencias clave: crea una dirección única por víctima, ataca direcciones P2WSH (no P2WPKH) y escanea solo la ruta de derivación estándar. Los investigadores no pueden confirmar si se trata del mismo atacante o de uno nuevo aprovechando la vulnerabilidad publicada. Los fondos robados, en su mayoría de carteras con menos de 1 BTC, aún no han sido movidos de las direcciones controladas por los hackers. El software vulnerable de Coldcard fue lanzado en marzo de 2021, y todos los bitcoins robados se crearon después de esa fecha.

cryptonews.ruHace 1 hora(s)

¡Como resultado de la piratería de Coldcard, uno de los mayores hackeos de billeteras de Bitcoin en los últimos tiempos, comienza una nueva ola de pérdidas! Las pérdidas aumentan

cryptonews.ruHace 1 hora(s)

Trump Media vende otros 2,628 BTC; sus tenencias caen a 4,261 BTC

Trump Media & Technology Group, la empresa detrás de Truth Social, ha vendido otros 2.628 bitcoins (BTC) por valor de unos 165 millones de dólares, según datos de Arkham citados por Lookonchain. Con esta venta, realizada a través de transferencias a Crypto.com, la empresa ha vendido un total de 7.281 BTC en los últimos siete meses, reduciendo sus tenencias en un 63% hasta los 4.261 BTC actuales (unos 269,8 millones de dólares). Las ventas se producen en un contexto de mayor escrutinio sobre los intereses criptográficos vinculados al expresidente Donald Trump, mientras los legisladores debaten la ley CLARITY, que busca abordar normas éticas y posibles conflictos de interés de funcionarios públicos con activos digitales.

cointelegraphHace 1 hora(s)

Trump Media vende otros 2,628 BTC; sus tenencias caen a 4,261 BTC

cointelegraphHace 1 hora(s)

Trading

Spot

¿Quién es realmente el agente más fuerte de OpenClaw? Se publica la lista de 23 tareas reales evaluadas

Resumen

I. Dimensión de evaluación: Tasa de éxito

II. Tres métodos de puntuación

III. Tareas utilizadas para la evaluación

IV. Conclusión principal: Ranking Top 10 de modelos de lenguaje grande por tasa de éxito (Mejor % / Promedio %)

Preguntas relacionadas

Lecturas Relacionadas

¡Michael Saylor declaró que se ha vuelto imposible adoptar una actualización de Bitcoin contra la que había estado luchando!

En el marco de la estrategia, el rendimiento por dividendos de STRC se mantiene en el 12% mientras el precio de las acciones sigue por debajo del valor nominal

Analista: El precio del bitcoin caerá a 60 mil dólares en agosto y luego se recuperará a 70 mil dólares

¡Como resultado de la piratería de Coldcard, uno de los mayores hackeos de billeteras de Bitcoin en los últimos tiempos, comienza una nueva ola de pérdidas! Las pérdidas aumentan

Trump Media vende otros 2,628 BTC; sus tenencias caen a 4,261 BTC

Trading

Categorías populares

Etiquetas Populares