¿Quién es realmente el agente más fuerte de OpenClaw? Se publica la lista de 23 tareas reales evaluadas

marsbitPublicado a 2026-04-08Actualizado a 2026-04-08

Resumen

¿Quién es el mejor agente de OpenClaw? Se publica un ranking basado en 23 tareas reales. MyToken ha creado un benchmark transparente que evalúa la capacidad real de los agentes de IA para codificar, centrándose únicamente en la **tasa de éxito** (el porcentaje de tareas completadas con precisión). Las pruebas son totalmente públicas y reproducibles. **Dimensiones de la prueba:** Se utilizan instrucciones estandarizadas, comportamientos esperados y listas de verificación para cada tarea. La evaluación se realiza mediante tres métodos: verificación automatizada con scripts Python, un "árbitro" LLM (Claude Opus) y un modo híbrido que combina ambos. **Tareas:** La evaluación incluye 23 tareas del mundo real que cubren múltiples dimensiones: interacción básica, operaciones con archivos/código, creación de contenido, investigación, uso de herramientas del sistema y persistencia de memoria. **Top 10 de Modelos por Tasa de Éxito (Mejor % / Promedio %):** 1. anthropic/claude-opus-4.6: 93.3% / 82.0% 2. arcee-ai/trinity-large-thinking: 91.9% / 91.9% 3. openai/gpt-5.4: 90.5% / 81.7% 4. qwen/qwen3.5-27b: 90.0% / 78.5% 5. minimax/minimax-m2.7: 89.8% / 83.2% 6. anthropic/claude-haiku-4.5: 89.5% / 78.1% 7. qwen/qwen3.5-397b-a17b: 89.1% / 80.4% 8. xiaomi/mimo-v2-flash: 88.8% / 70.2% 9. qwen/qwen3.6-plus-preview: 88.6% / 84.0% 10. nvidia/nemotron-3-super-120b-a12b: 88.6% / 75.5% Claude Opus 4.6 lidera en el mejor resultado único, pero Trinity de Arcee muestra una estabilidad nota...

¿Quieres saber qué modelo de lenguaje grande es realmente el más fuerte en las tareas de agente del mundo real de OpenClaw?

MyToken, basándose en un sitio web de evaluación, ha organizado un conjunto de puntos de referencia transparentes centrados en evaluar la capacidad práctica de los agentes de codificación de IA, observando solo la tasa de éxito como dimensión central (la velocidad y el costo pertenecen a otras dimensiones independientes, que se analizarán por separado más adelante). Completamente público, reproducible, solo presenta estándares de evaluación rigurosos + el Top 10 de las últimas tasas de éxito.

I. Dimensión de evaluación: Tasa de éxito

Estándar específico: el porcentaje de tareas dadas que el agente de IA completa con precisión. Cada tarea adopta un proceso altamente estandarizado:

Indicaciones de usuario precisas (Prompt)

Se envían al agente para simular escenarios reales de solicitud de usuario.

Comportamiento esperado (Expected Behavior)

Se especifican los métodos de implementación aceptables y los puntos clave de decisión.

Criterios de puntuación (checklist)

Se lista una lista de verificación atomizada para validar punto por punto el éxito.

II. Tres métodos de puntuación

Esta evaluación adopta principalmente 3 métodos de puntuación:

Verificación automatizada: Scripts de Python verifican directamente el contenido del archivo, registros de ejecución, llamadas a herramientas y otros resultados objetivos.
Juez de modelo de lenguaje grande (LLM): Claude Opus puntúa según una escala detallada (calidad del contenido, idoneidad, integridad, etc.).
Modo mixto: Combina verificación objetiva automatizada + evaluación cualitativa del juez LLM.

Todas las definiciones de tareas, Prompts y lógica de puntuación son completamente públicos para permitir la verificación y repetición de pruebas.

III. Tareas utilizadas para la evaluación

Esta prueba de referencia cubre 23 tareas de diferentes categorías. Abarca múltiples dimensiones como interacción básica, operación de archivos/código, creación de contenido, investigación y análisis, llamadas a herramientas del sistema, persistencia de memoria, etc., acercándose mucho a los escenarios de uso diario de OpenClaw por parte de los desarrolladores:

Sanity Check (Automatizado) —— Procesar instrucciones simples y responder correctamente a saludos.
Calendar Event Creation (Automatizado) —— Generar un archivo de calendario ICS estándar a partir de lenguaje natural.
Stock Price Research (Automatizado) —— Consultar el precio de las acciones en tiempo real y generar un informe formateado.
Blog Post Writing (Juez LLM) —— Escribir un blog estructurado en Markdown de aproximadamente 500 palabras.
Weather Script Creation (Automatizado) —— Escribir un script de Python para API del tiempo con manejo de errores.
Document Summarization (Juez LLM) —— Resumen refinado en 3 partes de los temas centrales.
Tech Conference Research (Juez LLM) —— Investigar y organizar información de 5 conferencias tecnológicas reales (nombre, fecha, lugar, enlace).
Professional Email Drafting (Juez LLM) —— Rechazar educadamente una reunión y proponer una alternativa.
Memory Retrieval from Context (Automatizado) —— Extraer con precisión fechas, miembros, stack tecnológico, etc., de las notas del proyecto.
File Structure Creation (Automatizado) —— Generar automáticamente directorios de proyecto estándar, README, .gitignore.
Multi-step API Workflow (Mixto) —— Leer configuración → Escribir script de llamada → Documentar completamente.
Install ClawdHub Skill (Automatizado) —— Instalar desde el repositorio de habilidades y verificar la usabilidad.
Search and Install Skill (Automatizado) —— Buscar habilidades relacionadas con el clima e instalarlas correctamente.
AI Image Generation (Mixto) —— Generar y guardar una imagen según la descripción.
Humanize AI-Generated Blog (Juez LLM) —— Cambiar contenido con sabor a máquina a lenguaje natural y coloquial.
Daily Research Summary (Juez LLM) —— Sintetizar múltiples documentos en un resumen diario coherente.
Email Inbox Triage (Mixto) —— Analizar múltiples correos electrónicos y organizar un informe por urgencia.
Email Search and Summarization (Mixto) —— Buscar correos electrónicos archivados y extraer información clave.
Competitive Market Research (Mixto) —— Análisis de la competencia en el campo empresarial APM.
CSV and Excel Summarization (Mixto) —— Analizar archivos tabulares y generar insights.
ELI5 PDF Summarization (Juez LLM) —— Explicar un PDF técnico en un lenguaje comprensible para un niño de 5 años.
OpenClaw Report Comprehension (Automatizado) —— Responder con precisión a preguntas específicas a partir de un PDF de informe de investigación.
极
Second Brain Knowledge Persistence (Mixto) —— Almacenar información entre sesiones y recordarla con precisión.

IV. Conclusión principal: Ranking Top 10 de modelos de lenguaje grande por tasa de éxito (Mejor % / Promedio %)

Datos actualizados al 7 de abril de 2026.
Mejor % es la tasa de éxito máxima en una sola ejecución, Promedio % es la tasa de éxito promedio en múltiples ejecuciones, lo que refleja mejor la estabilidad.

A continuación se muestran los diez modelos con la mayor tasa de éxito:

anthropic/claude-opus-4.6 (Anthropic) —— 93.3% / 82.0%
arcee-ai/trinity-large-thinking (Arcee AI) —— 91.9% / 91.9%
openai/gpt-5.4 (OpenAI) —— 90.5% / 81.7%
qwen/qwen3.5-27b (Qwen) —— 90.0% / 78.5%
minimax/minimax-m2.极7 (MiniMax) —— 89.8% / 83.2%
anthropic/claude-haiku-4.5 (Anthropic) —— 89.5% / 78.1%
qwen/qwen3.5-397b-a17b (Qwen) —— 89.1% / 80.4%
xiaomi/mimo-v2-flash (Xiaomi) —— 88.8% / 70.2%
qwen/qwen3.6-plus-preview (Qwen) —— 88.6% / 84.0%
nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88.6% / 75.5%

Claude Opus 4.6 lidera actualmente con una tasa de éxito del 93.3%, pero Trinity de Arcee tiene un rendimiento destacado en estabilidad promedio, y la serie Qwen también tiene varios modelos en el top 10, mostrando un gran potencial de relación calidad-precio. La tasa de éxito es el umbral básico; las dimensiones de velocidad y costo afectarán aún más la experiencia práctica.

Este conjunto de referencia de 23 tareas es completamente transparente, y se recomienda encarecidamente probarlo en escenarios prácticos结合自身场景实际测试。Para ver las clasificaciones de otros modelos, estén atentos a la función de ranking de agentes que MyToken lanzará pronto.

(Los datos provienen de las pruebas de referencia de agentes OpenClaw公开的OpenClaw代理基准测试公开公开, publicadas por PinchBench, en constante actualización.)

Preguntas relacionadas

Q¿Cuál es el modelo de IA con la mayor tasa de éxito máximo en las tareas de agente OpenClaw?

AEl modelo anthropic/claude-opus-4.6 de Anthropic tiene la mayor tasa de éxito máximo con un 93.3%.

Q¿Cuántas tareas diferentes se utilizaron para evaluar a los agentes de IA en este benchmark?

ASe utilizaron 23 tareas diferentes que cubren múltiples dimensiones como interacción básica, operaciones de archivos/código, creación de contenido, investigación y análisis, entre otros.

Q¿Qué métodos de evaluación se utilizaron para calificar el desempeño de los agentes?

ASe utilizaron tres métodos: verificación automatizada con scripts Python, evaluación por un modelo LLM (Claude Opus) según escalas detalladas, y un modo híbrido que combina ambos.

Q¿Qué modelo demostró la mejor estabilidad según la tasa de éxito promedio?

AEl modelo arcee-ai/trinity-large-thinking de Arcee AI mostró la mejor estabilidad con una tasa de éxito promedio del 91.9%.

Q¿Qué empresa o organización desarrolló el modelo Trinity Large Thinking que aparece en el ranking?

AEl modelo Trinity Large Thinking fue desarrollado por Arcee AI.

Lecturas Relacionadas

Diálogo con Ray Dalio: Nos encontramos en una burbuja de IA actualmente, el 1% de mi cartera de inversiones está en Bitcoin

**Fuente: The Diary Of A CEO** **Resumen: Felix, PANews** Ray Dalio, fundador de Bridgewater Associates, advierte sobre una burbuja en la inteligencia artificial actual, comparable a burbujas históricas como la de Internet en 2000. Según Dalio, los signos clásicos están presentes: precios inflados, endeudamiento basado en ganancias especulativas y una posible corrección brusca si suben las tasas de interés o cambian las condiciones económicas. Dalio explica que esta burbuja se enmarca en un "gran ciclo" más amplio —de unos 80 años— caracterizado por tres dinámicas: creciente desigualdad interna, déficits fiscales gubernamentales y cambios en el orden geopolítico mundial. Estados Unidos y otros países occidentales se encuentran en una fase de declive relativo dentro de este ciclo. Para proteger la riqueza personal, Dalio recomienda diversificar las inversiones más allá del efectivo, incluyendo activos como oro, acciones y bonos. Aunque revela que alrededor del 1% de su cartera está en Bitcoin —considerándolo un activo escaso—, prefiere el oro físico por su seguridad histórica y su rol como reserva de los bancos centrales. Sobre el impacto laboral de la IA, Dalio prevé que aumentará la desigualdad, beneficiando sobre todo a los dueños de capital. Sin embargo, destaca que las habilidades humanas —como la intuición y la emoción— seguirán siendo valiosas y complementarias a la IA. En el ámbito geopolítico, Dalio anticipa un mundo más regionalizado, con EE.UU. y China como potencias líderes en sus respectivas esferas, y advierte que conflictos como el de Irán han expuesto debilidades estratégicas de Estados Unidos, acelerando un cambio en el equilibrio global de poder.

marsbitHace 19 min(s)

Diálogo con Ray Dalio: Nos encontramos en una burbuja de IA actualmente, el 1% de mi cartera de inversiones está en Bitcoin

marsbitHace 19 min(s)

¡Récord de compras netas extranjeras de 7,2 billones de wones en un solo día! Wall Street: Los vientos en contra de los flujos de capital en el mercado coreano se han disipado

La situación de los flujos de capital en el mercado de valores surcoreano está mostrando un cambio sustancial. El 31 de julio, la inversión extranjera realizó una compra neta récord de aproximadamente 7.2 billones de wones en acciones del KOSPI, marcando una reversión fundamental tras meses de importantes salidas de capital. Según análisis de Citi Research, las ventas netas mensuales de inversores extranjeros se redujeron drásticamente a 9.8 billones de wones en julio, comparado con 48.4 y 44.5 billones en junio y mayo, respectivamente. Paralelamente, los fondos de pensiones y fondos de inversión nacionales se convirtieron en compradores netos en julio (1.0 billón de wones), luego de ser vendedores netos en los dos meses anteriores. Además, la Comisión de Servicios Financieros de Corea implementó nuevas regulaciones que restringen el acceso de inversores minoristas a los ETF apalancados, lo que ha reducido significativamente su volumen de negociación y se espera que mitigue la volatilidad del mercado. Citi Research mantiene su objetivo para el KOSPI en 10,000 puntos, destacando fundamentos sólidos en el sector de chips de memoria, valoraciones históricamente bajas, una fuerte economía local y un entorno político favorable como factores de apoyo. La firma considera que los vientos en contra relacionados con los flujos de capital se están disipando, mientras que los impulsores fundamentales y políticos están ganando fuerza, creando condiciones para una mejora en el mercado.

marsbitHace 19 min(s)

¡Récord de compras netas extranjeras de 7,2 billones de wones en un solo día! Wall Street: Los vientos en contra de los flujos de capital en el mercado coreano se han disipado

marsbitHace 19 min(s)

¡Bomba! La próxima IA de OpenAI resuelve 10 problemas de nivel Premio Fields

¡OpenAI asombra al mundo matemático! Su nuevo modelo Astra ha resuelto 10 problemas matemáticos de gran importancia, comparables en dificultad a los que suelen premiarse con la Medalla Fields. Los avances abarcan áreas como geometría de alta dimensión, teoría de grupos y álgebra de operadores, logrados con un coste computacional sorprendentemente bajo. Entre los hallazgos más destacados se encuentra la construcción del primer grupo "no sofic" finitamente presentado, resolviendo una conjetura abierta desde 1999. Además, Astra ha realizado un progreso significativo en el antiguo problema del empaquetamiento de esferas en dimensiones infinitas y ha refutado la conjetura de rigidez de Connes en álgebras de von Neumann. Todos los resultados están respaldados por pruebas formales verificadas con Lean 4, lo que supone un hito histórico que marca un antes y un después tanto para las matemáticas como para el desarrollo de la AGI. Este evento demuestra la capacidad de la IA para realizar descubrimientos profundos y realizar razonamientos complejos a un nivel excepcional.

marsbitHace 1 hora(s)

¡Bomba! La próxima IA de OpenAI resuelve 10 problemas de nivel Premio Fields

marsbitHace 1 hora(s)

Cómo Convertirse en Algo que la Inteligencia Artificial Jamás Podrá Reemplazar

**Resumen: Cómo ser irremplazable por la IA** Ante el temor de que la IA elimine trabajos, la solución no es resistirse, sino volverse "inempleable": un individuo autónomo que construya su propio proyecto vital y económico. El artículo critica la "esclavitud salarial"—depender de un empleo sin sentido—y propone escapar de ella desarrollando estas cinco capacidades clave: 1. **Agencia**: Capacidad de actuar sin pedir permiso. 2. **Gusto**: Criterio para discernir qué vale la pena crear. 3. **Persuasión**: Habilidad para conectar y lograr que otros valoren tu trabajo. 4. **Persistencia**: Resiliencia para ver los errores como aprendizaje. 5. **Iteración**: Proceso constante de ajuste basado en la retroalimentación. Estas habilidades se cultivan únicamente **haciendo**: creando algo propio. Se recomienda enfocarse en **crear contenido (medios)** más que solo en código, ya que el valor del contenido es subjetivo y requiere un criterio humano que la IA no puede replicar fácilmente, abriendo espacio para talentos auténticos. **Cómo empezar:** El cambio real requiere una transformación de identidad. Para ello: 1. Cambia radicalmente tu entorno (físico y digital). 2. Elige un "vehículo" (como crear contenido) que te dé retroalimentación real del mundo. 3. Dedica 15 minutos a responder preguntas introspectivas para encontrar tu "material en bruto" único y tu perspectiva contraria a la convencional. 4. **Publica tu primera idea mañana mismo.** La acción, el feedback y la iteración constante son el único camino. La conclusión es clara: en lugar de temer a la IA, conviértete en un creador que utilice todas las herramientas (incluida la IA) para construir una vida y un trabajo con significado, autonomía e impacto personal.

marsbitHace 2 hora(s)

Cómo Convertirse en Algo que la Inteligencia Artificial Jamás Podrá Reemplazar

marsbitHace 2 hora(s)

Los lanzamientos de dados mantienen las claves de Bitcoin en un modo aislado, pero no todo el mundo se molestará

El título sugiere que las claves de Bitcoin pueden almacenarse fuera de línea mediante lanzamientos de dados, aunque no todos los usuarios adoptarán este método. El artículo comienza explicando la entropía en la teoría de la información, utilizando ejemplos como monedas y dados. Tras un escándalo reciente con Coldcard, se popularizó la generación de semillas de billetera mediante dados. El texto explica que, aunque físicamente determinista, el lanzamiento es impredecible en la práctica, lo que lo hace útil para la seguridad. Se detalla cómo convertir los resultados en datos binarios, con métodos que van desde el simple "par/impar" hasta el uso de funciones hash para preservar más entropía. Para una frase de recuperación de 12 palabras (128 bits de entropía), se necesitan unos 50 lanzamientos; Coldcard recomienda 99 para mayor seguridad. La vulnerabilidad en Coldcard, relacionada con su generador de números aleatorios, puso en riesgo fondos. Las semillas generadas manualmente con dados no se vieron afectadas, pero el investigador Kevin Loaec señaló que otras funciones del dispositivo (como creación de billeteras de papel o claves de coproreseguridad) sí podían estar comprometidas, incluso si la semilla principal era segura. El artículo argumenta que, aunque técnicamente robusto, el proceso de lanzar dados es lento, propenso a errores y poco práctico para la mayoría, especialmente para nuevos usuarios. Concluye que, aunque debe ser una opción para expertos, el objetivo a largo plazo es que el hardware y software generen aleatoriedad fuerte de forma fiable y accesible. Se aconseja a los usuarios de Coldcard verificar su firmware y las funciones utilizadas, y se destaca la utilidad de las billeteras multisig con dispositivos de diferentes fabricantes para mitigar riesgos.

cryptonews.ruHace 5 hora(s)

Los lanzamientos de dados mantienen las claves de Bitcoin en un modo aislado, pero no todo el mundo se molestará

cryptonews.ruHace 5 hora(s)

Trading

Spot

¿Quién es realmente el agente más fuerte de OpenClaw? Se publica la lista de 23 tareas reales evaluadas

Resumen

I. Dimensión de evaluación: Tasa de éxito

II. Tres métodos de puntuación

III. Tareas utilizadas para la evaluación

IV. Conclusión principal: Ranking Top 10 de modelos de lenguaje grande por tasa de éxito (Mejor % / Promedio %)

Preguntas relacionadas

Lecturas Relacionadas

Diálogo con Ray Dalio: Nos encontramos en una burbuja de IA actualmente, el 1% de mi cartera de inversiones está en Bitcoin

¡Récord de compras netas extranjeras de 7,2 billones de wones en un solo día! Wall Street: Los vientos en contra de los flujos de capital en el mercado coreano se han disipado

¡Bomba! La próxima IA de OpenAI resuelve 10 problemas de nivel Premio Fields

Cómo Convertirse en Algo que la Inteligencia Artificial Jamás Podrá Reemplazar

Los lanzamientos de dados mantienen las claves de Bitcoin en un modo aislado, pero no todo el mundo se molestará

Trading

Categorías populares

Etiquetas Populares