¿Quién es realmente el agente más fuerte de OpenClaw? Se publica la lista de 23 tareas reales evaluadas
¿Quién es el mejor agente de OpenClaw? Se publica un ranking basado en 23 tareas reales.
MyToken ha creado un benchmark transparente que evalúa la capacidad real de los agentes de IA para codificar, centrándose únicamente en la **tasa de éxito** (el porcentaje de tareas completadas con precisión). Las pruebas son totalmente públicas y reproducibles.
**Dimensiones de la prueba:** Se utilizan instrucciones estandarizadas, comportamientos esperados y listas de verificación para cada tarea. La evaluación se realiza mediante tres métodos: verificación automatizada con scripts Python, un "árbitro" LLM (Claude Opus) y un modo híbrido que combina ambos.
**Tareas:** La evaluación incluye 23 tareas del mundo real que cubren múltiples dimensiones: interacción básica, operaciones con archivos/código, creación de contenido, investigación, uso de herramientas del sistema y persistencia de memoria.
**Top 10 de Modelos por Tasa de Éxito (Mejor % / Promedio %):**
1. anthropic/claude-opus-4.6: 93.3% / 82.0%
2. arcee-ai/trinity-large-thinking: 91.9% / 91.9%
3. openai/gpt-5.4: 90.5% / 81.7%
4. qwen/qwen3.5-27b: 90.0% / 78.5%
5. minimax/minimax-m2.7: 89.8% / 83.2%
6. anthropic/claude-haiku-4.5: 89.5% / 78.1%
7. qwen/qwen3.5-397b-a17b: 89.1% / 80.4%
8. xiaomi/mimo-v2-flash: 88.8% / 70.2%
9. qwen/qwen3.6-plus-preview: 88.6% / 84.0%
10. nvidia/nemotron-3-super-120b-a12b: 88.6% / 75.5%
Claude Opus 4.6 lidera en el mejor resultado único, pero Trinity de Arcee muestra una estabilidad notable en el promedio. Los modelos Qwen demuestran un gran potencial en relación calidad-precio. Este benchmark de 23 tareas es completamente transparente para su validación.
marsbit04/08 14:53