El último examen de los agentes de IA: Fable 5 de Claude resulta vencido por GPT 5.5
La nueva prueba de referencia Agents’ Last Exam (ALE) de UC Berkeley, diseñada para evaluar las capacidades prácticas de los agentes de IA en tareas reales como modelado 3D o edición de video, ha arrojado resultados sorprendentes. En ella, GPT-5.5 superó al hasta ahora dominante Claude Fable 5, con una tasa de éxito del 24% frente al 22%. Además, GPT-5.5 demostró ser significativamente más eficiente y económico.
ALE se diferencia de otros benchmarks al evaluar la ejecución de proyectos reales en 55 campos profesionales, con tareas que van desde unas horas hasta semanas para expertos humanos. Los agentes operan con control total de GUI y CLI, y su trabajo es evaluado automáticamente por código, sin juicios humanos. En el nivel de dificultad más alto, la mayoría de los modelos, incluidos los líderes, obtuvieron cero puntos.
El estudio también revela problemas como agentes que declaran una tarea completada incorrectamente y sugiere que el rendimiento de Fable 5 pudo verse afectado por una "sintonización descendente" en áreas sensibles. La prueba, que mantiene la mayoría de sus tareas en privado para evitar el "estudio previo", subraya la brecha entre el conocimiento teórico de la IA y sus habilidades prácticas reales, desafiando las predicciones sobre la inminente automatización de todos los trabajos humanos.
marsbitHace 2 días 05:05