En la era de la Auto Investigación, 47 tareas sin respuestas estándar se convierten en la lista obligatoria de evaluación de capacidades de los Agent
Si se coloca a una IA en un entorno de ingeniería sin respuestas estándar, ¿podría sobrevivir? El nuevo benchmark Frontier-Eng Bench, lanzado por Einsia AI, desafía a los agentes de IA con 47 tareas multidisciplinarias y complejas, como la estabilidad de robots submarinos y la optimización de baterías, que no tienen una solución única, sino que requieren una mejora continua y adaptativa.
A diferencia de los modelos anteriores que simplemente "buscaban en la memoria", este enfoque pone a la IA en un ciclo cerrado de ingeniería: proponer soluciones, ejecutar simulaciones, recibir retroalimentación, ajustar parámetros y repetir. El objetivo ya no es dar una respuesta correcta, sino medir la capacidad de la IA para mejorar de manera iterativa en entornos con múltiples restricciones, como equilibrar el rendimiento, la seguridad y la eficiencia.
Los resultados muestran que, aunque modelos como GPT-5.4 demuestran un rendimiento sólido, aún queda un largo camino para dominar estas tareas. El estudio revela dos hallazgos clave: las mejoras siguen una ley de potencia, volviéndose más difíciles y pequeñas con cada iteración, y la profundidad de la optimización es más crucial que la exploración superficial en paralelo.
Este avance sugiere el amanecer de una nueva era de "Auto Research", donde la IA podría actuar como un ingeniero autónomo, trabajando las 24 horas para refinar diseños y procesos basándose en la retroalimentación continua, mientras los humanos establecen los objetivos generales.
marsbitHace 44 min(s)