Si arrojas una IA a un sitio de ingeniería sin respuestas estándar, ¿podría sobrevivir?
Durante mucho tiempo, los AI Agent parecían omnipotentes, pero en realidad, la mayoría solo "revolvían la memoria" en una base de conocimientos conocida.
Pero el mundo real de la ingeniería es despiadado: la estabilidad de los robots submarinos, el límite de litificación de las baterías de potencia, el control de ruido en circuitos cuánticos... Estos problemas no tienen una "respuesta perfecta", solo hay "una optimización que se acerca más al límite".
Recientemente, Navers lab de Einsia AI lanzó el benchmark para Agent: Frontier-Eng Bench, que formalmente despegó la etiqueta de "resolvedor de problemas" de la IA.
El equipo de investigación no hizo que la IA resolviera esos viejos problemas de código, sino que le dio un "ciclo cerrado de ingeniería" completo: proponer un plan, conectar un simulador, recibir errores, modificar parámetros y volver a ejecutar.
Ante 47 tareas duras interdisciplinarias, la IA debe comportarse como un ingeniero experimentado, buscando la solución óptima en el "triángulo imposible" de consumo de energía, seguridad y rendimiento.
Esto no es solo un conjunto de pruebas, es más bien un preludio de la "evolución" del Agent.
Cuando la IA comience a aprender a autocorregirse con la retroalimentación, la era de la Auto Investigación, donde "los humanos proponen objetivos y la IA itera ininterrumpidamente las 24 horas", podría estar más cerca de lo que imaginamos.
La IA comienza a hacer "trabajo duro"
Los modelos de lenguaje grandes del pasado se parecían más a un superestudiante.
Tú planteas un problema, él "busca en la memoria" de sus vastos datos de entrenamiento y luego ensambla una respuesta que parece razonable.
En este modo, el modelo grande esencialmente está jugando a "continuar la frase", no resolviendo problemas reales.
Pero la aparición de Frontier-Eng Bench hace que la IA comience a realizar "optimización de ingeniería".
El proceso cambió a que la IA primero proponga un plan, luego conecte un simulador para ejecutar experimentos, obtenga retroalimentación y errores, modifique parámetros y código, y luego continúe ejecutando hasta que el rendimiento siga mejorando.
En este sistema de ciclo cerrado, la identidad de la IA cambió cualitativamente.
¿Quieres que el robot submarino sea más estable? La IA debe comenzar a ajustar automáticamente el controlador.
¿Quieres aumentar un poco más la velocidad del brazo robótico? La IA tiene que ejecutar simulaciones por sí misma.
En cierto sentido, las IAs ya han abandonado la mera comprensión semántica y han comenzado a actuar como un ingeniero profesional, realizando optimizaciones continuas en un entorno real con retroalimentación.
△
Lo más interesante de Frontier-Eng Bench es que no mide si la IA "respondió correctamente", sino si la IA realmente puede volverse más fuerte continuamente.
Porque la optimización real de la ingeniería nunca ha sido una pregunta de opción múltiple; no hay una única respuesta estándar.
Tomemos como ejemplo la carga rápida de baterías: el objetivo suena simple: cargar lo más rápido posible, pero la realidad no es tan fácil.
La IA debe, bajo restricciones estrictas de que la temperatura no se dispare, el voltaje no se exceda, la vida útil de la batería no disminuya demasiado rápido y evitando la litificación, encontrar con precisión el punto de equilibrio del rendimiento.
Esto significa que la IA no puede aprobar utilizando ningún "truco" para resolver problemas; debe mostrar resistencia para evolucionar continuamente en la retroalimentación a largo plazo.
¿Puede la IA realizar una optimización a largo plazo en un entorno real?
Según los resultados, GPT5.4 tuvo el rendimiento general más estable, pero aún hay un largo camino por recorrer para que las IAs "completen" el Benchmark.
△
La Auto Investigación entra en la era de la "optimización iterativa"
El equipo de investigación mencionó un punto muy interesante en su artículo:
La verdadera inteligencia avanzada depende esencialmente de un ciclo cerrado de retroalimentación a largo plazo.
Así como AlphaGo pudo derrotar a Lee Sedol gracias a la enorme cantidad de simulaciones y retroalimentación instantánea detrás de cada decisión, no a la memorización rígida de partidas establecidas.
La verdadera investigación científica es igual: los mejores laboratorios no dependen de un destello de inspiración, sino que constantemente plantean hipótesis, ejecutan experimentos, observan resultados, modifican planes y continúan intentando.
Lo mismo ocurre con la optimización de ingeniería: cualquiera puede hacer la primera versión; lo realmente difícil es ese salto de rendimiento del último 1%.
El significado de Frontier-Eng Bench radica en que: es la primera vez que comienza a evaluar sistemáticamente la "capacidad de optimización iterativa" de la IA, y resumió dos leyes de evolución de la IA casi despiadadas.
△
La primera ley es: Cuanto más avanzado, más difícil es mejorar.
Este artículo encontró que la frecuencia y magnitud de las mejoras del Agent muestran una decadencia de ley de potencia:
- Frecuencia de mejora ∝ 1 / número de iteraciones
- Magnitud de mejora ∝ 1 / número de mejoras
En pocas palabras: en las primeras rondas se mejora más rápido, luego se vuelve cada vez más difícil y las mejoras son cada vez menores.
Esto se parece mucho al proceso real de investigación y desarrollo: la primera versión de la IA puede eliminar rápidamente muchas "frutas al alcance de la mano", pero cuanto más avanzado, más cerca se está del cuello de botella, y extraer un poco más de rendimiento requiere un gran esfuerzo.
Entonces, ¿sería más rentable probar en paralelo varias rutas? La respuesta se esconde en la segunda ley.
△
Segunda ley: La amplitud es útil, pero la profundidad es aún más indispensable.
Ejecutar varias líneas en paralelo puede evitar atascos, pero con un presupuesto fijo, cada cadena adicional reduce la profundidad.
Muchos avances en ingeniería requieren acumulación continua y corrección constante para lograr un salto estructural; no se logran simplemente "probando más veces".
Esto en realidad nos indica la dirección de desarrollo para la próxima generación de Agent: no un modelo que "da la respuesta de una vez", sino un sistema que pueda iterar continuamente y evolucionar por sí mismo en una retroalimentación de largo plazo.
El ingeniero de IA podría realmente estar llegando
El verdadero significado profundo de esta investigación radica en que esboza preliminarmente un sistema de IA que comienza a acercarse al ciclo real de la ingeniería.
△
Imagina esto: cuando la IA se conecta a software industrial, entornos de simulación, sistemas CAD, herramientas de diseño de chips, plataformas de computación científica...
Una transformación radical en la modalidad de productividad está a punto de ocurrir.
En los laboratorios del futuro, podría aparecer una división del trabajo como esta:
Los investigadores humanos son responsables de proponer direcciones y objetivos.
Por ejemplo, "reducir el consumo de energía de este componente en un 30%", "disminuir aún más el uso de GPU en el forward de este modelo", "aumentar un poco más la estabilidad del control del robot", "hacer que la fidelidad del circuito cuántico continúe acercándose al límite", etc.
Y la IA se encarga de "insistir en el camino". Giran en torno a estos objetivos, optimizando continuamente.
Por ejemplo, ejecutando automáticamente simulaciones y experimentos, leyendo automáticamente la retroalimentación del verificador y el simulador, y luego modificando y optimizando, iterando las 24 horas sin parar.
Esta lógica de evolución libera a la IA de su identidad como "herramienta auxiliar", comenzando a resolver problemas de sistemas complejos como un verdadero equipo de ingeniería, y además, sin cansarse.
Y los problemas que revela el benchmark Frontier-Eng son en realidad muy directos:
Cuando la IA comienza a aprender a "optimizar a largo plazo", ¿qué tan lejos está de la verdadera inteligencia de ingeniería?
Título del artículo: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
Página del proyecto: https://lab.einsia.ai/frontier-eng/
Arxiv: https://arxiv.org/abs/2604.12290
Repositorio de GitHub: https://github.com/EinsiaLab/Frontier-Engineering
Este artículo proviene del WeChat público "Quantum Bit", autor: Yun Zhong












