En la era de la Auto Investigación, 47 tareas sin respuestas estándar se convierten en la lista obligatoria de evaluación de capacidades de los Agent

marsbitPublicado a 2026-05-13Actualizado a 2026-05-13

Resumen

Si se coloca a una IA en un entorno de ingeniería sin respuestas estándar, ¿podría sobrevivir? El nuevo benchmark Frontier-Eng Bench, lanzado por Einsia AI, desafía a los agentes de IA con 47 tareas multidisciplinarias y complejas, como la estabilidad de robots submarinos y la optimización de baterías, que no tienen una solución única, sino que requieren una mejora continua y adaptativa. A diferencia de los modelos anteriores que simplemente "buscaban en la memoria", este enfoque pone a la IA en un ciclo cerrado de ingeniería: proponer soluciones, ejecutar simulaciones, recibir retroalimentación, ajustar parámetros y repetir. El objetivo ya no es dar una respuesta correcta, sino medir la capacidad de la IA para mejorar de manera iterativa en entornos con múltiples restricciones, como equilibrar el rendimiento, la seguridad y la eficiencia. Los resultados muestran que, aunque modelos como GPT-5.4 demuestran un rendimiento sólido, aún queda un largo camino para dominar estas tareas. El estudio revela dos hallazgos clave: las mejoras siguen una ley de potencia, volviéndose más difíciles y pequeñas con cada iteración, y la profundidad de la optimización es más crucial que la exploración superficial en paralelo. Este avance sugiere el amanecer de una nueva era de "Auto Research", donde la IA podría actuar como un ingeniero autónomo, trabajando las 24 horas para refinar diseños y procesos basándose en la retroalimentación continua, mientras los humanos establecen los objetivos g...

Si arrojas una IA a un sitio de ingeniería sin respuestas estándar, ¿podría sobrevivir?

Durante mucho tiempo, los AI Agent parecían omnipotentes, pero en realidad, la mayoría solo "revolvían la memoria" en una base de conocimientos conocida.

Pero el mundo real de la ingeniería es despiadado: la estabilidad de los robots submarinos, el límite de litificación de las baterías de potencia, el control de ruido en circuitos cuánticos... Estos problemas no tienen una "respuesta perfecta", solo hay "una optimización que se acerca más al límite".

Recientemente, Navers lab de Einsia AI lanzó el benchmark para Agent: Frontier-Eng Bench, que formalmente despegó la etiqueta de "resolvedor de problemas" de la IA.

El equipo de investigación no hizo que la IA resolviera esos viejos problemas de código, sino que le dio un "ciclo cerrado de ingeniería" completo: proponer un plan, conectar un simulador, recibir errores, modificar parámetros y volver a ejecutar.

Ante 47 tareas duras interdisciplinarias, la IA debe comportarse como un ingeniero experimentado, buscando la solución óptima en el "triángulo imposible" de consumo de energía, seguridad y rendimiento.

Esto no es solo un conjunto de pruebas, es más bien un preludio de la "evolución" del Agent.

Cuando la IA comience a aprender a autocorregirse con la retroalimentación, la era de la Auto Investigación, donde "los humanos proponen objetivos y la IA itera ininterrumpidamente las 24 horas", podría estar más cerca de lo que imaginamos.

La IA comienza a hacer "trabajo duro"

Los modelos de lenguaje grandes del pasado se parecían más a un superestudiante.

Tú planteas un problema, él "busca en la memoria" de sus vastos datos de entrenamiento y luego ensambla una respuesta que parece razonable.

En este modo, el modelo grande esencialmente está jugando a "continuar la frase", no resolviendo problemas reales.

Pero la aparición de Frontier-Eng Bench hace que la IA comience a realizar "optimización de ingeniería".

El proceso cambió a que la IA primero proponga un plan, luego conecte un simulador para ejecutar experimentos, obtenga retroalimentación y errores, modifique parámetros y código, y luego continúe ejecutando hasta que el rendimiento siga mejorando.

En este sistema de ciclo cerrado, la identidad de la IA cambió cualitativamente.

¿Quieres que el robot submarino sea más estable? La IA debe comenzar a ajustar automáticamente el controlador.

¿Quieres aumentar un poco más la velocidad del brazo robótico? La IA tiene que ejecutar simulaciones por sí misma.

En cierto sentido, las IAs ya han abandonado la mera comprensión semántica y han comenzado a actuar como un ingeniero profesional, realizando optimizaciones continuas en un entorno real con retroalimentación.

Lo más interesante de Frontier-Eng Bench es que no mide si la IA "respondió correctamente", sino si la IA realmente puede volverse más fuerte continuamente.

Porque la optimización real de la ingeniería nunca ha sido una pregunta de opción múltiple; no hay una única respuesta estándar.

Tomemos como ejemplo la carga rápida de baterías: el objetivo suena simple: cargar lo más rápido posible, pero la realidad no es tan fácil.

La IA debe, bajo restricciones estrictas de que la temperatura no se dispare, el voltaje no se exceda, la vida útil de la batería no disminuya demasiado rápido y evitando la litificación, encontrar con precisión el punto de equilibrio del rendimiento.

Esto significa que la IA no puede aprobar utilizando ningún "truco" para resolver problemas; debe mostrar resistencia para evolucionar continuamente en la retroalimentación a largo plazo.

¿Puede la IA realizar una optimización a largo plazo en un entorno real?

Según los resultados, GPT5.4 tuvo el rendimiento general más estable, pero aún hay un largo camino por recorrer para que las IAs "completen" el Benchmark.

La Auto Investigación entra en la era de la "optimización iterativa"

El equipo de investigación mencionó un punto muy interesante en su artículo:

La verdadera inteligencia avanzada depende esencialmente de un ciclo cerrado de retroalimentación a largo plazo.

Así como AlphaGo pudo derrotar a Lee Sedol gracias a la enorme cantidad de simulaciones y retroalimentación instantánea detrás de cada decisión, no a la memorización rígida de partidas establecidas.

La verdadera investigación científica es igual: los mejores laboratorios no dependen de un destello de inspiración, sino que constantemente plantean hipótesis, ejecutan experimentos, observan resultados, modifican planes y continúan intentando.

Lo mismo ocurre con la optimización de ingeniería: cualquiera puede hacer la primera versión; lo realmente difícil es ese salto de rendimiento del último 1%.

El significado de Frontier-Eng Bench radica en que: es la primera vez que comienza a evaluar sistemáticamente la "capacidad de optimización iterativa" de la IA, y resumió dos leyes de evolución de la IA casi despiadadas.

La primera ley es: Cuanto más avanzado, más difícil es mejorar.

Este artículo encontró que la frecuencia y magnitud de las mejoras del Agent muestran una decadencia de ley de potencia:

  • Frecuencia de mejora ∝ 1 / número de iteraciones
  • Magnitud de mejora ∝ 1 / número de mejoras

En pocas palabras: en las primeras rondas se mejora más rápido, luego se vuelve cada vez más difícil y las mejoras son cada vez menores.

Esto se parece mucho al proceso real de investigación y desarrollo: la primera versión de la IA puede eliminar rápidamente muchas "frutas al alcance de la mano", pero cuanto más avanzado, más cerca se está del cuello de botella, y extraer un poco más de rendimiento requiere un gran esfuerzo.

Entonces, ¿sería más rentable probar en paralelo varias rutas? La respuesta se esconde en la segunda ley.

Segunda ley: La amplitud es útil, pero la profundidad es aún más indispensable.

Ejecutar varias líneas en paralelo puede evitar atascos, pero con un presupuesto fijo, cada cadena adicional reduce la profundidad.

Muchos avances en ingeniería requieren acumulación continua y corrección constante para lograr un salto estructural; no se logran simplemente "probando más veces".

Esto en realidad nos indica la dirección de desarrollo para la próxima generación de Agent: no un modelo que "da la respuesta de una vez", sino un sistema que pueda iterar continuamente y evolucionar por sí mismo en una retroalimentación de largo plazo.

El ingeniero de IA podría realmente estar llegando

El verdadero significado profundo de esta investigación radica en que esboza preliminarmente un sistema de IA que comienza a acercarse al ciclo real de la ingeniería.

Imagina esto: cuando la IA se conecta a software industrial, entornos de simulación, sistemas CAD, herramientas de diseño de chips, plataformas de computación científica...

Una transformación radical en la modalidad de productividad está a punto de ocurrir.

En los laboratorios del futuro, podría aparecer una división del trabajo como esta:

Los investigadores humanos son responsables de proponer direcciones y objetivos.

Por ejemplo, "reducir el consumo de energía de este componente en un 30%", "disminuir aún más el uso de GPU en el forward de este modelo", "aumentar un poco más la estabilidad del control del robot", "hacer que la fidelidad del circuito cuántico continúe acercándose al límite", etc.

Y la IA se encarga de "insistir en el camino". Giran en torno a estos objetivos, optimizando continuamente.

Por ejemplo, ejecutando automáticamente simulaciones y experimentos, leyendo automáticamente la retroalimentación del verificador y el simulador, y luego modificando y optimizando, iterando las 24 horas sin parar.

Esta lógica de evolución libera a la IA de su identidad como "herramienta auxiliar", comenzando a resolver problemas de sistemas complejos como un verdadero equipo de ingeniería, y además, sin cansarse.

Y los problemas que revela el benchmark Frontier-Eng son en realidad muy directos:

Cuando la IA comienza a aprender a "optimizar a largo plazo", ¿qué tan lejos está de la verdadera inteligencia de ingeniería?

Título del artículo: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Página del proyecto: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositorio de GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Este artículo proviene del WeChat público "Quantum Bit", autor: Yun Zhong

Preguntas relacionadas

Q¿Qué es el Frontier-Eng Bench y qué tipo de pruebas introduce frente a los benchmarks tradicionales de IA?

AEl Frontier-Eng Bench es un benchmark de evaluación para agentes de IA desarrollado por Naver's Lab de Einsia AI. Introduce un conjunto de 47 tareas interdisciplinarias y complejas sin una única respuesta correcta, obligando a la IA a participar en un 'ciclo cerrado de ingeniería': proponer un plan, conectarse a un simulador, recibir comentarios y errores, modificar parámetros y volver a ejecutar para buscar continuamente una optimización superior. Esto contrasta con las pruebas tradicionales, que miden la capacidad de la IA para 'recordar' y reproducir conocimiento de un conjunto de datos.

QSegún el artículo, ¿cuál es el cambio fundamental en el rol de la IA en tareas de ingeniería, según lo demostrado por el Frontier-Eng Bench?

AEl cambio fundamental es que la IA deja de ser un mero 'reproductor de conocimiento' o 'solucionador de problemas con respuesta fija' y comienza a actuar como un ingeniero profesional. Su rol se transforma en realizar una optimización continua dentro de un entorno con retroalimentación a largo plazo, equilibrando múltiples restricciones (como potencia, seguridad y rendimiento) y persiguiendo mejoras incrementales sin un punto final definido, en lugar de simplemente generar una respuesta.

QEl artículo menciona dos leyes 'crueles' sobre la evolución de la IA descubiertas en este benchmark. ¿Cuáles son?

ALa primera ley es que 'cuanto más avanzas, más difícil es mejorar'. La frecuencia y magnitud de las mejoras del agente siguen una decadencia de ley de potencias: la frecuencia de mejora es proporcional a 1/iteración, y la magnitud de la mejora es proporcional a 1/número_de_mejoras. La segunda ley es que 'la amplitud es útil, pero la profundidad es más indispensable'. Ejecutar múltiples líneas de exploración en paralelo (amplitud) ayuda, pero con un presupuesto fijo, sacrifica la profundidad de exploración en cada una, y muchas mejoras de ingeniería requieren de una acumulación profunda y continua para lograr avances estructurales.

Q¿Qué visión del futuro, específicamente en investigación y desarrollo (I+D), presenta el artículo con el advenimiento de la 'Auto Research'?

AEl artículo presenta una visión de un futuro 'Auto Research' donde la división del trabajo cambiará: los investigadores humanos se encargarán de proponer la dirección y los objetivos (por ejemplo, 'reducir el consumo de energía en un 30%'), mientras que los sistemas de IA actuarán como 'equipos de ingeniería incansables'. Estos agentes de IA se encargarán de la ejecución continua: ejecutarán automáticamente simulaciones y experimentos, leerán la retroalimentación de verificadores y simuladores, y modificarán y optimizarán parámetros y código las 24 horas del día, persiguiendo la optimización de los objetivos establecidos por los humanos.

Q¿Qué modelos o agentes de IA se mencionan en el artículo como evaluados en el Frontier-Eng Bench, y cuál destacó en rendimiento general?

AEl artículo menciona específicamente que GPT-5.4 (presumiblemente una referencia hipotética o futura a un modelo avanzado) mostró el rendimiento más estable en general en las pruebas del Frontier-Eng Bench. Sin embargo, también enfatiza que, incluso con este rendimiento, todos los agentes de IA evaluados están aún muy lejos de 'completar' o dominar por completo el benchmark, lo que indica la gran complejidad de las tareas y el largo camino que queda por recorrer para la inteligencia artificial en ingeniería.

Lecturas Relacionadas

El suministro de Ethereum se concentra más en carteras grandes, aquí están las cifras

La concentración de Ethereum (ETH) en manos de grandes tenedores está aumentando, ya que ballenas e inversores institucionales continúan comprando la segunda criptomoneda más grande a un ritmo agresivo. Datos on-chain recientes revelan que las carteras con al menos 100.000 ETH ahora poseen colectivamente 17,4 millones de tokens, lo que representa aproximadamente el 22,03% del suministro circulante, el nivel más alto en diez semanas. Esto sugiere una tendencia de acumulación renovada entre los grandes jugadores, incluso durante los descensos de precios. La actividad de las ballenas ha ido en aumento desde 2025, aprovechando la volatilidad del mercado para reforzar sus posiciones. Además, las reservas de ETH en exchanges continúan disminuyendo, lo que indica que los grandes tenedores están trasladando sus fondos a carteras frías para almacenamiento a largo plazo. Los datos muestran un fuerte aumento en las órdenes de compra y una ausencia virtual de órdenes de venta por parte de las ballenas en los últimos días, absorbiendo así el volumen de venta de los pequeños inversores. Un ejemplo destacado de esta confianza extrema es una ballena que abrió una posición larga apalancada de 25,6 millones de dólares en ETH, una jugada de alto riesgo que podría liquidarse con una caída modesta del precio. En conjunto, estos movimientos subrayan la creciente influencia de un pequeño grupo de grandes tenedores sobre el suministro de Ethereum.

bitcoinistHace 4 hora(s)

El suministro de Ethereum se concentra más en carteras grandes, aquí están las cifras

bitcoinistHace 4 hora(s)

El Movimiento de Ripple hacia la Privacidad: Cómo una Reorganización del Libro Mayor de XRP Afectará a la Red

El director de tecnología emérito de Ripple, David Schwartz, analizó cómo la red XRP Ledger (XRPL) podría responder ante una posible presión o ataque por parte de un actor estatal, como un régimen autoritario. Aunque reconoció que tales actores podrían causar interrupciones temporales, destacó que el daño a largo plazo sería limitado si la comunidad mantiene una respuesta activa. Schwartz explicó que, en caso de un ataque serio, el XRPL podría reorganizarse alrededor de una estructura de validadores más resistente. Propuso un posible modelo de consenso de dos capas: una capa interna para la operación diaria, con validadores fácilmente reemplazables si son atacados, y una capa externa que solo intervendría para modificar la lista de nodos únicos (UNL). Esta capa externa sería más ligera, operaría de forma intermitente y podría utilizar servicios de anonimización como Tor o I2P, lo que dificultaría su objetivo. Enfatizó que, dado que los validadores de Ripple representan menos del 20% de la red, un ataque concentrado en su infraestructura no comprometería el conjunto total de validadores. La supervivencia del XRPL dependería de la capacidad de la red para reemplazar operadores comprometidos, y solo sería crítica si los actores hostiles lograran disuadir por completo la ejecución de validadores.

bitcoinistHace 6 hora(s)

El Movimiento de Ripple hacia la Privacidad: Cómo una Reorganización del Libro Mayor de XRP Afectará a la Red

bitcoinistHace 6 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar ERA

¡Bienvenido a HTX.com! Hemos hecho que comprar Caldera (ERA) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Caldera (ERA) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Caldera (ERA)Después de comprar tu Caldera (ERA), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Caldera (ERA)Tradear fácilmente con Caldera (ERA) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

569 Vistas totalesPublicado en 2025.07.17Actualizado en 2026.06.01

Cómo comprar ERA

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ERA (ERA).

活动图片