En la era de la Auto Investigación, 47 tareas sin respuestas estándar se convierten en la lista obligatoria de evaluación de capacidades de los Agent

marsbitPublicado a 2026-05-13Actualizado a 2026-05-13

Resumen

Si se coloca a una IA en un entorno de ingeniería sin respuestas estándar, ¿podría sobrevivir? El nuevo benchmark Frontier-Eng Bench, lanzado por Einsia AI, desafía a los agentes de IA con 47 tareas multidisciplinarias y complejas, como la estabilidad de robots submarinos y la optimización de baterías, que no tienen una solución única, sino que requieren una mejora continua y adaptativa. A diferencia de los modelos anteriores que simplemente "buscaban en la memoria", este enfoque pone a la IA en un ciclo cerrado de ingeniería: proponer soluciones, ejecutar simulaciones, recibir retroalimentación, ajustar parámetros y repetir. El objetivo ya no es dar una respuesta correcta, sino medir la capacidad de la IA para mejorar de manera iterativa en entornos con múltiples restricciones, como equilibrar el rendimiento, la seguridad y la eficiencia. Los resultados muestran que, aunque modelos como GPT-5.4 demuestran un rendimiento sólido, aún queda un largo camino para dominar estas tareas. El estudio revela dos hallazgos clave: las mejoras siguen una ley de potencia, volviéndose más difíciles y pequeñas con cada iteración, y la profundidad de la optimización es más crucial que la exploración superficial en paralelo. Este avance sugiere el amanecer de una nueva era de "Auto Research", donde la IA podría actuar como un ingeniero autónomo, trabajando las 24 horas para refinar diseños y procesos basándose en la retroalimentación continua, mientras los humanos establecen los objetivos g...

Si arrojas una IA a un sitio de ingeniería sin respuestas estándar, ¿podría sobrevivir?

Durante mucho tiempo, los AI Agent parecían omnipotentes, pero en realidad, la mayoría solo "revolvían la memoria" en una base de conocimientos conocida.

Pero el mundo real de la ingeniería es despiadado: la estabilidad de los robots submarinos, el límite de litificación de las baterías de potencia, el control de ruido en circuitos cuánticos... Estos problemas no tienen una "respuesta perfecta", solo hay "una optimización que se acerca más al límite".

Recientemente, Navers lab de Einsia AI lanzó el benchmark para Agent: Frontier-Eng Bench, que formalmente despegó la etiqueta de "resolvedor de problemas" de la IA.

El equipo de investigación no hizo que la IA resolviera esos viejos problemas de código, sino que le dio un "ciclo cerrado de ingeniería" completo: proponer un plan, conectar un simulador, recibir errores, modificar parámetros y volver a ejecutar.

Ante 47 tareas duras interdisciplinarias, la IA debe comportarse como un ingeniero experimentado, buscando la solución óptima en el "triángulo imposible" de consumo de energía, seguridad y rendimiento.

Esto no es solo un conjunto de pruebas, es más bien un preludio de la "evolución" del Agent.

Cuando la IA comience a aprender a autocorregirse con la retroalimentación, la era de la Auto Investigación, donde "los humanos proponen objetivos y la IA itera ininterrumpidamente las 24 horas", podría estar más cerca de lo que imaginamos.

La IA comienza a hacer "trabajo duro"

Los modelos de lenguaje grandes del pasado se parecían más a un superestudiante.

Tú planteas un problema, él "busca en la memoria" de sus vastos datos de entrenamiento y luego ensambla una respuesta que parece razonable.

En este modo, el modelo grande esencialmente está jugando a "continuar la frase", no resolviendo problemas reales.

Pero la aparición de Frontier-Eng Bench hace que la IA comience a realizar "optimización de ingeniería".

El proceso cambió a que la IA primero proponga un plan, luego conecte un simulador para ejecutar experimentos, obtenga retroalimentación y errores, modifique parámetros y código, y luego continúe ejecutando hasta que el rendimiento siga mejorando.

En este sistema de ciclo cerrado, la identidad de la IA cambió cualitativamente.

¿Quieres que el robot submarino sea más estable? La IA debe comenzar a ajustar automáticamente el controlador.

¿Quieres aumentar un poco más la velocidad del brazo robótico? La IA tiene que ejecutar simulaciones por sí misma.

En cierto sentido, las IAs ya han abandonado la mera comprensión semántica y han comenzado a actuar como un ingeniero profesional, realizando optimizaciones continuas en un entorno real con retroalimentación.

Lo más interesante de Frontier-Eng Bench es que no mide si la IA "respondió correctamente", sino si la IA realmente puede volverse más fuerte continuamente.

Porque la optimización real de la ingeniería nunca ha sido una pregunta de opción múltiple; no hay una única respuesta estándar.

Tomemos como ejemplo la carga rápida de baterías: el objetivo suena simple: cargar lo más rápido posible, pero la realidad no es tan fácil.

La IA debe, bajo restricciones estrictas de que la temperatura no se dispare, el voltaje no se exceda, la vida útil de la batería no disminuya demasiado rápido y evitando la litificación, encontrar con precisión el punto de equilibrio del rendimiento.

Esto significa que la IA no puede aprobar utilizando ningún "truco" para resolver problemas; debe mostrar resistencia para evolucionar continuamente en la retroalimentación a largo plazo.

¿Puede la IA realizar una optimización a largo plazo en un entorno real?

Según los resultados, GPT5.4 tuvo el rendimiento general más estable, pero aún hay un largo camino por recorrer para que las IAs "completen" el Benchmark.

La Auto Investigación entra en la era de la "optimización iterativa"

El equipo de investigación mencionó un punto muy interesante en su artículo:

La verdadera inteligencia avanzada depende esencialmente de un ciclo cerrado de retroalimentación a largo plazo.

Así como AlphaGo pudo derrotar a Lee Sedol gracias a la enorme cantidad de simulaciones y retroalimentación instantánea detrás de cada decisión, no a la memorización rígida de partidas establecidas.

La verdadera investigación científica es igual: los mejores laboratorios no dependen de un destello de inspiración, sino que constantemente plantean hipótesis, ejecutan experimentos, observan resultados, modifican planes y continúan intentando.

Lo mismo ocurre con la optimización de ingeniería: cualquiera puede hacer la primera versión; lo realmente difícil es ese salto de rendimiento del último 1%.

El significado de Frontier-Eng Bench radica en que: es la primera vez que comienza a evaluar sistemáticamente la "capacidad de optimización iterativa" de la IA, y resumió dos leyes de evolución de la IA casi despiadadas.

La primera ley es: Cuanto más avanzado, más difícil es mejorar.

Este artículo encontró que la frecuencia y magnitud de las mejoras del Agent muestran una decadencia de ley de potencia:

  • Frecuencia de mejora ∝ 1 / número de iteraciones
  • Magnitud de mejora ∝ 1 / número de mejoras

En pocas palabras: en las primeras rondas se mejora más rápido, luego se vuelve cada vez más difícil y las mejoras son cada vez menores.

Esto se parece mucho al proceso real de investigación y desarrollo: la primera versión de la IA puede eliminar rápidamente muchas "frutas al alcance de la mano", pero cuanto más avanzado, más cerca se está del cuello de botella, y extraer un poco más de rendimiento requiere un gran esfuerzo.

Entonces, ¿sería más rentable probar en paralelo varias rutas? La respuesta se esconde en la segunda ley.

Segunda ley: La amplitud es útil, pero la profundidad es aún más indispensable.

Ejecutar varias líneas en paralelo puede evitar atascos, pero con un presupuesto fijo, cada cadena adicional reduce la profundidad.

Muchos avances en ingeniería requieren acumulación continua y corrección constante para lograr un salto estructural; no se logran simplemente "probando más veces".

Esto en realidad nos indica la dirección de desarrollo para la próxima generación de Agent: no un modelo que "da la respuesta de una vez", sino un sistema que pueda iterar continuamente y evolucionar por sí mismo en una retroalimentación de largo plazo.

El ingeniero de IA podría realmente estar llegando

El verdadero significado profundo de esta investigación radica en que esboza preliminarmente un sistema de IA que comienza a acercarse al ciclo real de la ingeniería.

Imagina esto: cuando la IA se conecta a software industrial, entornos de simulación, sistemas CAD, herramientas de diseño de chips, plataformas de computación científica...

Una transformación radical en la modalidad de productividad está a punto de ocurrir.

En los laboratorios del futuro, podría aparecer una división del trabajo como esta:

Los investigadores humanos son responsables de proponer direcciones y objetivos.

Por ejemplo, "reducir el consumo de energía de este componente en un 30%", "disminuir aún más el uso de GPU en el forward de este modelo", "aumentar un poco más la estabilidad del control del robot", "hacer que la fidelidad del circuito cuántico continúe acercándose al límite", etc.

Y la IA se encarga de "insistir en el camino". Giran en torno a estos objetivos, optimizando continuamente.

Por ejemplo, ejecutando automáticamente simulaciones y experimentos, leyendo automáticamente la retroalimentación del verificador y el simulador, y luego modificando y optimizando, iterando las 24 horas sin parar.

Esta lógica de evolución libera a la IA de su identidad como "herramienta auxiliar", comenzando a resolver problemas de sistemas complejos como un verdadero equipo de ingeniería, y además, sin cansarse.

Y los problemas que revela el benchmark Frontier-Eng son en realidad muy directos:

Cuando la IA comienza a aprender a "optimizar a largo plazo", ¿qué tan lejos está de la verdadera inteligencia de ingeniería?

Título del artículo: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Página del proyecto: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositorio de GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Este artículo proviene del WeChat público "Quantum Bit", autor: Yun Zhong

Preguntas relacionadas

Q¿Qué es el Frontier-Eng Bench y qué tipo de pruebas introduce frente a los benchmarks tradicionales de IA?

AEl Frontier-Eng Bench es un benchmark de evaluación para agentes de IA desarrollado por Naver's Lab de Einsia AI. Introduce un conjunto de 47 tareas interdisciplinarias y complejas sin una única respuesta correcta, obligando a la IA a participar en un 'ciclo cerrado de ingeniería': proponer un plan, conectarse a un simulador, recibir comentarios y errores, modificar parámetros y volver a ejecutar para buscar continuamente una optimización superior. Esto contrasta con las pruebas tradicionales, que miden la capacidad de la IA para 'recordar' y reproducir conocimiento de un conjunto de datos.

QSegún el artículo, ¿cuál es el cambio fundamental en el rol de la IA en tareas de ingeniería, según lo demostrado por el Frontier-Eng Bench?

AEl cambio fundamental es que la IA deja de ser un mero 'reproductor de conocimiento' o 'solucionador de problemas con respuesta fija' y comienza a actuar como un ingeniero profesional. Su rol se transforma en realizar una optimización continua dentro de un entorno con retroalimentación a largo plazo, equilibrando múltiples restricciones (como potencia, seguridad y rendimiento) y persiguiendo mejoras incrementales sin un punto final definido, en lugar de simplemente generar una respuesta.

QEl artículo menciona dos leyes 'crueles' sobre la evolución de la IA descubiertas en este benchmark. ¿Cuáles son?

ALa primera ley es que 'cuanto más avanzas, más difícil es mejorar'. La frecuencia y magnitud de las mejoras del agente siguen una decadencia de ley de potencias: la frecuencia de mejora es proporcional a 1/iteración, y la magnitud de la mejora es proporcional a 1/número_de_mejoras. La segunda ley es que 'la amplitud es útil, pero la profundidad es más indispensable'. Ejecutar múltiples líneas de exploración en paralelo (amplitud) ayuda, pero con un presupuesto fijo, sacrifica la profundidad de exploración en cada una, y muchas mejoras de ingeniería requieren de una acumulación profunda y continua para lograr avances estructurales.

Q¿Qué visión del futuro, específicamente en investigación y desarrollo (I+D), presenta el artículo con el advenimiento de la 'Auto Research'?

AEl artículo presenta una visión de un futuro 'Auto Research' donde la división del trabajo cambiará: los investigadores humanos se encargarán de proponer la dirección y los objetivos (por ejemplo, 'reducir el consumo de energía en un 30%'), mientras que los sistemas de IA actuarán como 'equipos de ingeniería incansables'. Estos agentes de IA se encargarán de la ejecución continua: ejecutarán automáticamente simulaciones y experimentos, leerán la retroalimentación de verificadores y simuladores, y modificarán y optimizarán parámetros y código las 24 horas del día, persiguiendo la optimización de los objetivos establecidos por los humanos.

Q¿Qué modelos o agentes de IA se mencionan en el artículo como evaluados en el Frontier-Eng Bench, y cuál destacó en rendimiento general?

AEl artículo menciona específicamente que GPT-5.4 (presumiblemente una referencia hipotética o futura a un modelo avanzado) mostró el rendimiento más estable en general en las pruebas del Frontier-Eng Bench. Sin embargo, también enfatiza que, incluso con este rendimiento, todos los agentes de IA evaluados están aún muy lejos de 'completar' o dominar por completo el benchmark, lo que indica la gran complejidad de las tareas y el largo camino que queda por recorrer para la inteligencia artificial en ingeniería.

Lecturas Relacionadas

¿Aumento del 134% y PER de 75 veces? ¿Por qué el mercado paga por Murata, con 'crecimiento cero'?

El fabricante líder mundial de componentes pasivos, Murata Manufacturing, experimentó un fuerte aumento del 12,36% en su acción el 28 de mayo, alcanzando un máximo histórico. Esto ocurre a pesar de que su último informe financiero mostró un crecimiento plano: los ingresos del año fiscal 2026 crecieron solo un 5% y las ganancias operativas un 0,8%. La clave de esta disparidad entre el desempeño y la valoración (PER de ~75x) radica en las perspectivas futuras. El catalizador fue una reunión con analistas el 27 de mayo, donde la gerencia revisó al alza el pico de inversión en IA de "alrededor de 2028" a "hasta alrededor de 2030", y señaló una fuerte demanda que duplica la capacidad disponible ("los clientes priorizan el volumen sobre el precio"). El mercado está valorando la guía para el año fiscal 2027: Murata proyecta un salto del 34,8% en las ganancias operativas, hasta 3800 mil millones de yenes. Este crecimiento se espera que sea impulsado por sus negocios relacionados con IA/centros de datos, cuyos ingresos podrían casi duplicarse, pasando de ~1700 mil millones a ~3250 mil millones de yenes, representando alrededor del 17% de los ingresos totales. El crecimiento no se basa en aumentos cíclicos de precios, sino en una mejora estructural hacia productos MLCC más avanzados y de mayor valor, donde Murata posee una participación de mercado superior al 70%. Esto otorga a la empresa un poder de fijación de precios sostenible, lo que justifica la prima de valoración. Sin embargo, el alto PER también conlleva riesgos si la demanda de IA se desacelera o las expectativas no se materializan.

marsbitHace 2 min(s)

¿Aumento del 134% y PER de 75 veces? ¿Por qué el mercado paga por Murata, con 'crecimiento cero'?

marsbitHace 2 min(s)

a16z: ¿Por qué son importantes los mercados de predicción?

Los mercados de predicción permiten a los usuarios comerciar sobre los resultados de diversos eventos, desde geopolítica hasta premios de entretenimiento. Estos mercados, que han ganado popularidad recientemente, funcionan como cualquier otro mercado: agregan información dispersa entre los participantes y la convierten en señales de precios, que en este caso representan la probabilidad percibida de que ocurra un evento. A diferencia de las encuestas estáticas, los mercados de predicción ofrecen probabilidades cuantificadas y en tiempo real. Su principal ventaja es el mecanismo de incentivos: los participantes arriesgan su propio capital, lo que les motiva a actuar solo cuando tienen información valiosa o conocimientos específicos, mejorando así la precisión de la predicción. Además, pueden cubrir una gama de eventos mucho más amplia que los mercados tradicionales. Sin embargo, estos mercados enfrentan desafíos significativos. En la infraestructura, destacan la necesidad de un mecanismo fiable para determinar resultados y resolver disputas. En el diseño del mercado, es crucial asegurar la participación de agentes informados sin caer en el uso de información privilegiada o en la manipulación de precios para influir en la percepción pública. Si la industria logra superar estos obstáculos mediante mejores reglas y diseños, los mercados de predicción podrían convertirse en una herramienta fundamental para anticipar el futuro y gestionar la incertidumbre.

marsbitHace 12 min(s)

a16z: ¿Por qué son importantes los mercados de predicción?

marsbitHace 12 min(s)

Entrevista a 7 profesionales comunes: Después de la llegada de la IA, ¿te va bien?

**Entrevista a 7 profesionales sobre la IA: ¿Cómo te va después de su llegada?** En 2026, las olas de despidos y la ansiedad estructural acompañan la eficiencia impulsada por la IA. TinTinLand entrevistó a 7 profesionales de diversos sectores para explorar los cambios reales. **¿Aprovechar la oportunidad o ser arrastrado?** Los entrevistados adoptaron la IA por presión laboral, para aumentar la productividad ("ser un súper individuo") o automatizar procesos. Los cambios son profundos: nuevo modo de pensar y aprender, búsquedas más eficientes, creación de contenido más rápida y la posibilidad de equipos de una sola persona. La mayor ayuda es superar límites, pero la amenaza es la ansiedad por quedar obsoleto y una competencia más feroz. **Impacto: Recalificación y reestructuración de puestos.** La IA ha elevado la eficiencia y las expectativas, ampliando la brecha entre quienes la adoptan rápido y quienes no. Se prevé una reducción significativa en roles como secretaría, finanzas, reclutamiento y atención al cliente. La IA actúa como un "nivelador" que empodera más a los fuertes. **Estrés y ansiedad: El lado oscuro de la eficiencia.** La fatiga surge no por ser reemplazados, sino porque la IA amplía el alcance del trabajo y la presión por aprender constantemente. La ansiedad se centra en la posible contracción futura del mercado laboral y en la pérdida de control profesional, llevando a algunos a buscar nuevas fuentes de ingresos o a convertirse en autónomos. **Foso defensivo: Lo irreemplazablemente humano.** Frente a los costos hundidos, la clave es ver la IA como una herramienta y mejorar las capacidades de juicio, validación y comprensión del negocio. Tareas que aún requieren intervención humana incluyen la comunicación con clientes para necesidades complejas, la resolución de anomalías basada en experiencia contextual profunda y la supervisión final de sistemas de alto riesgo (finanzas, Web3), donde la responsabilidad última es humana. **Guía práctica y para el futuro.** Herramientas como Claude Code, GPT y Gemini son destacadas para codificación. Si la IA asume el trabajo básico, los profesionales se visualizan como **responsables de sistemas complejos** (enfocados en riesgos y negocio), **coordinadores súper** que gestionan múltiples agentes de IA, o creadores de productos y marcas personales. La dependencia de la IA varía de moderada a alta, pero su desaparición ralentizaría, no paralizaría, el trabajo. **Conclusión:** La IA no es opcional. Está rompiendo fronteras profesionales tradicionales, pero también está formando un nuevo sistema de valor donde el juicio humano, la comprensión del contexto y la responsabilidad siguen siendo cruciales. Todos los entrevistados se están adaptando, aprendiendo y redefiniendo su lugar en este nuevo panorama.

marsbitHace 25 min(s)

Entrevista a 7 profesionales comunes: Después de la llegada de la IA, ¿te va bien?

marsbitHace 25 min(s)

¿Satoshi Nakamoto envuelto en un pleito? Se reclaman "legalmente" 83.700 millones de dólares en BTC

Un litigio en Nueva York busca reclamar la propiedad legal de 3.8 millones de Bitcoin (BTC) valorados en casi 3 billones de dólares, incluyendo aproximadamente 1.1 millones de BTC asociados a las direcciones tempranas de Satoshi Nakamoto. La demanda, presentada por el anónimo "Noah Doe" y dos sociedades limitadas, utiliza una interpretación novedosa de la ley de propiedad perdida de Nueva York. Los demandantes argumentan que estas direcciones, inactivas durante años, constituyen "propiedad perdida". Alegaron haber "encontrado" las direcciones y entregado una lista en una unidad USB a la policía. Basándose en una valoración cuestionable de menos de 10 dólares por dirección, buscan una sentencia declarativa de propiedad a través de un proceso abreviado. Notificaron a los supuestos dueños mediante transacciones OP_RETURN en la cadena de bloques. Un análisis de Galaxy Digital revela que los fondos incluyen no solo las direcciones de Nakamoto, sino también fondos de antiguos hackeos como Mt. Gox y direcciones de destrucción de fondos. La demanda presenta múltiples puntos débiles legales: la aplicación de la ley de objetos perdidos a activos digitales nunca poseídos físicamente, la valoración irrelevante y el uso del anonimato por parte de los demandantes. Incluso si ganaran, los demandantes no obtendrían las claves privadas, solo un documento judicial. El riesgo real es que este documento se utilice como "tacha de título" para disputar y congelar estos fondos si alguna vez son transferidos a un intercambio o custodio regulado en el futuro, forzando a los dueños reales a revelar su identidad para defender su propiedad.

marsbitHace 30 min(s)

¿Satoshi Nakamoto envuelto en un pleito? Se reclaman "legalmente" 83.700 millones de dólares en BTC

marsbitHace 30 min(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar ERA

¡Bienvenido a HTX.com! Hemos hecho que comprar Caldera (ERA) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Caldera (ERA) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Caldera (ERA)Después de comprar tu Caldera (ERA), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Caldera (ERA)Tradear fácilmente con Caldera (ERA) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

568 Vistas totalesPublicado en 2025.07.17Actualizado en 2025.07.17

Cómo comprar ERA

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ERA (ERA).

活动图片