En la era de la Auto Investigación, 47 tareas sin respuestas estándar se convierten en la lista obligatoria de evaluación de capacidades de los Agent

marsbitPublicado a 2026-05-13Actualizado a 2026-05-13

Resumen

Si se coloca a una IA en un entorno de ingeniería sin respuestas estándar, ¿podría sobrevivir? El nuevo benchmark Frontier-Eng Bench, lanzado por Einsia AI, desafía a los agentes de IA con 47 tareas multidisciplinarias y complejas, como la estabilidad de robots submarinos y la optimización de baterías, que no tienen una solución única, sino que requieren una mejora continua y adaptativa. A diferencia de los modelos anteriores que simplemente "buscaban en la memoria", este enfoque pone a la IA en un ciclo cerrado de ingeniería: proponer soluciones, ejecutar simulaciones, recibir retroalimentación, ajustar parámetros y repetir. El objetivo ya no es dar una respuesta correcta, sino medir la capacidad de la IA para mejorar de manera iterativa en entornos con múltiples restricciones, como equilibrar el rendimiento, la seguridad y la eficiencia. Los resultados muestran que, aunque modelos como GPT-5.4 demuestran un rendimiento sólido, aún queda un largo camino para dominar estas tareas. El estudio revela dos hallazgos clave: las mejoras siguen una ley de potencia, volviéndose más difíciles y pequeñas con cada iteración, y la profundidad de la optimización es más crucial que la exploración superficial en paralelo. Este avance sugiere el amanecer de una nueva era de "Auto Research", donde la IA podría actuar como un ingeniero autónomo, trabajando las 24 horas para refinar diseños y procesos basándose en la retroalimentación continua, mientras los humanos establecen los objetivos g...

Si arrojas una IA a un sitio de ingeniería sin respuestas estándar, ¿podría sobrevivir?

Durante mucho tiempo, los AI Agent parecían omnipotentes, pero en realidad, la mayoría solo "revolvían la memoria" en una base de conocimientos conocida.

Pero el mundo real de la ingeniería es despiadado: la estabilidad de los robots submarinos, el límite de litificación de las baterías de potencia, el control de ruido en circuitos cuánticos... Estos problemas no tienen una "respuesta perfecta", solo hay "una optimización que se acerca más al límite".

Recientemente, Navers lab de Einsia AI lanzó el benchmark para Agent: Frontier-Eng Bench, que formalmente despegó la etiqueta de "resolvedor de problemas" de la IA.

El equipo de investigación no hizo que la IA resolviera esos viejos problemas de código, sino que le dio un "ciclo cerrado de ingeniería" completo: proponer un plan, conectar un simulador, recibir errores, modificar parámetros y volver a ejecutar.

Ante 47 tareas duras interdisciplinarias, la IA debe comportarse como un ingeniero experimentado, buscando la solución óptima en el "triángulo imposible" de consumo de energía, seguridad y rendimiento.

Esto no es solo un conjunto de pruebas, es más bien un preludio de la "evolución" del Agent.

Cuando la IA comience a aprender a autocorregirse con la retroalimentación, la era de la Auto Investigación, donde "los humanos proponen objetivos y la IA itera ininterrumpidamente las 24 horas", podría estar más cerca de lo que imaginamos.

La IA comienza a hacer "trabajo duro"

Los modelos de lenguaje grandes del pasado se parecían más a un superestudiante.

Tú planteas un problema, él "busca en la memoria" de sus vastos datos de entrenamiento y luego ensambla una respuesta que parece razonable.

En este modo, el modelo grande esencialmente está jugando a "continuar la frase", no resolviendo problemas reales.

Pero la aparición de Frontier-Eng Bench hace que la IA comience a realizar "optimización de ingeniería".

El proceso cambió a que la IA primero proponga un plan, luego conecte un simulador para ejecutar experimentos, obtenga retroalimentación y errores, modifique parámetros y código, y luego continúe ejecutando hasta que el rendimiento siga mejorando.

En este sistema de ciclo cerrado, la identidad de la IA cambió cualitativamente.

¿Quieres que el robot submarino sea más estable? La IA debe comenzar a ajustar automáticamente el controlador.

¿Quieres aumentar un poco más la velocidad del brazo robótico? La IA tiene que ejecutar simulaciones por sí misma.

En cierto sentido, las IAs ya han abandonado la mera comprensión semántica y han comenzado a actuar como un ingeniero profesional, realizando optimizaciones continuas en un entorno real con retroalimentación.

Lo más interesante de Frontier-Eng Bench es que no mide si la IA "respondió correctamente", sino si la IA realmente puede volverse más fuerte continuamente.

Porque la optimización real de la ingeniería nunca ha sido una pregunta de opción múltiple; no hay una única respuesta estándar.

Tomemos como ejemplo la carga rápida de baterías: el objetivo suena simple: cargar lo más rápido posible, pero la realidad no es tan fácil.

La IA debe, bajo restricciones estrictas de que la temperatura no se dispare, el voltaje no se exceda, la vida útil de la batería no disminuya demasiado rápido y evitando la litificación, encontrar con precisión el punto de equilibrio del rendimiento.

Esto significa que la IA no puede aprobar utilizando ningún "truco" para resolver problemas; debe mostrar resistencia para evolucionar continuamente en la retroalimentación a largo plazo.

¿Puede la IA realizar una optimización a largo plazo en un entorno real?

Según los resultados, GPT5.4 tuvo el rendimiento general más estable, pero aún hay un largo camino por recorrer para que las IAs "completen" el Benchmark.

La Auto Investigación entra en la era de la "optimización iterativa"

El equipo de investigación mencionó un punto muy interesante en su artículo:

La verdadera inteligencia avanzada depende esencialmente de un ciclo cerrado de retroalimentación a largo plazo.

Así como AlphaGo pudo derrotar a Lee Sedol gracias a la enorme cantidad de simulaciones y retroalimentación instantánea detrás de cada decisión, no a la memorización rígida de partidas establecidas.

La verdadera investigación científica es igual: los mejores laboratorios no dependen de un destello de inspiración, sino que constantemente plantean hipótesis, ejecutan experimentos, observan resultados, modifican planes y continúan intentando.

Lo mismo ocurre con la optimización de ingeniería: cualquiera puede hacer la primera versión; lo realmente difícil es ese salto de rendimiento del último 1%.

El significado de Frontier-Eng Bench radica en que: es la primera vez que comienza a evaluar sistemáticamente la "capacidad de optimización iterativa" de la IA, y resumió dos leyes de evolución de la IA casi despiadadas.

La primera ley es: Cuanto más avanzado, más difícil es mejorar.

Este artículo encontró que la frecuencia y magnitud de las mejoras del Agent muestran una decadencia de ley de potencia:

  • Frecuencia de mejora ∝ 1 / número de iteraciones
  • Magnitud de mejora ∝ 1 / número de mejoras

En pocas palabras: en las primeras rondas se mejora más rápido, luego se vuelve cada vez más difícil y las mejoras son cada vez menores.

Esto se parece mucho al proceso real de investigación y desarrollo: la primera versión de la IA puede eliminar rápidamente muchas "frutas al alcance de la mano", pero cuanto más avanzado, más cerca se está del cuello de botella, y extraer un poco más de rendimiento requiere un gran esfuerzo.

Entonces, ¿sería más rentable probar en paralelo varias rutas? La respuesta se esconde en la segunda ley.

Segunda ley: La amplitud es útil, pero la profundidad es aún más indispensable.

Ejecutar varias líneas en paralelo puede evitar atascos, pero con un presupuesto fijo, cada cadena adicional reduce la profundidad.

Muchos avances en ingeniería requieren acumulación continua y corrección constante para lograr un salto estructural; no se logran simplemente "probando más veces".

Esto en realidad nos indica la dirección de desarrollo para la próxima generación de Agent: no un modelo que "da la respuesta de una vez", sino un sistema que pueda iterar continuamente y evolucionar por sí mismo en una retroalimentación de largo plazo.

El ingeniero de IA podría realmente estar llegando

El verdadero significado profundo de esta investigación radica en que esboza preliminarmente un sistema de IA que comienza a acercarse al ciclo real de la ingeniería.

Imagina esto: cuando la IA se conecta a software industrial, entornos de simulación, sistemas CAD, herramientas de diseño de chips, plataformas de computación científica...

Una transformación radical en la modalidad de productividad está a punto de ocurrir.

En los laboratorios del futuro, podría aparecer una división del trabajo como esta:

Los investigadores humanos son responsables de proponer direcciones y objetivos.

Por ejemplo, "reducir el consumo de energía de este componente en un 30%", "disminuir aún más el uso de GPU en el forward de este modelo", "aumentar un poco más la estabilidad del control del robot", "hacer que la fidelidad del circuito cuántico continúe acercándose al límite", etc.

Y la IA se encarga de "insistir en el camino". Giran en torno a estos objetivos, optimizando continuamente.

Por ejemplo, ejecutando automáticamente simulaciones y experimentos, leyendo automáticamente la retroalimentación del verificador y el simulador, y luego modificando y optimizando, iterando las 24 horas sin parar.

Esta lógica de evolución libera a la IA de su identidad como "herramienta auxiliar", comenzando a resolver problemas de sistemas complejos como un verdadero equipo de ingeniería, y además, sin cansarse.

Y los problemas que revela el benchmark Frontier-Eng son en realidad muy directos:

Cuando la IA comienza a aprender a "optimizar a largo plazo", ¿qué tan lejos está de la verdadera inteligencia de ingeniería?

Título del artículo: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Página del proyecto: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositorio de GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Este artículo proviene del WeChat público "Quantum Bit", autor: Yun Zhong

Preguntas relacionadas

Q¿Qué es el Frontier-Eng Bench y qué tipo de pruebas introduce frente a los benchmarks tradicionales de IA?

AEl Frontier-Eng Bench es un benchmark de evaluación para agentes de IA desarrollado por Naver's Lab de Einsia AI. Introduce un conjunto de 47 tareas interdisciplinarias y complejas sin una única respuesta correcta, obligando a la IA a participar en un 'ciclo cerrado de ingeniería': proponer un plan, conectarse a un simulador, recibir comentarios y errores, modificar parámetros y volver a ejecutar para buscar continuamente una optimización superior. Esto contrasta con las pruebas tradicionales, que miden la capacidad de la IA para 'recordar' y reproducir conocimiento de un conjunto de datos.

QSegún el artículo, ¿cuál es el cambio fundamental en el rol de la IA en tareas de ingeniería, según lo demostrado por el Frontier-Eng Bench?

AEl cambio fundamental es que la IA deja de ser un mero 'reproductor de conocimiento' o 'solucionador de problemas con respuesta fija' y comienza a actuar como un ingeniero profesional. Su rol se transforma en realizar una optimización continua dentro de un entorno con retroalimentación a largo plazo, equilibrando múltiples restricciones (como potencia, seguridad y rendimiento) y persiguiendo mejoras incrementales sin un punto final definido, en lugar de simplemente generar una respuesta.

QEl artículo menciona dos leyes 'crueles' sobre la evolución de la IA descubiertas en este benchmark. ¿Cuáles son?

ALa primera ley es que 'cuanto más avanzas, más difícil es mejorar'. La frecuencia y magnitud de las mejoras del agente siguen una decadencia de ley de potencias: la frecuencia de mejora es proporcional a 1/iteración, y la magnitud de la mejora es proporcional a 1/número_de_mejoras. La segunda ley es que 'la amplitud es útil, pero la profundidad es más indispensable'. Ejecutar múltiples líneas de exploración en paralelo (amplitud) ayuda, pero con un presupuesto fijo, sacrifica la profundidad de exploración en cada una, y muchas mejoras de ingeniería requieren de una acumulación profunda y continua para lograr avances estructurales.

Q¿Qué visión del futuro, específicamente en investigación y desarrollo (I+D), presenta el artículo con el advenimiento de la 'Auto Research'?

AEl artículo presenta una visión de un futuro 'Auto Research' donde la división del trabajo cambiará: los investigadores humanos se encargarán de proponer la dirección y los objetivos (por ejemplo, 'reducir el consumo de energía en un 30%'), mientras que los sistemas de IA actuarán como 'equipos de ingeniería incansables'. Estos agentes de IA se encargarán de la ejecución continua: ejecutarán automáticamente simulaciones y experimentos, leerán la retroalimentación de verificadores y simuladores, y modificarán y optimizarán parámetros y código las 24 horas del día, persiguiendo la optimización de los objetivos establecidos por los humanos.

Q¿Qué modelos o agentes de IA se mencionan en el artículo como evaluados en el Frontier-Eng Bench, y cuál destacó en rendimiento general?

AEl artículo menciona específicamente que GPT-5.4 (presumiblemente una referencia hipotética o futura a un modelo avanzado) mostró el rendimiento más estable en general en las pruebas del Frontier-Eng Bench. Sin embargo, también enfatiza que, incluso con este rendimiento, todos los agentes de IA evaluados están aún muy lejos de 'completar' o dominar por completo el benchmark, lo que indica la gran complejidad de las tareas y el largo camino que queda por recorrer para la inteligencia artificial en ingeniería.

Lecturas Relacionadas

Entrevista al gurú macro Raoul Pal: El punto de inflexión económico se acerca, no te bajes fácilmente en los próximos cuatro años

En su última aparición en el podcast "When Shift Happens", el macroinvestidor Raoul Pal analizó la carrera global por la IA y su impacto en los mercados. Pal argumenta que la competencia entre EE.UU. y China por la Inteligencia General Artificial (AGI) es el mayor evento de capital de la historia, impulsando una expansión de liquidez y alzas en bolsa. Introduce el concepto del "Singularidad Económica", un punto donde el crecimiento tecnológico exponencial, especialmente de agentes de IA, superará la capacidad del sistema económico actual. A pesar del auge de la IA, Pal mantiene que las criptomonedas ofrecen uno de los mejores perfiles de riesgo/rendimiento a largo plazo. Destaca el potencial ilimitado del mercado cripto con la llegada de una "economía de agentes" de IA que operarán en cadena. Considera la reciente corrección de Bitcoin como un retroceso saludable dentro de un mercado alcista y aboga por la estrategia de "comprar y mantener" frente al trading activo. Entre sus convicciones clave: * **Layer 1s como inversión principal:** Ethereum, Solana y Sui capturarán la mayor parte del valor al ser la infraestructura base para la futura economía digital y de agentes de IA. * **DeFi para máquinas:** Los sistemas financieros descentralizados serán utilizados masivamente por agentes de IA para transacciones eficientes. * **NFTs como activos "trofeo":** El arte digital de alta gana valor como registro cultural y bien de estatus en una economía en expansión. * **Perspectiva alcista macro:** Factores como la mayor adopción institucional, claridad regulatoria potencial y la necesidad continua de expansión monetaria de los gobiernos crean un entorno favorable. Pal concluye que, con la Singularidad Económica aproximándose en unos 4 años, los inversores deberían acumular y mantener activos criptográficos, que considera el "plan de pensiones de la humanidad" para navegar la mayor transición tecnológica.

链捕手Hace 9 min(s)

Entrevista al gurú macro Raoul Pal: El punto de inflexión económico se acerca, no te bajes fácilmente en los próximos cuatro años

链捕手Hace 9 min(s)

¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

El equipo de Meta presenta MobileMoE, el primer modelo de mezcla de expertos (MoE) optimizado para ejecutarse de manera eficiente en teléfonos inteligentes comerciales. Diseñado como un modelo de lenguaje Transformer decoder-only, MobileMoE reemplaza las capas densas de feed-forward por capas MoE, empleando un router que selecciona los pocos expertos más relevantes por token junto con un experto compartido. El modelo se entrena en cuatro fases: preentrenamiento, entrenamiento intermedio, ajuste fino supervisado y entrenamiento consciente de cuantización (hasta INT4/INT8). Los experimentos determinan una configuración óptima de 8 expertos con granularidad 8, enrutamiento top-4 y un experto compartido. En evaluaciones de referencia, MobileMoE-S/M logra una precisión media comparable o superior a modelos densos, utilizando entre 1/2 y 1/4 del cálculo de inferencia con memoria similar. Especialmente en iPhone 16 Pro, MobileMoE-S acelera la fase de entrada hasta 3.8 veces y la generación token por token hasta 3.4 veces respecto a líneas de base. MobileMoE establece un nuevo límite de Pareto para modelos de lenguaje grandes en dispositivos, mejorando el equilibrio entre precisión y coste computacional. Los desafíos futuros incluyen mejorar la capacidad de seguimiento de instrucciones y la gestión de memoria dinámica, así como explorar el despliegue en NPU móviles.

marsbitHace 13 min(s)

¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

marsbitHace 13 min(s)

Débil rebote de Bitcoin no oculta tendencia de ajuste, señal de techo de HYPE alerta sobre riesgos a corto plazo | Análisis invitado

**Resumen del Análisis de Mercado: BTC y HYPE** **Perspectiva General del Mercado:** La estructura diaria de Bitcoin (BTC) muestra debilidad, con una caída por debajo de la mediana de su canal alcista (amarillo) hacia el soporte inferior. Actualmente experimenta un rebote técnico débil dentro de un canal bajista a corto plazo (azul). La resistencia clave se sitúa en la zona de $75,000-$76,000, y si el precio no logra superarla, es probable que se reanude la tendencia bajista, probando el soporte en $69,500-$70,500. **Estrategia Operativa para BTC:** * **Estrategia principal:** Vender en resistencia ("Sell High"). * **Plan A:** Abrir posiciones cortas (hasta 30% de capital) si el precio encuentra resistencia en $75,000-$76,000, con stop-loss inicial por encima de $77,000. * **Plan B:** Abrir posiciones cortas si el precio cierra decisivamente por debajo de $69,500-$70,500, con stop-loss por encima de $72,000. * **Meta de ganancias:** Cobertura parcial o total cerca de niveles de soporte importantes. **Análisis de HYPE:** En el gráfico de 4 horas, HYPE ha completado una estructura alcista de siete segmentos desde mínimos de mediados de mayo. El segmento final (46-47) muestra divergencia bajista de impulso (momentum), y el modelo de trading del analista señala una fuerte advertencia de techo. Esto sugiere un posible agotamiento del movimiento alcista actual. **Estrategia para HYPE:** * **Enfoque:** Comprar en soporte, evitar comprar en máximos. * **Estrategia 1:** Considerar entradas largas ligeras (menos del 30%) si el precio se estabiliza en la zona de soporte de $62.5-$64.75, confirmado por señales de fondo en los modelos. * **Estrategia 2:** Si el precio cierra por debajo de $62.5, la corrección podría ampliarse hacia la zona de $54-$56.3. **Gestión de Riesgos (Aplicable a ambas):** * Establecer stop-loss inmediatamente al abrir una operación. * Mover el stop-loss al punto de equilibrio cuando la ganancia sea del 1%. * Bloquear ganancias moviendo el stop-loss de forma progresiva (ej., cada 1% de ganancia adicional). **Nota importante:** Los mercados son dinámicos. Este análisis se basa en metodologías técnicas personales y no constituye asesoramiento de inversión. Opere con cautela.

marsbitHace 29 min(s)

Débil rebote de Bitcoin no oculta tendencia de ajuste, señal de techo de HYPE alerta sobre riesgos a corto plazo | Análisis invitado

marsbitHace 29 min(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar ERA

¡Bienvenido a HTX.com! Hemos hecho que comprar Caldera (ERA) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Caldera (ERA) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Caldera (ERA)Después de comprar tu Caldera (ERA), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Caldera (ERA)Tradear fácilmente con Caldera (ERA) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

568 Vistas totalesPublicado en 2025.07.17Actualizado en 2025.07.17

Cómo comprar ERA

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ERA (ERA).

活动图片