En la era de la Auto Investigación, 47 tareas sin respuestas estándar se convierten en la lista obligatoria de evaluación de capacidades de los Agent

marsbitPublicado a 2026-05-13Actualizado a 2026-05-13

Resumen

Si se coloca a una IA en un entorno de ingeniería sin respuestas estándar, ¿podría sobrevivir? El nuevo benchmark Frontier-Eng Bench, lanzado por Einsia AI, desafía a los agentes de IA con 47 tareas multidisciplinarias y complejas, como la estabilidad de robots submarinos y la optimización de baterías, que no tienen una solución única, sino que requieren una mejora continua y adaptativa. A diferencia de los modelos anteriores que simplemente "buscaban en la memoria", este enfoque pone a la IA en un ciclo cerrado de ingeniería: proponer soluciones, ejecutar simulaciones, recibir retroalimentación, ajustar parámetros y repetir. El objetivo ya no es dar una respuesta correcta, sino medir la capacidad de la IA para mejorar de manera iterativa en entornos con múltiples restricciones, como equilibrar el rendimiento, la seguridad y la eficiencia. Los resultados muestran que, aunque modelos como GPT-5.4 demuestran un rendimiento sólido, aún queda un largo camino para dominar estas tareas. El estudio revela dos hallazgos clave: las mejoras siguen una ley de potencia, volviéndose más difíciles y pequeñas con cada iteración, y la profundidad de la optimización es más crucial que la exploración superficial en paralelo. Este avance sugiere el amanecer de una nueva era de "Auto Research", donde la IA podría actuar como un ingeniero autónomo, trabajando las 24 horas para refinar diseños y procesos basándose en la retroalimentación continua, mientras los humanos establecen los objetivos g...

Si arrojas una IA a un sitio de ingeniería sin respuestas estándar, ¿podría sobrevivir?

Durante mucho tiempo, los AI Agent parecían omnipotentes, pero en realidad, la mayoría solo "revolvían la memoria" en una base de conocimientos conocida.

Pero el mundo real de la ingeniería es despiadado: la estabilidad de los robots submarinos, el límite de litificación de las baterías de potencia, el control de ruido en circuitos cuánticos... Estos problemas no tienen una "respuesta perfecta", solo hay "una optimización que se acerca más al límite".

Recientemente, Navers lab de Einsia AI lanzó el benchmark para Agent: Frontier-Eng Bench, que formalmente despegó la etiqueta de "resolvedor de problemas" de la IA.

El equipo de investigación no hizo que la IA resolviera esos viejos problemas de código, sino que le dio un "ciclo cerrado de ingeniería" completo: proponer un plan, conectar un simulador, recibir errores, modificar parámetros y volver a ejecutar.

Ante 47 tareas duras interdisciplinarias, la IA debe comportarse como un ingeniero experimentado, buscando la solución óptima en el "triángulo imposible" de consumo de energía, seguridad y rendimiento.

Esto no es solo un conjunto de pruebas, es más bien un preludio de la "evolución" del Agent.

Cuando la IA comience a aprender a autocorregirse con la retroalimentación, la era de la Auto Investigación, donde "los humanos proponen objetivos y la IA itera ininterrumpidamente las 24 horas", podría estar más cerca de lo que imaginamos.

La IA comienza a hacer "trabajo duro"

Los modelos de lenguaje grandes del pasado se parecían más a un superestudiante.

Tú planteas un problema, él "busca en la memoria" de sus vastos datos de entrenamiento y luego ensambla una respuesta que parece razonable.

En este modo, el modelo grande esencialmente está jugando a "continuar la frase", no resolviendo problemas reales.

Pero la aparición de Frontier-Eng Bench hace que la IA comience a realizar "optimización de ingeniería".

El proceso cambió a que la IA primero proponga un plan, luego conecte un simulador para ejecutar experimentos, obtenga retroalimentación y errores, modifique parámetros y código, y luego continúe ejecutando hasta que el rendimiento siga mejorando.

En este sistema de ciclo cerrado, la identidad de la IA cambió cualitativamente.

¿Quieres que el robot submarino sea más estable? La IA debe comenzar a ajustar automáticamente el controlador.

¿Quieres aumentar un poco más la velocidad del brazo robótico? La IA tiene que ejecutar simulaciones por sí misma.

En cierto sentido, las IAs ya han abandonado la mera comprensión semántica y han comenzado a actuar como un ingeniero profesional, realizando optimizaciones continuas en un entorno real con retroalimentación.

△

Lo más interesante de Frontier-Eng Bench es que no mide si la IA "respondió correctamente", sino si la IA realmente puede volverse más fuerte continuamente.

Porque la optimización real de la ingeniería nunca ha sido una pregunta de opción múltiple; no hay una única respuesta estándar.

Tomemos como ejemplo la carga rápida de baterías: el objetivo suena simple: cargar lo más rápido posible, pero la realidad no es tan fácil.

La IA debe, bajo restricciones estrictas de que la temperatura no se dispare, el voltaje no se exceda, la vida útil de la batería no disminuya demasiado rápido y evitando la litificación, encontrar con precisión el punto de equilibrio del rendimiento.

Esto significa que la IA no puede aprobar utilizando ningún "truco" para resolver problemas; debe mostrar resistencia para evolucionar continuamente en la retroalimentación a largo plazo.

¿Puede la IA realizar una optimización a largo plazo en un entorno real?

Según los resultados, GPT5.4 tuvo el rendimiento general más estable, pero aún hay un largo camino por recorrer para que las IAs "completen" el Benchmark.

△

La Auto Investigación entra en la era de la "optimización iterativa"

El equipo de investigación mencionó un punto muy interesante en su artículo:

La verdadera inteligencia avanzada depende esencialmente de un ciclo cerrado de retroalimentación a largo plazo.

Así como AlphaGo pudo derrotar a Lee Sedol gracias a la enorme cantidad de simulaciones y retroalimentación instantánea detrás de cada decisión, no a la memorización rígida de partidas establecidas.

La verdadera investigación científica es igual: los mejores laboratorios no dependen de un destello de inspiración, sino que constantemente plantean hipótesis, ejecutan experimentos, observan resultados, modifican planes y continúan intentando.

Lo mismo ocurre con la optimización de ingeniería: cualquiera puede hacer la primera versión; lo realmente difícil es ese salto de rendimiento del último 1%.

El significado de Frontier-Eng Bench radica en que: es la primera vez que comienza a evaluar sistemáticamente la "capacidad de optimización iterativa" de la IA, y resumió dos leyes de evolución de la IA casi despiadadas.

△

La primera ley es: Cuanto más avanzado, más difícil es mejorar.

Este artículo encontró que la frecuencia y magnitud de las mejoras del Agent muestran una decadencia de ley de potencia:

Frecuencia de mejora ∝ 1 / número de iteraciones
Magnitud de mejora ∝ 1 / número de mejoras

En pocas palabras: en las primeras rondas se mejora más rápido, luego se vuelve cada vez más difícil y las mejoras son cada vez menores.

Esto se parece mucho al proceso real de investigación y desarrollo: la primera versión de la IA puede eliminar rápidamente muchas "frutas al alcance de la mano", pero cuanto más avanzado, más cerca se está del cuello de botella, y extraer un poco más de rendimiento requiere un gran esfuerzo.

Entonces, ¿sería más rentable probar en paralelo varias rutas? La respuesta se esconde en la segunda ley.

△

Segunda ley: La amplitud es útil, pero la profundidad es aún más indispensable.

Ejecutar varias líneas en paralelo puede evitar atascos, pero con un presupuesto fijo, cada cadena adicional reduce la profundidad.

Muchos avances en ingeniería requieren acumulación continua y corrección constante para lograr un salto estructural; no se logran simplemente "probando más veces".

Esto en realidad nos indica la dirección de desarrollo para la próxima generación de Agent: no un modelo que "da la respuesta de una vez", sino un sistema que pueda iterar continuamente y evolucionar por sí mismo en una retroalimentación de largo plazo.

El ingeniero de IA podría realmente estar llegando

El verdadero significado profundo de esta investigación radica en que esboza preliminarmente un sistema de IA que comienza a acercarse al ciclo real de la ingeniería.

△

Imagina esto: cuando la IA se conecta a software industrial, entornos de simulación, sistemas CAD, herramientas de diseño de chips, plataformas de computación científica...

Una transformación radical en la modalidad de productividad está a punto de ocurrir.

En los laboratorios del futuro, podría aparecer una división del trabajo como esta:

Los investigadores humanos son responsables de proponer direcciones y objetivos.

Por ejemplo, "reducir el consumo de energía de este componente en un 30%", "disminuir aún más el uso de GPU en el forward de este modelo", "aumentar un poco más la estabilidad del control del robot", "hacer que la fidelidad del circuito cuántico continúe acercándose al límite", etc.

Y la IA se encarga de "insistir en el camino". Giran en torno a estos objetivos, optimizando continuamente.

Por ejemplo, ejecutando automáticamente simulaciones y experimentos, leyendo automáticamente la retroalimentación del verificador y el simulador, y luego modificando y optimizando, iterando las 24 horas sin parar.

Esta lógica de evolución libera a la IA de su identidad como "herramienta auxiliar", comenzando a resolver problemas de sistemas complejos como un verdadero equipo de ingeniería, y además, sin cansarse.

Y los problemas que revela el benchmark Frontier-Eng son en realidad muy directos:

Cuando la IA comienza a aprender a "optimizar a largo plazo", ¿qué tan lejos está de la verdadera inteligencia de ingeniería?

Título del artículo: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Página del proyecto: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositorio de GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Este artículo proviene del WeChat público "Quantum Bit", autor: Yun Zhong

Criptos en tendencia

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Preguntas relacionadas

Q¿Qué es el Frontier-Eng Bench y qué tipo de pruebas introduce frente a los benchmarks tradicionales de IA?

AEl Frontier-Eng Bench es un benchmark de evaluación para agentes de IA desarrollado por Naver's Lab de Einsia AI. Introduce un conjunto de 47 tareas interdisciplinarias y complejas sin una única respuesta correcta, obligando a la IA a participar en un 'ciclo cerrado de ingeniería': proponer un plan, conectarse a un simulador, recibir comentarios y errores, modificar parámetros y volver a ejecutar para buscar continuamente una optimización superior. Esto contrasta con las pruebas tradicionales, que miden la capacidad de la IA para 'recordar' y reproducir conocimiento de un conjunto de datos.

QSegún el artículo, ¿cuál es el cambio fundamental en el rol de la IA en tareas de ingeniería, según lo demostrado por el Frontier-Eng Bench?

AEl cambio fundamental es que la IA deja de ser un mero 'reproductor de conocimiento' o 'solucionador de problemas con respuesta fija' y comienza a actuar como un ingeniero profesional. Su rol se transforma en realizar una optimización continua dentro de un entorno con retroalimentación a largo plazo, equilibrando múltiples restricciones (como potencia, seguridad y rendimiento) y persiguiendo mejoras incrementales sin un punto final definido, en lugar de simplemente generar una respuesta.

QEl artículo menciona dos leyes 'crueles' sobre la evolución de la IA descubiertas en este benchmark. ¿Cuáles son?

ALa primera ley es que 'cuanto más avanzas, más difícil es mejorar'. La frecuencia y magnitud de las mejoras del agente siguen una decadencia de ley de potencias: la frecuencia de mejora es proporcional a 1/iteración, y la magnitud de la mejora es proporcional a 1/número_de_mejoras. La segunda ley es que 'la amplitud es útil, pero la profundidad es más indispensable'. Ejecutar múltiples líneas de exploración en paralelo (amplitud) ayuda, pero con un presupuesto fijo, sacrifica la profundidad de exploración en cada una, y muchas mejoras de ingeniería requieren de una acumulación profunda y continua para lograr avances estructurales.

Q¿Qué visión del futuro, específicamente en investigación y desarrollo (I+D), presenta el artículo con el advenimiento de la 'Auto Research'?

AEl artículo presenta una visión de un futuro 'Auto Research' donde la división del trabajo cambiará: los investigadores humanos se encargarán de proponer la dirección y los objetivos (por ejemplo, 'reducir el consumo de energía en un 30%'), mientras que los sistemas de IA actuarán como 'equipos de ingeniería incansables'. Estos agentes de IA se encargarán de la ejecución continua: ejecutarán automáticamente simulaciones y experimentos, leerán la retroalimentación de verificadores y simuladores, y modificarán y optimizarán parámetros y código las 24 horas del día, persiguiendo la optimización de los objetivos establecidos por los humanos.

Q¿Qué modelos o agentes de IA se mencionan en el artículo como evaluados en el Frontier-Eng Bench, y cuál destacó en rendimiento general?

AEl artículo menciona específicamente que GPT-5.4 (presumiblemente una referencia hipotética o futura a un modelo avanzado) mostró el rendimiento más estable en general en las pruebas del Frontier-Eng Bench. Sin embargo, también enfatiza que, incluso con este rendimiento, todos los agentes de IA evaluados están aún muy lejos de 'completar' o dominar por completo el benchmark, lo que indica la gran complejidad de las tareas y el largo camino que queda por recorrer para la inteligencia artificial en ingeniería.

Lecturas Relacionadas

¡Publicada la lista de las altcoins más populares según las búsquedas de las últimas horas!

La plataforma de seguimiento de criptomonedas CoinGecko ha publicado una lista de las criptomonedas más buscadas por los usuarios en las últimas tres horas. La principal tendencia es Pudgy Penguins ($PENGU), seguida de Catecoin (CATE) y Bless ($BLESS) en el podio. Según los datos, $PENGU subió un 3,9% en 24 horas. CATE, en segundo lugar, registró un impresionante aumento del 126,2%, mientras que $BLESS subió un 86,1%. What IF (IF) también destaca con un alza del 41,9%. La lista completa de los activos más buscados y su capitalización de mercado actual es la siguiente: 1. Pudgy Penguins ($PENGU) – 389,13 millones de dólares. 2. Catecoin (CATE) – 19,62 millones. 3. Bless ($BLESS) – 32,72 millones. 4. Aerodrome Finance (AERO) – 385,03 millones. 5. Hyperliquid (HYPE) – 11,43 mil millones. 6. Ethereum (ETH) – 224,17 mil millones. 7. Chainlink (LINK) – 6,17 mil millones. 8. Aave (AAVE) – 1,42 mil millones. 9. What IF (IF) – 31,24 millones. 10. Polkadot (DOT) – 1,34 mil millones. 11. Bitcoin (BTC) – 1,27 billones. 12. Virtual Protocol (VIRTUAL) – 366,19 millones. 13. Algorand (ALGO) – 758,15 millones. 14. Cash Cat (CASHCAT) – 41,81 millones. 15. Solana (SOL) – 42,38 mil millones. *Esto no es una recomendación de inversión.

cryptonews.ruHace 38 min(s)

¡Publicada la lista de las altcoins más populares según las búsquedas de las últimas horas!

cryptonews.ruHace 38 min(s)

Por 100 000 $ al mes: Truth Social vende acceso a las publicaciones de Trump a empresas de inversión

Trump Media and Technology Group (TMTG) lanzó el 1 de agosto de 2026 el servicio Truth API, un canal de datos de pago que otorga a firmas de inversión institucionales acceso en tiempo real a las publicaciones de las cuentas más influyentes en Truth Social, incluyendo la de Donald Trump. Con una suscripción que puede costar hasta 100,000 dólares mensuales, el servicio se presenta como una fuente de ingresos estable para TMTG. El anuncio ha generado críticas de legisladores demócratas y republicanos, como Elizabeth Warren y Bill Cassidy, quienes cuestionan la venta de acceso privilegiado a las publicaciones del presidente y han pedido investigaciones regulatorias. TMTG defendió la iniciativa como parte de una estrategia comercial legítima. El análisis adjunto advierte que este modelo crea riesgos similares a incidentes pasados donde mensajes falsos en redes sociales provocaron volatilidad en los mercados, destacando la falta de mecanismos de verificación en tiempo real para los posts distribuidos por la API.

cryptonews.ruHace 1 hora(s)

Por 100 000 $ al mes: Truth Social vende acceso a las publicaciones de Trump a empresas de inversión

cryptonews.ruHace 1 hora(s)

La estrategia mantiene el dividendo preferente de STRC en 12% ya que el precio aún está por debajo del valor nominal

Aunque las acciones preferentes STRC de Strategy cerraron julio muy por debajo de su valor nominal de 100 dólares, el dividendo de agosto se mantendrá en el 12%, sin incrementos. Michael Saylor, presidente ejecutivo, anunció la noticia, promocionando STRC como una forma de "estirar los ingresos". Agosto será el segundo mes con pagos quincenales. Las acciones STRC cerraron a 89,46 dólares el viernes, con un aumento mensual del 5,42%, tras un mal desempeño en junio. El volumen negociado fue aproximadamente dos tercios del promedio diario. El CEO Phong Le reiteró que el objetivo corporativo es que STRC cotice entre 99 y 100 dólares con el tiempo. Saylor sugirió un posible anuncio sobre cambios en las tenencias de Bitcoin de la compañía. Strategy reportó una pérdida neta de 8.220 millones de dólares en el segundo trimestre, principalmente por una pérdida no realizada de 8.320 millones en Bitcoin. La compañía ha construido una reserva de efectivo de 3.750 millones de dólares para respaldar los pagos de acciones preferentes, suficiente para más de dos años de dividendos e intereses. Recientemente recompró 25 millones de dólares en acciones STRC con descuento y planea continuar comprando mientras cotizan por debajo de los 100 dólares.

cointelegraphHace 2 hora(s)

La estrategia mantiene el dividendo preferente de STRC en 12% ya que el precio aún está por debajo del valor nominal

cointelegraphHace 2 hora(s)

Los retiros de Bitcoin continúan: 8 años de almacenamiento en una cartera fría Coldcard terminaron en cero

Retirada de bitcoin continúa: 8 años en cartera fría Coldcard terminan en cero La cartera hardware Coldcard ha sido vulnerada, provocando una nueva oleada de retiradas de fondos de dispositivos afectados. Galaxy Research informa que el volumen total robado asciende a 1.367,05 BTC (unos 88,6 millones de dólares) desde 4.585 direcciones, superando ampliamente los 594,5 BTC reportados inicialmente el 30 de julio de 2026. La mayor parte de lo robado permanece inactiva en las direcciones de los atacantes. El problema no reside en el firmware, que ya fue actualizado por Coinkite, sino en las frases semilla (seed phrases) generadas desde marzo de 2021 debido a un error de programación. Estas frases son fácilmente descifrables, y actualizar el firmware no las cambia. Solo transferir los fondos a una nueva dirección con una nueva frase semilla elimina la vulnerabilidad. El fallo se originó al integrar la biblioteca libNgU, lo que hizo que los dispositivos dejaran de usar el generador de números aleatorios por hardware STM32 y pasaran a usar el generador software Yasmarang, inicializado con datos públicamente accesibles como el número de serie del chip. Afecta a frases semilla creadas en dispositivos Mk2/Mk3 (firmware 4.0.1–4.1.9 y hasta 5.0.3), Mk4/Mk5 (hasta v5.6.0) y Q (hasta v1.5.0Q). Se excluyen aquellas creadas con al menos 50 lanzamientos de dados independientes o una passphrase BIP-39 fuerte y única. Los usuarios deben generar una nueva frase semilla en firmware corregido y transferir sus activos. Un caso ilustrativo es el de un inversor de 39 años que perdió 2 BTC (unos 130.000 dólares) en minutos, ahorrados durante ocho años mediante trabajo físico como protección contra la hiperinflación en su país, con el objetivo de una jubilación anticipada a los 50 años. Su estrategia conservadora de "comprar y mantener en frío" se vio truncada, dejándolo devastado y decidido a abandonar las criptomonedas. Este incidente recuerda vulnerabilidades históricas por generadores de números aleatorios débiles, como la de la biblioteca BitcoinJS (2011-2015), que causó grandes pérdidas. Subraya que el almacenamiento offline no garantiza automáticamente seguridad criptográfica, especialmente cuando la entropía se ve comprometida dentro del propio dispositivo "cerrado".

cryptonews.ruHace 2 hora(s)

Los retiros de Bitcoin continúan: 8 años de almacenamiento en una cartera fría Coldcard terminaron en cero

cryptonews.ruHace 2 hora(s)

¡Se observa un crecimiento explosivo en los volúmenes de trading de 15 altcoins en Corea del Sur!

Las principales bolsas de criptomonedas de Corea del Sur, Upbit y Bithumb, registraron un fuerte aumento en el volumen de operaciones con varios altcoins. En las últimas 24 horas, el volumen total de los altcoins más populares alcanzó aproximadamente 347,7 millones de dólares. MetaDAO (META) lideró la clasificación con un volumen de 65,84 millones de dólares solo en Upbit, representando el 12,39% del volumen spot total de la bolsa. Le siguió Euler (EUL) con 47,65 millones de dólares combinados en ambas plataformas. XRP, tradicionalmente popular entre los inversores coreanos, registró 38,11 millones de dólares. A continuación, se presentan los volúmenes de operaciones de 24 horas para los 15 altcoins más negociados en Upbit y Bithumb: 1. MetaDAO (META) – 65,84M$ 2. Euler (EUL) – 47,65M$ 3. XRP – 38,11M$ 4. ThunderCore (TT) – 35,64M$ 5. Babylon (BABY) – 25,15M$ 6. Geodnet (GEOD) – 20,28M$ 7. Hyperlane (HYPER) – 19,72M$ 8. Momentum (MMT) – 17,67M$ 9. Ondo (ONDO) – 15,65M$ 10. Shiba Inu (SHIB) – 10,55M$ 11. DOME – 9,61M$ 12. Lorenzo Protocol (BANK) – 9,51M$ 13. Akash Network (AKT) – 7,36M$ 14. Dogecoin (DOGE) – 7,30M$ 15. Worldcoin (WLD) – 5,74M$ *Esto no es una recomendación de inversión.

cryptonews.ruHace 4 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar ERA

¡Bienvenido a HTX.com! Hemos hecho que comprar Caldera (ERA) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Caldera (ERA) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Caldera (ERA)Después de comprar tu Caldera (ERA), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Caldera (ERA)Tradear fácilmente con Caldera (ERA) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

977 Vistas totalesPublicado en 2025.07.17Actualizado en 2026.06.02

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ERA (ERA).

Categorías populares

比特幣1,982 artículos de noticias