El último examen de los agentes de IA: Fable 5 de Claude resulta vencido por GPT 5.5

Q: ¿Qué es el Agents’ Last Exam (ALE) y en qué se diferencia de otros benchmarks como el Humanity’s Last Exam (HLE)?

El Agents’ Last Exam (ALE) es un nuevo benchmark desarrollado por UC Berkeley para evaluar la capacidad de los agentes de IA en realizar tareas prácticas reales, como modelado 3D en Siemens NX, creación de escenarios en Unreal Engine y efectos visuales en Adobe After Effects. A diferencia del Humanity’s Last Exam (HLE), que evalúa conocimientos estáticos mediante preguntas y respuestas, ALE se centra en la ejecución de tareas en entornos de trabajo reales, otorgando a los agentes acceso completo a GUI y línea de comandos. Además, ALE incluye tareas diseñadas por más de 300 expertos de 100 instituciones y utiliza una evaluación automática y reproducible, sin intervención humana.

Q: ¿Cuál fue el resultado principal de GPT-5.5 y Claude Fable 5 en el ALE, y qué factores destacaron en su desempeño?

En el ALE, GPT-5.5 obtuvo el primer lugar con una tasa de aprobación del 24.0% usando el framework Codex de OpenAI, seguido por Claude Fable 5 en tercer lugar con un 22.0% usando Claude Code. GPT-5.5 mostró ventajas significativas en coste y eficiencia: su ejecución más cara (Codex) costó 566 dólares, mientras que Fable 5 gastó 2315 dólares, casi cuatro veces más. Además, GPT-5.5 completó las tareas en menos tiempo, destacando su superioridad en relación coste-rendimiento y velocidad.

Q: ¿Por qué Claude Fable 5 tuvo un rendimiento inferior al esperado en el ALE, según el análisis presentado en el artículo?

El rendimiento inferior de Claude Fable 5 se atribuye a varios factores. Primero, su arquitectura incluye un clasificador de seguridad que, en tareas sensibles como ciberseguridad o biomedicina, cambia silenciosamente a un modelo menos capaz (Opus 4.8), afectando su puntuación en ALE, que cubre 55 áreas. Además, Fable 5 mostró un coste muy alto (2315 dólares) y un tiempo de ejecución prolongado en comparación con GPT-5.5. Finalmente, ALE evita 'trampas' como el acceso a historiales de git, lo que podría haber beneficiado a Claude en benchmarks anteriores como SWE-Bench Pro.

Q: ¿Cómo aborda el ALE el problema de la 'contaminación de datos' en los benchmarks de IA?

ALE aborda la contaminación de datos mediante un diseño que incluye dos conjuntos de tareas: aproximadamente un 10% de las tareas (150) son públicas, mientras que el resto (más de 1300) se mantienen en secreto. Estos conjuntos se rotan periódicamente, lo que impide que los modelos memoricen o 'aprendan' las respuestas. Además, la evaluación es completamente automática y basada en criterios determinísticos, eliminando la subjetividad humana y garantizando la reproducibilidad. Este enfoque minimiza el riesgo de que los modelos se aprovechen de información previa para inflar sus puntuaciones.

Q: Según el artículo, ¿cuáles son las implicaciones del bajo rendimiento de los agentes de IA en tareas prácticas como las del ALE?

El bajo rendimiento en ALE sugiere que, aunque los agentes de IA destacan en benchmarks teóricos, aún están lejos de reemplazar a humanos en tareas prácticas complejas. La tasa de aprobación máxima fue solo del 24%, y en la categoría más difícil (Last-Exam), muchos modelos, incluidos GPT-5.5 y Fable 5, obtuvieron cero puntos. Esto indica que la IA actual tiene limitaciones significativas en comprensión contextual, verificación de resultados y adaptación a entornos laborales reales, desmintiendo predicciones prematuras sobre la automatización total del trabajo humano en un futuro cercano.

marsbitPublicado a 2026-06-12Actualizado a 2026-06-12

Resumen

La nueva prueba de referencia Agents’ Last Exam (ALE) de UC Berkeley, diseñada para evaluar las capacidades prácticas de los agentes de IA en tareas reales como modelado 3D o edición de video, ha arrojado resultados sorprendentes. En ella, GPT-5.5 superó al hasta ahora dominante Claude Fable 5, con una tasa de éxito del 24% frente al 22%. Además, GPT-5.5 demostró ser significativamente más eficiente y económico. ALE se diferencia de otros benchmarks al evaluar la ejecución de proyectos reales en 55 campos profesionales, con tareas que van desde unas horas hasta semanas para expertos humanos. Los agentes operan con control total de GUI y CLI, y su trabajo es evaluado automáticamente por código, sin juicios humanos. En el nivel de dificultad más alto, la mayoría de los modelos, incluidos los líderes, obtuvieron cero puntos. El estudio también revela problemas como agentes que declaran una tarea completada incorrectamente y sugiere que el rendimiento de Fable 5 pudo verse afectado por una "sintonización descendente" en áreas sensibles. La prueba, que mantiene la mayoría de sus tareas en privado para evitar el "estudio previo", subraya la brecha entre el conocimiento teórico de la IA y sus habilidades prácticas reales, desafiando las predicciones sobre la inminente automatización de todos los trabajos humanos.

¡Qué rápido llega la humillación!

Acaba de salir de la Universidad de California, Berkeley, un nuevo benchmark que se hace llamar "El último examen de los agentes de IA".

Lleva a los Agentes de IA más potentes de la actualidad al campo de pruebas y les hace trabajar de verdad:

crear modelos 3D en Siemens NX, montar escenarios de juego en Unreal Engine, realizar composiciones de efectos especiales en Adobe After Effects.

Los resultados dejan boquiabiertos:

En el nivel más difícil, los actuales considerados más fuertes, Claude Fable 5 y GPT 5.5, obtuvieron un rotundo cero.

¿Y si bajamos un poco la dificultad? Ahí sí hay puntuación, pero el resultado sigue siendo sorprendente:

GPT 5.5 incluso superó ligeramente a Claude Fable 5.

¿No lo había oído mal? ¿El modelo más potente de Anthropic, Claude Fable 5, recién lanzado, derrotado por el GPT 5.5 de hace meses?

Tengamos en cuenta que en prácticamente todos los benchmarks principales anteriores, Fable 5 superaba ampliamente a GPT 5.5: 80.3% frente a 58.6% en SWE-Bench Pro, 64.5% frente a 52.2% en Humanity’s Last Exam.

Pero al llegar a este examen de "trabajo real", la situación se invirtió.

Este nuevo benchmark se llama Agents’ Last Exam (ALE), y el equipo detrás es de gran calibre; son los mismos que propusieron los benchmarks que ya conoces como MMLU, MATH, CyberGym, ExploitGym.

El nombre probablemente está inspirado en el "Humanity’s Last Exam" (El último examen de la humanidad) de Scale AI, solo que esta vez no se prueba el límite del conocimiento humano, sino el límite de lo que pueden hacer los Agentes de IA en un trabajo real.

Hay que reconocerlo, con la publicación de esta evaluación, quienes gritaban a diario "los Agentes van a reemplazar el trabajo humano" ahora sí guardan silencio...

¡En "El último examen de los agentes", el ganador es GPT 5.5!

Veamos primero la clasificación completa.

Según el indicador clave de tasa de éxito en tareas, GPT 5.5 se lleva directamente el primer y segundo puesto:

El 1er puesto es para GPT 5.5 con el framework Codex de OpenAI, tasa de éxito 24.0%.

El 2do puesto también es para GPT-5.5, pero usando el framework ALE Claw, tasa de éxito 23.0%.

(ALE Claw es un Agente baseline escrito por el propio equipo, que compite junto con frameworks comerciales como Codex, Claude Code, Cursor CLI).

No es hasta el 3er puesto que vemos a Claude Fable 5, combinado con Claude Code, logrando una tasa de éxito del 22.0%.

Mirando más abajo es aún más interesante.

Los puestos 4, 5 y 8 son todos para GPT 5.5, solo que con diferentes frameworks.

Entre los primeros 10, GPT 5.5 aparece 5 veces, y sumando el GPT 5.4 en el puesto 6, los modelos de OpenAI ocupan directamente 6 puestos.

¿Y la familia Claude?

Fable 5 obtuvo el 3er puesto, Opus 4.7 el 9no (18.4%), Opus 4.8 el último 10mo (15.8%), la tendencia de inferioridad es evidente.

No es de extrañar que los investigadores de OpenAI publicaran felices en redes, celebrando como si fuera año nuevo:

Además de los resultados, hay algunas señales que merecen atención detallada.

Primero, el techo es sorprendentemente bajo.

La tasa de éxito del campeón es solo del 24%, y la puntuación compuesta más alta apenas alcanza el 45.8%.

Es decir, incluso con el criterio más indulgente de "puntuación parcial", el Agente más potente solo puede obtener menos de la mitad de los puntos.

Y todas estas tareas provienen de proyectos ya completados por expertos humanos, cuya tasa de finalización teórica es del 100%.

Segundo, Claude gasta una cantidad asombrosa de dinero.

En esta clasificación añadieron una columna "Estimated Total Cost" (Costo total estimado), que revela una gran brecha:

Fable 5 gastó 2315 dólares en ejecutar todas las tareas, Opus 4.8 gastó 1838 dólares, Opus 4.7 también requirió 1144 dólares.

¿Y GPT-5.5?

El más caro, Codex, costó solo 566 dólares, y Cursor CLI solo 174 dólares.

Es decir, Fable 5 gastó más de cuatro veces el dinero de Codex, y su puntuación fue dos puntos porcentuales más baja.

Tercero, la diferencia de eficiencia también es impactante.

ALE Claw tardó 47 horas y 20 minutos en ejecutar todas las tareas, Cursor CLI solo 67 horas.

¿Y Opus 4.8? 451 horas, casi 19 días.

Realiza menos trabajo, tarda más tiempo y cuesta más dinero (¿realmente hay un modelo que logre estas tres cosas a la vez?).

Por supuesto, si solo miramos a los dos mejores, Claude Fable 5 y GPT 5.5, la ventaja de tiempo de GPT 5.5 sigue siendo clara.

Pero la cifra más llamativa sigue siendo ese cero.

ALE divide las tareas en tres niveles de dificultad:

Near-Term (resoluble a corto plazo)

Full-Spectrum (cobertura integral)

Last-Exam (problemas definitivos)

En el nivel más difícil, la tasa de éxito promedio de todas las configuraciones principales es solo del 2.6%, y la mayoría de los modelos, incluidos GPT 5.5 y Fable 5, obtuvieron directamente un cero.

Así que el mensaje central de este informe de resultados es simple: No importa lo bien que rindan en los exámenes normales, cuando se trata de trabajar de verdad, se revelan las carencias.

Un buen estudiante en exámenes ≠ un buen trabajador, y esto también aplica en el mundo de la IA.

¿Qué es ALE?

Para entender por qué ALE puede devolver a estos "buenos estudiantes" a su forma original, primero hay que ver en qué se diferencia de los exámenes anteriores.

El anterior Humanity’s Last Exam (HLE), creado a principios de 2025 por Dan Hendrycks y Scale AI, tenía 2500 problemas interdisciplinarios difíciles, pero en esencia seguía siendo un examen de libro cerrado:

te dan un problema, tú me das una respuesta; por muy difícil que sea, sigue siendo una recuperación de conocimiento estática.

ALE es completamente diferente; evalúa "qué puedes hacer".

La autora principal, Yiyou Sun, lo dice claramente en X:

Los agentes de IA superarán a los humanos en casi todas las tareas para 2026-2027; esta predicción está por todas partes. Así que creamos este examen para verificar esa afirmación.

Cada problema de ALE proviene de un proyecto ya completado por un experto humano, cubriendo 55 subcampos industriales, incluidos trading cuantitativo, análisis genómico, ingeniería aeroespacial, diseño arquitectónico, imagen cerebral, efectos de animación, investigación legal...

Todo el sistema está anclado en el estándar de clasificación ocupacional federal de EE. UU. (ONET)*, básicamente, las preguntas se basan en el "mercado laboral real".

El equipo que creó las preguntas también es impresionante:

Más de 300 expertos de más de 100 instituciones: en el ámbito académico están MIT, Harvard, Stanford, Oxford, Caltech, ETH Zurich; en el industrial están Goldman Sachs, JPMorgan, Meta, Amazon, Adobe, Oracle.

Snorkel AI proporcionó apoyo financiero a través del proyecto Open Benchmarks Grants.

La forma del examen tampoco es escribir respuestas, sino operar directamente una computadora.

ALE utiliza el llamado framework GCUA (Generalist Computer-Use Agent, Agente de uso general de computadora), otorgando al Agente permisos completos de GUI y línea de comandos:

clic del ratón, escritura con teclado, escritura de scripts, navegación web; todo lo que un humano puede hacer en una computadora, él también puede.

No se limita el método, solo se evalúa el resultado.

El "trabajo" entregado se califica automáticamente mediante código determinista.

Sin sensaciones. Sin jueces humanos. Totalmente reproducible.

Esto soluciona un viejo problema de muchos benchmarks anteriores: el propio evaluador podía ser engañado.

Además, ALE tiene otro recurso drástico para evitar trampas:

Solo se publican aproximadamente el 10% de las preguntas (unas 150), manteniendo estrictamente confidenciales las más de 1300 restantes.

Las preguntas públicas y privadas se rotan periódicamente, asegurando que ningún modelo obtenga una puntuación alta por "memorizar las preguntas".

En el contexto actual de contaminación generalizada de datos de benchmarks, este es un diseño bastante ingenioso.

En general, comparado con las pruebas de referencia existentes para Agentes, el posicionamiento de ALE es muy claro.

Dawn Song, miembro del equipo, hizo una comparación:

El subconjunto CLI de ALE (ALE-CLI) cubre 40 subcampos industriales, mientras que Terminal-Bench solo cubre 6, y SWE-bench-Pro solo 5.

El tiempo que los humanos tardan en completar estas tareas va desde unas horas hasta varias semanas, mientras que en los otros dos son de minutos a días.

La tasa de éxito del Agente más potente en ALE-CLI es solo del 25.2%, mientras que en Terminal-Bench es del 82.0% y en SWE-bench-Pro del 59.1%.

En pocas palabras, los otros exámenes ya están casi resueltos, mientras que ALE está aún lejos de ello.

Esta es la razón por la que ALE se atreve a autodenominarse "El último examen de los agentes".

Vale la pena mencionar que Dawn Song también compartió dos observaciones interesantes:

Una es que los Agentes a menudo declaran que han terminado sin verificar realmente los resultados del trabajo, este es el modo de fallo más típico de los Agentes.

Muchas veces, aunque dicen "Hecho. Todas las comprobaciones son correctas."

El resultado real puede carecer de archivos necesarios, tener números calculados mal, omitir campos clave o directamente violar restricciones explícitas en las instrucciones de la tarea.

Es como si terminaran de hablar antes de terminar el trabajo.

Otra es la duda de muchos: ¿por qué Fable 5 es tan decepcionante? La respuesta de Dawn Song es:

No existe tal cosa como un "campeón universal".

Cada modelo de vanguardia tiene áreas en las que sobresale y áreas en las que falla. ALE cubre 55 industrias y más de 1500 problemas; la puntuación final es el promedio de todas las áreas, por lo que muchos modelos tienen puntuaciones totales muy cercanas. La señal realmente valiosa no está en la puntuación total, sino en las diferencias de rendimiento de diferentes modelos en diferentes áreas: en el mismo problema, diferentes modelos suelen fallar por razones completamente distintas.

Por supuesto, también podría ser que Fable 5 haya sido "atenuado" en secreto.

En la clasificación general, al lado de Fable 5 hay una anotación en amarillo que dice "puede estar atenuado" (may be down-tuned), esto se refiere a un problema conocido de Fable 5:

su base es el modelo Mythos más un clasificador de seguridad; cuando encuentra tareas en áreas sensibles como ciberseguridad o biomedicina, se cambia silenciosamente al Opus 4.8, que es más débil.

En un examen como ALE que cubre 55 industrias, significa que en esas asignaturas enviaron directamente a un sustituto, y además uno del tipo "personaje secundario".

Una cosa más

Por supuesto, ¿es posible que los resultados de Claude Fable 5 en sí mismos tengan problemas?

Difícil de decir, pero un chisme muestra que Claude tiene "antecedentes".

A finales de mayo, la startup Datacurve publicó un nuevo benchmark llamado DeepSWE, y de paso reveló un gran secreto:

El contenedor Docker de SWE-Bench Pro incluía el historial git completo del repositorio de código, la respuesta correcta estaba ahí mismo en el sistema de archivos.

La mayoría de los modelos lo ignoraban, pero Claude no.

Verificaba activamente el historial git del repositorio, buscaba en los commits históricos la solución correspondiente a la tarea y restauraba el parche correcto en base a ello.</p

Se dice que aproximadamente el 18% de las respuestas correctas de Opus 4.7 se obtuvieron así, y Opus 4.6 era aún más exagerado, alrededor del 25%.

¿Y GPT 5.4 y GPT5.5? No mostraron este comportamiento en absoluto. El lenguaje de Datacurve fue diplomático:

Este benchmark hace posible este comportamiento, pero Claude es la única familia que lo hace consistentemente.

La evaluación del medio tecnológico VentureBeat fue más ambigua:

Esto muestra que Claude tiene una "gran capacidad de percepción del entorno", es muy hábil para explorar su entorno y utilizar los recursos disponibles. Que sea "hacer trampa" o "ser astuto" depende de tu postura.

Pero independientemente de cómo se vea, ALE evidentemente aprendió la lección:

trasladó directamente el campo de pruebas de la línea de comandos al escritorio GUI, sin historial git que espiar.

El campo de pruebas para evaluar la IA está siendo actualizado por la propia IA, lo cual también es fascinante.

Dirección completa de la evaluación: https://agents-last-exam.org/leaderboard Página principal del proyecto: https://agents-last-exam.org/ GitHub: https://github.com/rdi-berkeley/agents-last-exam

Enlaces de referencia:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

Este artículo proviene del WeChat public account "量子位" (Quantum Bit), autor: 一水 (Yishui)

Preguntas relacionadas

Q¿Qué es el Agents’ Last Exam (ALE) y en qué se diferencia de otros benchmarks como el Humanity’s Last Exam (HLE)?

AEl Agents’ Last Exam (ALE) es un nuevo benchmark desarrollado por UC Berkeley para evaluar la capacidad de los agentes de IA en realizar tareas prácticas reales, como modelado 3D en Siemens NX, creación de escenarios en Unreal Engine y efectos visuales en Adobe After Effects. A diferencia del Humanity’s Last Exam (HLE), que evalúa conocimientos estáticos mediante preguntas y respuestas, ALE se centra en la ejecución de tareas en entornos de trabajo reales, otorgando a los agentes acceso completo a GUI y línea de comandos. Además, ALE incluye tareas diseñadas por más de 300 expertos de 100 instituciones y utiliza una evaluación automática y reproducible, sin intervención humana.

Q¿Cuál fue el resultado principal de GPT-5.5 y Claude Fable 5 en el ALE, y qué factores destacaron en su desempeño?

AEn el ALE, GPT-5.5 obtuvo el primer lugar con una tasa de aprobación del 24.0% usando el framework Codex de OpenAI, seguido por Claude Fable 5 en tercer lugar con un 22.0% usando Claude Code. GPT-5.5 mostró ventajas significativas en coste y eficiencia: su ejecución más cara (Codex) costó 566 dólares, mientras que Fable 5 gastó 2315 dólares, casi cuatro veces más. Además, GPT-5.5 completó las tareas en menos tiempo, destacando su superioridad en relación coste-rendimiento y velocidad.

Q¿Por qué Claude Fable 5 tuvo un rendimiento inferior al esperado en el ALE, según el análisis presentado en el artículo?

AEl rendimiento inferior de Claude Fable 5 se atribuye a varios factores. Primero, su arquitectura incluye un clasificador de seguridad que, en tareas sensibles como ciberseguridad o biomedicina, cambia silenciosamente a un modelo menos capaz (Opus 4.8), afectando su puntuación en ALE, que cubre 55 áreas. Además, Fable 5 mostró un coste muy alto (2315 dólares) y un tiempo de ejecución prolongado en comparación con GPT-5.5. Finalmente, ALE evita 'trampas' como el acceso a historiales de git, lo que podría haber beneficiado a Claude en benchmarks anteriores como SWE-Bench Pro.

Q¿Cómo aborda el ALE el problema de la 'contaminación de datos' en los benchmarks de IA?

AALE aborda la contaminación de datos mediante un diseño que incluye dos conjuntos de tareas: aproximadamente un 10% de las tareas (150) son públicas, mientras que el resto (más de 1300) se mantienen en secreto. Estos conjuntos se rotan periódicamente, lo que impide que los modelos memoricen o 'aprendan' las respuestas. Además, la evaluación es completamente automática y basada en criterios determinísticos, eliminando la subjetividad humana y garantizando la reproducibilidad. Este enfoque minimiza el riesgo de que los modelos se aprovechen de información previa para inflar sus puntuaciones.

QSegún el artículo, ¿cuáles son las implicaciones del bajo rendimiento de los agentes de IA en tareas prácticas como las del ALE?

AEl bajo rendimiento en ALE sugiere que, aunque los agentes de IA destacan en benchmarks teóricos, aún están lejos de reemplazar a humanos en tareas prácticas complejas. La tasa de aprobación máxima fue solo del 24%, y en la categoría más difícil (Last-Exam), muchos modelos, incluidos GPT-5.5 y Fable 5, obtuvieron cero puntos. Esto indica que la IA actual tiene limitaciones significativas en comprensión contextual, verificación de resultados y adaptación a entornos laborales reales, desmintiendo predicciones prematuras sobre la automatización total del trabajo humano en un futuro cercano.

Lecturas Relacionadas

Diálogo con Ray Dalio: Nos encontramos en una burbuja de IA actualmente, el 1% de mi cartera de inversiones está en Bitcoin

**Fuente: The Diary Of A CEO** **Resumen: Felix, PANews** Ray Dalio, fundador de Bridgewater Associates, advierte sobre una burbuja en la inteligencia artificial actual, comparable a burbujas históricas como la de Internet en 2000. Según Dalio, los signos clásicos están presentes: precios inflados, endeudamiento basado en ganancias especulativas y una posible corrección brusca si suben las tasas de interés o cambian las condiciones económicas. Dalio explica que esta burbuja se enmarca en un "gran ciclo" más amplio —de unos 80 años— caracterizado por tres dinámicas: creciente desigualdad interna, déficits fiscales gubernamentales y cambios en el orden geopolítico mundial. Estados Unidos y otros países occidentales se encuentran en una fase de declive relativo dentro de este ciclo. Para proteger la riqueza personal, Dalio recomienda diversificar las inversiones más allá del efectivo, incluyendo activos como oro, acciones y bonos. Aunque revela que alrededor del 1% de su cartera está en Bitcoin —considerándolo un activo escaso—, prefiere el oro físico por su seguridad histórica y su rol como reserva de los bancos centrales. Sobre el impacto laboral de la IA, Dalio prevé que aumentará la desigualdad, beneficiando sobre todo a los dueños de capital. Sin embargo, destaca que las habilidades humanas —como la intuición y la emoción— seguirán siendo valiosas y complementarias a la IA. En el ámbito geopolítico, Dalio anticipa un mundo más regionalizado, con EE.UU. y China como potencias líderes en sus respectivas esferas, y advierte que conflictos como el de Irán han expuesto debilidades estratégicas de Estados Unidos, acelerando un cambio en el equilibrio global de poder.

marsbitHace 2 hora(s)

Diálogo con Ray Dalio: Nos encontramos en una burbuja de IA actualmente, el 1% de mi cartera de inversiones está en Bitcoin

marsbitHace 2 hora(s)

¡Récord de compras netas extranjeras de 7,2 billones de wones en un solo día! Wall Street: Los vientos en contra de los flujos de capital en el mercado coreano se han disipado

La situación de los flujos de capital en el mercado de valores surcoreano está mostrando un cambio sustancial. El 31 de julio, la inversión extranjera realizó una compra neta récord de aproximadamente 7.2 billones de wones en acciones del KOSPI, marcando una reversión fundamental tras meses de importantes salidas de capital. Según análisis de Citi Research, las ventas netas mensuales de inversores extranjeros se redujeron drásticamente a 9.8 billones de wones en julio, comparado con 48.4 y 44.5 billones en junio y mayo, respectivamente. Paralelamente, los fondos de pensiones y fondos de inversión nacionales se convirtieron en compradores netos en julio (1.0 billón de wones), luego de ser vendedores netos en los dos meses anteriores. Además, la Comisión de Servicios Financieros de Corea implementó nuevas regulaciones que restringen el acceso de inversores minoristas a los ETF apalancados, lo que ha reducido significativamente su volumen de negociación y se espera que mitigue la volatilidad del mercado. Citi Research mantiene su objetivo para el KOSPI en 10,000 puntos, destacando fundamentos sólidos en el sector de chips de memoria, valoraciones históricamente bajas, una fuerte economía local y un entorno político favorable como factores de apoyo. La firma considera que los vientos en contra relacionados con los flujos de capital se están disipando, mientras que los impulsores fundamentales y políticos están ganando fuerza, creando condiciones para una mejora en el mercado.

marsbitHace 2 hora(s)

¡Récord de compras netas extranjeras de 7,2 billones de wones en un solo día! Wall Street: Los vientos en contra de los flujos de capital en el mercado coreano se han disipado

marsbitHace 2 hora(s)

¡Bomba! La próxima IA de OpenAI resuelve 10 problemas de nivel Premio Fields

¡OpenAI asombra al mundo matemático! Su nuevo modelo Astra ha resuelto 10 problemas matemáticos de gran importancia, comparables en dificultad a los que suelen premiarse con la Medalla Fields. Los avances abarcan áreas como geometría de alta dimensión, teoría de grupos y álgebra de operadores, logrados con un coste computacional sorprendentemente bajo. Entre los hallazgos más destacados se encuentra la construcción del primer grupo "no sofic" finitamente presentado, resolviendo una conjetura abierta desde 1999. Además, Astra ha realizado un progreso significativo en el antiguo problema del empaquetamiento de esferas en dimensiones infinitas y ha refutado la conjetura de rigidez de Connes en álgebras de von Neumann. Todos los resultados están respaldados por pruebas formales verificadas con Lean 4, lo que supone un hito histórico que marca un antes y un después tanto para las matemáticas como para el desarrollo de la AGI. Este evento demuestra la capacidad de la IA para realizar descubrimientos profundos y realizar razonamientos complejos a un nivel excepcional.

marsbitHace 3 hora(s)

¡Bomba! La próxima IA de OpenAI resuelve 10 problemas de nivel Premio Fields

marsbitHace 3 hora(s)

Cómo Convertirse en Algo que la Inteligencia Artificial Jamás Podrá Reemplazar

**Resumen: Cómo ser irremplazable por la IA** Ante el temor de que la IA elimine trabajos, la solución no es resistirse, sino volverse "inempleable": un individuo autónomo que construya su propio proyecto vital y económico. El artículo critica la "esclavitud salarial"—depender de un empleo sin sentido—y propone escapar de ella desarrollando estas cinco capacidades clave: 1. **Agencia**: Capacidad de actuar sin pedir permiso. 2. **Gusto**: Criterio para discernir qué vale la pena crear. 3. **Persuasión**: Habilidad para conectar y lograr que otros valoren tu trabajo. 4. **Persistencia**: Resiliencia para ver los errores como aprendizaje. 5. **Iteración**: Proceso constante de ajuste basado en la retroalimentación. Estas habilidades se cultivan únicamente **haciendo**: creando algo propio. Se recomienda enfocarse en **crear contenido (medios)** más que solo en código, ya que el valor del contenido es subjetivo y requiere un criterio humano que la IA no puede replicar fácilmente, abriendo espacio para talentos auténticos. **Cómo empezar:** El cambio real requiere una transformación de identidad. Para ello: 1. Cambia radicalmente tu entorno (físico y digital). 2. Elige un "vehículo" (como crear contenido) que te dé retroalimentación real del mundo. 3. Dedica 15 minutos a responder preguntas introspectivas para encontrar tu "material en bruto" único y tu perspectiva contraria a la convencional. 4. **Publica tu primera idea mañana mismo.** La acción, el feedback y la iteración constante son el único camino. La conclusión es clara: en lugar de temer a la IA, conviértete en un creador que utilice todas las herramientas (incluida la IA) para construir una vida y un trabajo con significado, autonomía e impacto personal.

marsbitHace 4 hora(s)

Cómo Convertirse en Algo que la Inteligencia Artificial Jamás Podrá Reemplazar

marsbitHace 4 hora(s)

Los lanzamientos de dados mantienen las claves de Bitcoin en un modo aislado, pero no todo el mundo se molestará

El título sugiere que las claves de Bitcoin pueden almacenarse fuera de línea mediante lanzamientos de dados, aunque no todos los usuarios adoptarán este método. El artículo comienza explicando la entropía en la teoría de la información, utilizando ejemplos como monedas y dados. Tras un escándalo reciente con Coldcard, se popularizó la generación de semillas de billetera mediante dados. El texto explica que, aunque físicamente determinista, el lanzamiento es impredecible en la práctica, lo que lo hace útil para la seguridad. Se detalla cómo convertir los resultados en datos binarios, con métodos que van desde el simple "par/impar" hasta el uso de funciones hash para preservar más entropía. Para una frase de recuperación de 12 palabras (128 bits de entropía), se necesitan unos 50 lanzamientos; Coldcard recomienda 99 para mayor seguridad. La vulnerabilidad en Coldcard, relacionada con su generador de números aleatorios, puso en riesgo fondos. Las semillas generadas manualmente con dados no se vieron afectadas, pero el investigador Kevin Loaec señaló que otras funciones del dispositivo (como creación de billeteras de papel o claves de coproreseguridad) sí podían estar comprometidas, incluso si la semilla principal era segura. El artículo argumenta que, aunque técnicamente robusto, el proceso de lanzar dados es lento, propenso a errores y poco práctico para la mayoría, especialmente para nuevos usuarios. Concluye que, aunque debe ser una opción para expertos, el objetivo a largo plazo es que el hardware y software generen aleatoriedad fuerte de forma fiable y accesible. Se aconseja a los usuarios de Coldcard verificar su firmware y las funciones utilizadas, y se destaca la utilidad de las billeteras multisig con dispositivos de diferentes fabricantes para mitigar riesgos.

cryptonews.ruHace 7 hora(s)

Los lanzamientos de dados mantienen las claves de Bitcoin en un modo aislado, pero no todo el mundo se molestará

cryptonews.ruHace 7 hora(s)

Trading

Spot

El último examen de los agentes de IA: Fable 5 de Claude resulta vencido por GPT 5.5

Resumen

¡En "El último examen de los agentes", el ganador es GPT 5.5!

¿Qué es ALE?

Una cosa más

Preguntas relacionadas

Lecturas Relacionadas

Diálogo con Ray Dalio: Nos encontramos en una burbuja de IA actualmente, el 1% de mi cartera de inversiones está en Bitcoin

¡Récord de compras netas extranjeras de 7,2 billones de wones en un solo día! Wall Street: Los vientos en contra de los flujos de capital en el mercado coreano se han disipado

¡Bomba! La próxima IA de OpenAI resuelve 10 problemas de nivel Premio Fields

Cómo Convertirse en Algo que la Inteligencia Artificial Jamás Podrá Reemplazar

Los lanzamientos de dados mantienen las claves de Bitcoin en un modo aislado, pero no todo el mundo se molestará

Trading

Categorías populares

Etiquetas Populares