Artículos Relacionados con Benchmark

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Benchmark", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

La IA recursiva de la que advierte Anthropic, la nueva compañía de Tianyuandong acaba de dar el «primer paso»

Anthropic advirtió recientemente sobre la trayectoria hacia la "mejora recursiva automática" de la IA, donde los sistemas diseñan y entrenan sus propias versiones posteriores. Ahora, Recursive Superintelligence, una nueva empresa cofundada por Yuan Dong Tian (ex Meta FAIR), ha dado su "primer paso" hacia la investigación automatizada de IA. Han desarrollado un sistema de descubrimiento de conocimiento abierto y automatizado, logrando resultados de última generación (SOTA) en tres benchmarks distintos. El sistema automatiza el ciclo de investigación: generar ideas, implementar código, ejecutar experimentos y aprender para decidir el siguiente paso, reduciendo la dependencia de investigadores humanos. En el benchmark *NanoChat Autoresearch* (entrenamiento eficiente con presupuesto fijo), su sistema mejoró el resultado, necesitando un 30% menos de tiempo para lograr la misma calidad. En *NanoGPT Speedrun* (entrenamiento más rápido), redujo el tiempo récord de 79.7 a 77.5 segundos mediante optimizaciones como cálculo de atención en FP8 y un kernel MLP fusionado más eficiente. Finalmente, en *SOL-ExecBench* (optimización de kernels GPU), mejoró la puntuación general de 0.699 a 0.754, acercándose un 18% más al límite teórico del hardware. Recursive, que cuenta con un equipo de renombre y una fuerte financiación, busca construir sistemas de IA que mejoren recursivamente su propia capacidad de investigación. Este trabajo representa una concreción temprana del paradigma de "IA recursiva". Mientras Anthropic urge precaución y coordinación ante este camino, empresas como Recursive ya están avanzando por él, aunque reconocen que este es solo un primer paso en escenarios bien definidos.

marsbitHace 8 hora(s)

La IA recursiva de la que advierte Anthropic, la nueva compañía de Tianyuandong acaba de dar el «primer paso»

marsbitHace 8 hora(s)

"No necesito un modelo mejor": El panorama de la IA bajo un popular post de Reddit

"Claude Fable 5, el nuevo modelo flagship de Anthropic, marcó un 80.3% en el benchmark SWE-Bench Pro, superando ampliamente a modelos anteriores. Sin embargo, una publicación viral en Reddit titulada 'Claude Fable me hizo darme cuenta de que no necesito un modelo mejor' refleja una desconexión entre las métricas técnicas y la percepción de muchos usuarios. Los comentarios más votados expresan 'fatiga' por las mejoras incrementales, argumentando que modelos como Opus 4.8 ya son 'suficientes' para sus flujos de trabajo diarios. La queja principal gira en torno al costo (el doble que Opus) y, sobre todo, a los estrictos 'guardrails' de seguridad de Fable 5. Usuarios reportan que solicitudes relacionadas con ciberseguridad son rechutadas con frecuencia, siendo derivadas a Opus, lo que genera frustración especialmente entre suscriptores de pago. No obstante, usuarios con tareas complejas y de gran escala, como simulaciones de física de miles de líneas de código, defienden el modelo, describiendo una diferencia sustancial y capacidades superiores para contextos largos y análisis profundo. El debate subraya una posible meseta en la percepción pública de la utilidad de la IA: mientras los benchmarks siguen mejorando, para muchos usuarios el 'techo' de necesidades prácticas ya fue alcanzado. La discusión también señala la brecha entre los modelos de acceso público y las versiones más potentes y restringidas, como Mythos 5, disponible solo para gobiernos y empresas críticas. El futuro de estos modelos públicos dependerá de equilibrar capacidad, costo y usabilidad."

marsbitHace 10 hora(s)

"No necesito un modelo mejor": El panorama de la IA bajo un popular post de Reddit

marsbitHace 10 hora(s)

Justo ahora, Claude Mythos 5 es lanzado: 50 millones de líneas de código resueltas en un día

Anthropic ha lanzado Claude Fable 5 y Claude Mythos 5, sus modelos de IA más potentes hasta la fecha. Fable 5, disponible públicamente con salvaguardas, se degrada automáticamente a Claude Opus 4.8 para consultas de alto riesgo, mientras que Mythos 5 es la versión completa restringida. Fable 5 destaca en ingeniería de software, completando en un día una migración de 50 millones de líneas de código que llevaría meses a un equipo. Posee capacidades visuales nativas, pudiendo completar videojuegos solo con capturas de pantalla, y una memoria mejorada para tareas largas y complejas. En pruebas financieras y de investigación científica, muestra un rendimiento líder, con Mythos 5 diseñando compuestos proteicos que ya están en desarrollo farmacéutico. El modelo introduce un nuevo paradigma de seguridad mediante clasificadores y enrutamiento, reteniendo datos de uso por 30 días para monitorización. Su eficiencia en tokens busca controlar costes en tareas autónomas prolongadas. Experiencias de prueba, como la del profesor Ethan Mollick, indican un cambio fundamental: el humano actúa más como un "cliente" que supervisa, mientras la IA opera de forma autónoma como un "estudio" completo, entregando resultados complejos con una intervención mínima. Fable 5 es de uso gratuito para suscriptores hasta el 22 de junio, tras lo cual requerirá créditos adicionales.

marsbitHace 2 días 00:29

Justo ahora, Claude Mythos 5 es lanzado: 50 millones de líneas de código resueltas en un día

marsbitHace 2 días 00:29

Desde Hunyuan hasta WeChat AI: el lento ritmo de Tencent llega al punto de entrega

El 8 de junio de 2026, la plataforma para desarrolladores de WeChat anunció el inicio de la fase de pruebas internas de "WeChat AI", un asistente integrado en el ecosistema que permite a los usuarios operar mini-programas mediante diálogo en lenguaje natural. Ofrece dos modos de integración: uno automático (sin desarrollo adicional, pero que requiere acceso al código fuente) y otro de desarrollo (para funciones personalizadas). Esto marca la primera apertura de la capa de diálogo a la IA dentro del ecosistema de mini-programas de WeChat. Esta iniciativa representa el último paso en la estrategia de IA de Tencent, que avanza desde la reserva tecnológica (su modelo propio, Hunyuan) y la validación en productos independientes (como la app Yuanbao, que superó los 100 millones de MAU tras una campaña de Año Nuevo) hacia la integración en una superapp. Hunyuan, clasificado como el segundo modelo base nacional pero primero en capacidades de aplicación y Agente, proporciona la base técnica estable y confiable necesaria para operaciones precisas, priorizando la fiabilidad sobre la frecuencia de actualización. El modo automático, de baja barrera de entrada, apunta a atraer a los cientos de miles de pequeños equipos desarrolladores de mini-programas. Sin embargo, genera preocupaciones sobre la seguridad del código, la posible inutilización de lógicas publicitarias y la asignación de responsabilidades en caso de error, aspectos aún sin aclarar públicamente. El verdadero desafío es equilibrar la eficiencia de la IA con los intereses del ecosistema. Mientras que la IA podría ejecutar tareas de usuario (como pedir café) sin que este visite la página del comercio, los desarrolladores temen ser "marginados" o perder control sobre la exposición de su marca, el flujo de usuarios y sus datos. El CEO Ma Huateng reconoció esta tensión entre la "programación centralizada" y la "protección del tráfico descentralizado", pero aún no se han revelado los mecanismos concretos de equilibrio. En resumen, con Hunyuan, Yuanbao y WeChat AI, Tencent ha establecido una ruta lógica: un modelo base confiable, un producto independiente para validación de usuarios y la integración final en la superapp. Sin embargo, la aceptación a gran escala dependerá de resolver las dudas de los desarrolladores sobre el acceso al código fuente, definir reglas equitativas de distribución del tráfico y garantizar la precisión operativa de la IA para ganar la confianza del usuario final. La prueba interna es solo un hito en un maratón cuya línea de meta aún está lejana.

marsbit06/08 10:28

Desde Hunyuan hasta WeChat AI: el lento ritmo de Tencent llega al punto de entrega

marsbit06/08 10:28

Valoración supera los 200.000 millones, se filtra que Kimi obtiene 13.600 millones más en financiación, acelerando su OPV en Hong Kong

Según informes, la startup china de IA Moon Dark Side (creadora del asistente Kimi) está en conversaciones para una nueva ronda de financiación que podría alcanzar los 20.000 millones de dólares (unos 136.000 millones de RMB), con el objetivo de alcanzar una valoración de 300.000 millones de dólares (unos 2,035 billones de RMB). Esto supone un incremento de aproximadamente 6 veces respecto a su valoración de 43.000 millones de dólares en diciembre pasado y sería su tercera ronda en seis meses. La empresa, fundada en 2023 por Yang Zhilin, lanzó su modelo principal Kimi K2.6 en abril, cuyo rendimiento se equipara o supera en algunos aspectos al de modelos líderes como GPT-5.4. Su producto Kimi Work, actualmente en fase beta, funciona como un agente local para trabajadores del conocimiento. En cuanto a su actividad comercial, la startup ya genera ingresos, con ingresos anuales recurrentes (ARR) que superaron los 2.000 millones de dólares en abril. Según Bloomberg, la empresa está preparando una posible OPV en Hong Kong. Este movimiento refleja una aceleración en los procesos de capitalización de las principales empresas de modelos de lenguaje en China, como Moon Dark Side, Stepfun y DeepSeek, siguiendo la tendencia global marcada por OpenAI y Anthropic. La financiación y las salidas a bolsa se están convirtiendo en variables clave para la competencia en el sector.

marsbit06/08 07:47

Valoración supera los 200.000 millones, se filtra que Kimi obtiene 13.600 millones más en financiación, acelerando su OPV en Hong Kong

marsbit06/08 07:47

Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

Hoy, el modelo chino Qwen3.7-Max de Alibaba ha entrado en el top 4 global del ranking Code Arena con 1541 puntos, superando a modelos como GPT-5.5 y Gemini 3.5 Flash. Solo quedan por delante Claude Opus 4.7 y Opus 4.6, lo que convierte a Alibaba en el único representante chino y el segundo a nivel mundial en la competición de modelos de programación. Las pruebas prácticas confirman su rendimiento. En un desafío para crear un juego de carreras 3D en HTML a partir de un prompt, Qwen3.7-Max generó una versión jugable en la primera ronda, incluyendo detalles como una pantalla de inicio y efectos de sonido, donde otros modelos líderes necesitaron múltiples correcciones de errores. Su fortaleza clave reside en ser un "modelo base para Agent", diseñado para ejecutar tareas complejas de forma autónoma y prolongada. En una prueba interna, optimizó código de forma continua durante 35 horas, realizando 1158 llamadas a herramientas sin degradación del contexto. Este avance se atribuye a mejoras en su entrenamiento, como la "expansión de entorno" y la capacidad de "ejecución autónoma de larga duración". Con su combinación de alto rendimiento en benchmarks, resultados prácticos superiores y un coste reducido, Qwen3.7-Max se posiciona como un fuerte competidor en el campo de los modelos de programación, demostrando que la innovación en IA ya no es un monólogo de Silicon Valley.

marsbit05/27 00:20

Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

marsbit05/27 00:20

El exalumno post-00 de Tsinghua, Wang Guan, presenta otra innovación: revolucionando los modelos de preentrenamiento Transformer con 1/900 tokens y 1/432 de potencia computacional

El equipo de Wang Guan, egresado de la Universidad Tsinghua, ha presentado HRM-Text, un nuevo modelo de preentrenamiento que desafía el paradigma tradicional de los grandes modelos de lenguaje. Sustituyendo el Transformer estándar por un Modelo Recurrente Jerárquico (HRM) y utilizando un objetivo de entrenamiento directo en pares instrucción-respuesta, HRM-Text logra un rendimiento comparable a modelos de código abierto de 2B a 7B de parámetros, pero con una fracción mínima de los recursos. Concretamente, el modelo de 1B de parámetros se entrenó con solo 40B de tokens únicos, utilizando aproximadamente 100-900 veces menos tokens y 96-432 veces menos cómputo estimado que los modelos baseline estándar, a un costo cercano a los 1500 USD. Aún así, alcanzó puntuaciones destacadas en benchmarks clave: MMLU (60.7%), ARC-C (81.9%), DROP (82.2%), GSM8K (84.5%) y MATH (56.2%). La arquitectura HRM emplea módulos de actualización lenta (H) y rápida (L), permitiendo múltiples pasos recurrentes por token para aumentar la profundidad computacional sin agregar parámetros. Técnicas como MagicNorm y Warmup Deep Credit Assignment aseguraron la estabilidad del entrenamiento recurrente. Los experimentos muestran que HRM supera en eficiencia y estabilidad a Transformers de tamaño similar bajo un presupuesto computacional fijo. Las ablaciones confirman la contribución clave del objetivo de finalización de tareas y el enmascaramiento PrefixLM. El análisis sugiere que la estructura recurrente confiere una "profundidad efectiva" mayor. Las limitaciones incluyen una cobertura de conocimiento aún limitada por el corpus, la necesidad de mecanismos de tiempo de cómputo adaptativo, y desafíos de ingeniería para implementar PrefixLM en entornos de diálogo. El trabajo futuro explorará desacoplar el núcleo de razonamiento del almacenamiento de conocimientos y validar la escalabilidad a tamaños de modelo mayores.

marsbit05/26 03:19

El exalumno post-00 de Tsinghua, Wang Guan, presenta otra innovación: revolucionando los modelos de preentrenamiento Transformer con 1/900 tokens y 1/432 de potencia computacional

marsbit05/26 03:19

La paradoja de la automatización: cuanto más fuerte sea la IA, más ocupados estaremos

El artículo "La Paradoja de la Automatización: Cuanto más fuerte es la IA, más ocupados estamos los humanos" desafía la narrativa predominante de que la IA eliminará puestos de trabajo de cuello blanco. Basándose en la experiencia de la empresa Every, que utiliza extensamente agentes de IA, el autor argumenta que, si bien la automatización asume tareas repetitivas (como codificación básica, servicio al cliente o redacción de borradores), no reduce la carga laboral humana. En cambio, reorganiza el trabajo: los humanos pasan de ser ejecutores a ser diseñadores de marcos, supervisores de calidad, tomadores de decisiones y solucionadores de problemas complejos en tiempo real. La IA commoditiza habilidades humanas del "ayer", haciendo que la producción genérica sea abundante y barata. Esto genera una homogeneización que, a su vez, incrementa la demanda de diferenciación, juicio contextual y adaptación a situaciones específicas del presente—competencias exclusivamente humanas. Por lo tanto, los expertos no desaparecen; su rol se vuelve más crucial para mantener estándares, diseñar sistemas y abordar lo que la IA no puede: definir qué vale la pena hacer y por qué. El artículo también critica la interpretación de los benchmarks de IA. Estos miden el desempeño dentro de un "marco" o prompt específico diseñado por humanos. A medida que la IA domina un marco, los humanos desplazan la meta hacia marcos más complejos, creando una brecha perpetua (una "paradoja de Zenón" de la IA). Incluso una IA general (AGI), al carecer de intencionalidad y estar alineada con objetivos humanos, seguiría necesitando un "delimitador" humano. La conclusión es que el futuro del trabajo no es la sustitución, sino una colaboración donde la IA amplifica las capacidades humanas, haciendo que el juicio, la creatividad y la definición de propósito sean más valiosos que nunca.

marsbit05/24 07:26

La paradoja de la automatización: cuanto más fuerte sea la IA, más ocupados estaremos

marsbit05/24 07:26

活动图片