Artículos Relacionados con Benchmark

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Benchmark", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

¡Llega Gemini 3.5! Esta noche, Google hace que Google quede obsoleto

**Google I/O 2026: Geminis Omni, Flash 3.5 y Spark, un salto hacia la superinteligencia** En Google I/O 2026, Sundar Pichai y Demis Hassabis presentaron una avalancha de avances en IA que redefinen el campo. La estrella fue **Gemini Omni**, un modelo “omnimodal” que entiende y genera cualquier combinación de texto, imagen, audio y, lo más destacado, **video de alta calidad**. Omni no solo crea videos realistas; los edita mediante conversación, mantiene la coherencia física y lógica entre escenas, y permite crear avatares personalizados. Ya está disponible en su versión Flash, con una versión Pro en camino. El segundo gran lanzamiento es **Gemini 3.5 Flash**, un modelo que supera ampliamente al anterior flagship, Gemini 3.1 Pro, en benchmarks de código y tareas de agente. Es extremadamente rápido (289 tokens/segundo) y se integra en **Antigravity 2.0**, una plataforma de desarrollo de agentes independiente. Una demostración impactante mostró cómo 93 sub-agentes, dirigidos por 3.5 Flash, escribieron, probaron y auditaron un **sistema operativo funcional desde cero en solo 12 horas**, por menos de 1000 dólares en costos de API. Finalmente, se anunció **Gemini Spark**, un agente personal de IA que funciona 24/7 en la nube. Integrado con las herramientas de Google (Gmail, Docs, Sheets), puede ejecutar tareas complejas como organizar eventos, redactar correos con tu estilo o gestionar información de manera autónoma, incluso mediante comandos de voz. Estará disponible en beta para suscriptores de AI Ultra. En conjunto, estos lanzamientos (creación omnimodal, agentes autónomos de alto rendimiento y asistentes personales persistentes) marcan un salto significativo. Google demostró que las barreras técnicas hacia una Inteligencia Artificial Superinteligente (ASI) se están derribando a un ritmo asombroso, redefiniendo lo que es posible en automatización y creación.

链捕手05/20 07:04

¡Llega Gemini 3.5! Esta noche, Google hace que Google quede obsoleto

链捕手05/20 07:04

En la era de la Auto Investigación, 47 tareas sin respuestas estándar se convierten en la lista obligatoria de evaluación de capacidades de los Agent

Si se coloca a una IA en un entorno de ingeniería sin respuestas estándar, ¿podría sobrevivir? El nuevo benchmark Frontier-Eng Bench, lanzado por Einsia AI, desafía a los agentes de IA con 47 tareas multidisciplinarias y complejas, como la estabilidad de robots submarinos y la optimización de baterías, que no tienen una solución única, sino que requieren una mejora continua y adaptativa. A diferencia de los modelos anteriores que simplemente "buscaban en la memoria", este enfoque pone a la IA en un ciclo cerrado de ingeniería: proponer soluciones, ejecutar simulaciones, recibir retroalimentación, ajustar parámetros y repetir. El objetivo ya no es dar una respuesta correcta, sino medir la capacidad de la IA para mejorar de manera iterativa en entornos con múltiples restricciones, como equilibrar el rendimiento, la seguridad y la eficiencia. Los resultados muestran que, aunque modelos como GPT-5.4 demuestran un rendimiento sólido, aún queda un largo camino para dominar estas tareas. El estudio revela dos hallazgos clave: las mejoras siguen una ley de potencia, volviéndose más difíciles y pequeñas con cada iteración, y la profundidad de la optimización es más crucial que la exploración superficial en paralelo. Este avance sugiere el amanecer de una nueva era de "Auto Research", donde la IA podría actuar como un ingeniero autónomo, trabajando las 24 horas para refinar diseños y procesos basándose en la retroalimentación continua, mientras los humanos establecen los objetivos generales.

marsbit05/13 07:36

En la era de la Auto Investigación, 47 tareas sin respuestas estándar se convierten en la lista obligatoria de evaluación de capacidades de los Agent

marsbit05/13 07:36

El primer gran modelo de Wang Tao hace que Meta finalmente vuelva a la mesa

Diez meses después de que Alexandr Wang (汪滔) se uniera a Meta, la compañía ha lanzado su primer modelo de inteligencia artificial bajo su dirección: **Muse Spark**, parte de la nueva serie Muse. Desarrollado por el Meta Superintelligence Labs (MSL), este modelo multimodal está diseñado para ser rápido y eficiente, pero capaz de manejar problemas complejos en ciencia, matemáticas y salud. Spark utiliza una arquitectura reconstruida desde cero que integra capacidades visuales y de razonamiento en cadena, permitiéndole, por ejemplo, analizar posturas de yoga o componentes de dispositivos. Incluye además un modo de "reflexión" que coordina múltiples submodelos para tareas de razonamiento avanzado. En pruebas comparativas, Muse Spark obtuvo 52 puntos en el Artificial Analysis Intelligence Index, situándose en el cuarto puesto mundial. Destaca en razonamiento visual (86,4 en CharXiv), razonamiento médico (42,8% en HealthBench Hard) y comprensión multidisciplinaria (80,5% en MMMU Pro), aunque muestra debilidades en tareas de codificación extensas. Meta planea integrar Spark en sus productos como WhatsApp, Instagram y Facebook, y ofrecerá acceso mediante API a socios seleccionados. La estrategia de la compañía parece priorizar la agilidad sobre el rendimiento absoluto, buscando competir en el mercado sin retrasos mayores. La reacción inicial de los inversores fue positiva, con un alza del 6,5% en las acciones de Meta.

marsbit04/09 11:02

El primer gran modelo de Wang Tao hace que Meta finalmente vuelva a la mesa

marsbit04/09 11:02

活动图片