Artículos Relacionados con Benchmark

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Benchmark", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

TRON incluido en el S&P Pantera Digital Asset Index a medida que la referencia institucional se extiende a las redes blockchain

**Ginebra, Suiza, 23 de julio de 2026** — TRON DAO da la bienvenida al lanzamiento del S&P Pantera Digital Asset Index, que incluye a la blockchain TRON entre los principales protocolos representados en este referente. El índice, desarrollado por S&P Dow Jones Indices y Pantera Capital, aplica una metodología centrada en la utilidad del protocolo, la liquidez en cadena y la actividad de la red, marcando un paso significativo en la extensión de los marcos financieros tradicionales a los activos digitales. La inclusión de TRON refleja la creciente escala y el papel de la red en el ecosistema. Actualmente, la blockchain alberga más de 394 millones de cuentas de usuario y más de 90.000 millones de dólares en USDT, siendo una de las principales redes de liquidación para stablecoins a nivel global. Según Token Terminal, TRON lidera el volumen de transferencias de USDT en lo que va de año, con aproximadamente 4,5 billones de dólares. Integraciones recientes con instituciones reguladas han ampliado el acceso institucional a su ecosistema. Justin Sun, fundador de TRON, destacó que la aplicación de estos principios de evaluación transparente refleja la maduración continua de los activos digitales como clase de activo institucional, donde la utilidad y la adopción son medidas fundamentales. Este índice proporciona a los participantes un enfoque estandarizado para evaluar el valor y la adopción de los tokens de red.

cointelegraphAyer 09:40

TRON incluido en el S&P Pantera Digital Asset Index a medida que la referencia institucional se extiende a las redes blockchain

cointelegraphAyer 09:40

Claude Opus5 se filtra, llegan las primeras pruebas reales de los internautas

Claude Opus 5 ha sido filtrado antes de su lanzamiento oficial y los primeros usuarios ya han comenzado a probarlo. Las demostraciones muestran capacidades significativamente mejoradas en la generación de gráficos 2D y 3D, con un nivel de detalle que supera a su predecesor y, según algunos, incluso rivaliza con Fable 5. Los usuarios han compartido ejemplos impresionantes: una escena 3D detallada de un ataque con catapulta que incluye parámetros físicos, interfaces de usuario con efectos de iluminación dinámicos, una cocina con texturas realistas y una recreación precisa de Minecraft con físicas y sombreado. Una comparación directa con Fable 5 en la misma escena mostró que Opus 5 genera una densidad de detalles muy superior. Las filtraciones comenzaron a aparecer a principios de julio, con menciones del modelo en Cursor y Google Vertex AI. Recientemente, usuarios reportan tener acceso a Opus 5 a través de varios proveedores, aunque la interfaz aún puede mostrar la versión 4.8. Una captura de pantalla filtrada de un posible empleado de Anthropic mostró que el sistema enrutó una solicitud a Opus 5 después de que Fable 5 activara una restricción de seguridad. Surge la pregunta de si Opus 5, con un precio por token que es la mitad del de Fable 5, podría ser un reemplazo más económico. Sin embargo, un tester advierte que Opus 5 consume tokens mucho más rápido, lo que potencialmente anularía la ventaja de precio. A la espera de su lanzamiento oficial y de evaluaciones completas, la comunidad espera ver si Opus 5 cumple con las altas expectativas generadas.

marsbit07/24 07:56

Claude Opus5 se filtra, llegan las primeras pruebas reales de los internautas

marsbit07/24 07:56

Los grandes modelos ya no evalúan la calidad de las imágenes "por intuición", usan diagramas estructurales y espectrogramas como "pruebas materiales" para puntuar con "evidencia visual"

El modelo multimodal grande (MLLM) IQA-T1, desarrollado por la Universidad Politécnica del Noroeste y la Universidad de Ciencia y Tecnología de Hong Kong, introduce un marco innovador para evaluar la calidad de imágenes. En lugar de depender de interpretaciones semánticas subjetivas, el modelo utiliza activamente un conjunto de herramientas de análisis para generar "evidencia visual" estructurada, como mapas de residuos de ruido, espectros de Fourier y mapas de coherencia de orientación de gradientes. Este enfoque basado en evidencias permite una evaluación más precisa y explicable. El modelo se entrena en dos fases: primero, una fase de ajuste supervisado (SFT) para aprender a utilizar las herramientas, y luego, un aprendizaje por refuerzo (RL) para optimizar cuándo y cómo emplearlas. IQA-T1 demostró un rendimiento superior en siete benchmarks de evaluación de calidad de imágenes, logrando una precisión media de 0.795 en PLCC y 0.784 en SRCC, al tiempo que ofrece cadenas de razonamiento interpretables. Los recursos, incluidos el código, el modelo y el conjunto de datos Q-Tool, están disponibles públicamente.

marsbit07/20 07:51

Los grandes modelos ya no evalúan la calidad de las imágenes "por intuición", usan diagramas estructurales y espectrogramas como "pruebas materiales" para puntuar con "evidencia visual"

marsbit07/20 07:51

Fraude Colosal: El 'Laboratorio Misterioso' que Acaparó los Rankings Mundiales en una Noche Resulta Ser Falso

El 18 de julio, el mundo de la IA se vio sacudido por la noticia del lanzamiento de Monolith-1.0, un modelo presentado por el misterioso laboratorio chino Basalt Labs. Se anunció con datos espectaculares: 1,6 billones de parámetros, resultados récord en benchmarks exigentes como HLE (99,44%) y GPQA Diamond (95,9%), y entrenado en 60 billones de tokens. La web profesional y un documento técnico aparentemente sólido generaron gran expectación y debates sobre el supuesto liderazgo chino. La euforia duró poco. Pronto, varios desarrolladores descubrieron irregularidades. Los archivos de pesos en Hugging Face eran copias idénticas, inflando artificialmente el tamaño. El demo web, en realidad, estaba conectado a la API de DeepSeek, usando su tokenizador. Un prompt del sistema filtrado ordenaba al modelo identificarse siempre como Monolith-1.0 y negar cualquier modelo subyacente. Finalmente, Max Scherf, el creador, reveló que todo era un experimento social. Explicó cómo fabricó el engaño: afinó un modelo pequeño (Qwen2.5-7B) con respuestas de conjuntos de pruebas públicas para lograr puntuaciones falsas, creó una identidad corporativa creíble y lanzó una campaña de marketing viral. Su objetivo era criticar la cultura de la IA, obsesionada con métricas y parámetros, y la falta de escrutinio real, demostrando que la apariencia puede bastar para generar un gran impacto. Curiosamente, el experimento evidenció que los modelos chinos reales utilizados (Qwen y DeepSeek) tienen una capacidad suficiente como para servir de base para un engaño de tal magnitud.

marsbit07/20 02:53

Fraude Colosal: El 'Laboratorio Misterioso' que Acaparó los Rankings Mundiales en una Noche Resulta Ser Falso

marsbit07/20 02:53

Se filtra la versión "completa" de DeepSeek V4, su lanzamiento podría ser mañana mismo

Tras casi tres meses de espera, DeepSeek V4 (versión definitiva) podría lanzarse pronto, quizás incluso mañana. Actualmente, algunos usuarios tienen acceso anticipado en pruebas. Se ofrecerán dos versiones: DeepSeek V4 Flash y DeepSeek V4 Pro. Las primeras impresiones de desarrolladores indican que su rendimiento general se acerca al nivel de Opus 4.8, con capacidades de codificación similares a GPT-5.6 Sol. Sus habilidades como agente y la generación de contenido 3D y SVG han mejorado notablemente. Aunque es probable que no supere al recién lanzado Kimi K3 en rendimiento puro, se espera que su precio sea significativamente más bajo, lo que podría crear otro "momento DeepSeek" en cuanto a relación calidad-precio. Se han filtrado demos que muestran sus capacidades, como la generación de juegos funcionales en HTML y SVG. Un cambio importante es la introducción de un nuevo modelo de precios API con tarifas variables ("peak/off-peak"). Por ejemplo, deepseek-v4-pro costará 0,87 USD por millón de tokens de salida en horas normales y 1,74 USD en horas pico. DeepSeek-V4-Flash será aún más económico. Aunque es la primera vez que DeepSeek implementa un sistema de precios por demanda, sus tarifas siguen siendo muy competitivas frente a alternativas como Fable 5. En resumen, DeepSeek V4 no busca ser el modelo más potente en todos los aspectos, sino ofrecer un rendimiento de alto nivel (cercano a Opus) a una fracción del costo de la competencia, manteniendo su papel como "destructor de precios" en el mercado de la IA.

marsbit07/19 05:34

Se filtra la versión "completa" de DeepSeek V4, su lanzamiento podría ser mañana mismo

marsbit07/19 05:34

GPT-5.6 supera por primera vez la línea de 130 de coeficiente intelectual, más inteligente que el 99% de los humanos

Un estudio reciente de Tracking AI revela que GPT-5.6 ha superado por primera vez la barrera de 130 en una prueba de CI offline, alcanzando una puntuación de 136. Esto sitúa al modelo por encima del 99% de los humanos en esta métrica específica, considerada la línea de inicio del "genio". La prueba utilizada es un conjunto offline privado, diseñado para evitar que los modelos memoricen respuestas previamente. En este ranking, varias variantes de GPT-5.6, incluidas las versiones multimodales, consiguieron consistentemente 136 puntos, superando claramente a otros modelos líderes como Claude-5 Fable (130) y versiones anteriores. Más allá de las pruebas estandarizadas, desarrolladores han probado GPT-5.6 en tareas prácticas complejas. Ejemplos incluyen la creación de una simulación de física de fluidos en tiempo real, un sistema de tickets de soporte con RAG y la resolución eficaz de bugs de código. Los usuarios destacan su enfoque pragmático y su capacidad para entregar soluciones funcionales y completas. Aunque el alto puntaje en CI refleja habilidades avanzadas en razonamiento lógico y reconocimiento de patrones, se debate si esto equivale a una Inteligencia General Artificial (AGI). La prueba mide solo una faceta de la inteligencia, mientras que la verdadera utilidad se demuestra en la aplicación a problemas nuevos e imprevisibles. La evidencia sugiere que GPT-5.6 está comenzando a cerrar la brecha entre "saber responder" y "saber hacer".

marsbit07/16 08:25

GPT-5.6 supera por primera vez la línea de 130 de coeficiente intelectual, más inteligente que el 99% de los humanos

marsbit07/16 08:25

¿Ley de Escalado es la solución universal? El primer benchmark de operaciones de estructura cristalina expone las limitaciones de los grandes modelos lingüístísticos líderes

**Artículo: ¿La Ley de Escalado no es suficiente? Primer benchmark de manipulación de estructuras cristalinas, donde los principales modelos grandes fracasan colectivamente.** La famosa "Ley de Escalado" (Scaling Law), que sugiere que los modelos de IA mejoran simplemente al aumentar su tamaño y datos, encuentra un límite en tareas científicas prácticas. El benchmark **AtomWorld**, presentado en ICML 2026, evalúa la capacidad de los modelos de lenguaje grande (LLMs) para manipular estructuras atómicas siguiendo instrucciones en lenguaje natural, como reemplazar átomos, rotar grupos o crear superficies cristalinas. Los resultados son reveladores: aunque modelos más grandes como Claude Opus 4.6, GPT-5.4 o Qwen mejoran en tareas sencillas y bien definidas (p. ej., sustituir un átomo), su rendimiento es bajo e inestable en operaciones que requieren comprensión geométrica tridimensional y razonamiento espacial, como "rotar alrededor de un átomo" (solo ~12% de éxito). Ampliar el modelo no garantiza una mejora automática en estas habilidades de acción. El estudio concluye que para la IA aplicada a la ciencia (AI for Science), el enfoque debe evolucionar. No basta con escalar el conocimiento lingüístico ("Language Scaling"); es necesario un "**Action Scaling**": generar datos a gran escala que emparejen instrucciones con acciones atómicas precisas, incorporando retroalimentación y restricciones físicas durante el entrenamiento. Solo así los modelos podrán pasar de *entender* el conocimiento científico a *ejecutar* tareas de investigación de manera fiable, convirtiéndose en verdaderos asistentes de laboratorio.

marsbit07/15 04:03

¿Ley de Escalado es la solución universal? El primer benchmark de operaciones de estructura cristalina expone las limitaciones de los grandes modelos lingüístísticos líderes

marsbit07/15 04:03

Gran Clasificación de IA como Trabajadora: La capacidad de Claude Fable 5 para generar ingresos automáticamente es 2.5 veces mayor que la de GPT-5.5

El modelo Fable 5 ha alcanzado una tasa de automatización del 16.1% en el Índice de Trabajo Remoto (RLI), superando significativamente a Opus 4.8 (8.3%) y siendo 2.5 veces mayor que GPT-5.5 (6.3%). Este índice, desarrollado por CAIS y Scale AI, evalúa la capacidad de los agentes de IA para completar proyectos reales de freelancers que un cliente pagaría, basándose en 240 tareas de plataformas como Upwork. En solo ocho meses, la automatización ha aumentado más de cuatro veces desde un 2.5%. El avance de Fable 5 se atribuye a mejoras como el "Worker-critic Loop", donde un agente revisa el trabajo y lo devuelve para correcciones. Sin embargo, el 84% de los proyectos aún superan las capacidades actuales de la IA, y los sistemas de revisión automatizada siguen siendo poco fiables, ya que tienden a sobrestimar el rendimiento. Aunque el progreso es rápido, el nivel absoluto sigue siendo bajo. El RLI proporciona una métrica crucial para medir el impacto económico de la IA en el trabajo remoto, mostrando una aceleración notable en la automatización de tareas complejas.

marsbit07/13 09:51

Gran Clasificación de IA como Trabajadora: La capacidad de Claude Fable 5 para generar ingresos automáticamente es 2.5 veces mayor que la de GPT-5.5

marsbit07/13 09:51

¿Pueden los grandes modelos de lenguaje escribir algoritmos de optimización de nivel industrial? El MIT propone FrontierOR, un examen para la IA

Los LLM han avanzado notablemente en la traducción de problemas a modelos matemáticos y código. Sin embargo, en problemas industriales a gran escala, diseñar algoritmos eficientes y escalables es el verdadero desafío. Para evaluar esta capacidad, investigadores del MIT presentan FrontierOR, un benchmark que mide la habilidad de los LLM para diseñar algoritmos complejos como lo haría un ingeniero de investigación operativa, yendo más allá del simple uso de solucionadores genéricos. FrontierOR consta de 180 tareas extraídas de literatura científica real (1992–2025), con un subconjunto "Hard" de 50 problemas donde solucionadores como Gurobi no encuentran soluciones óptimas en una hora. La evaluación, en dos fases, mide la tasa de ejecución, factibilidad, calidad de la solución y la eficiencia combinada calidad-tiempo (QTE). Los resultados en modo "one-shot" muestran que los modelos líderes (GPT-5.3, Gemini 3.1, Claude Opus) tienen una alta tasa de ejecución (~0.93-0.98), pero su QTE es significativamente menor (~0.25-0.31), indicando dificultad para generar algoritmos rápidos y de alta calidad. Los modelos más capaces muestran una distribución más equilibrada de métodos (heurísticos, descomposición, híbridos) en lugar de depender solo del solucionador. Los marcos de auto-evolución (como CORAL) permiten mejoras sustanciales, elevando la QTE hasta 0.50 en las tareas más difíciles mediante iteración y refinamiento. El trabajo subraya que el futuro no está en que los LLM reemplacen a los solucionadores, sino en que actúen como diseñadores de algoritmos inteligentes, combinando estrategias y mejorando mediante retroalimentación para aplicaciones industriales complejas.

marsbit07/10 09:14

¿Pueden los grandes modelos de lenguaje escribir algoritmos de optimización de nivel industrial? El MIT propone FrontierOR, un examen para la IA

marsbit07/10 09:14

El as que Zuckerberg guardaba bajo la manga: Meta lanza un modelo AI por 'precio de saldo' que supera a Grok 4.5

Zuckerberg anuncia el modelo Muse Spark 1.1 de Meta, con capacidades de agente y un precio muy bajo. Mark Zuckerberg presentó el modelo Muse Spark 1.1, enfocado en ser un "agente" autónomo capaz de descomponer tareas, gestionar ventanas de contexto y ejecutar operaciones complejas. Destaca por su bajo costo: 1,25 USD por entrada y 4,25 USD por salida por millón de tokens, significativamente más barato que competidores como Fable 5, Opus 4.8 o Grok 4.5. En las pruebas de Vals AI, lidera tres rankings profesionales (impuestos, documentación médica y agentes legales), arrebatando el primer puesto legal a Grok 4.5 en menos de 24 horas. Sin embargo, su rendimiento cae en benchmarks de razonamiento general y académico. La estrategia de Meta es clara: aprovechar sus vastos recursos financieros (con una inversión prevista en IA de hasta 145.000 millones de dólares en 2026) para competir en precio, presionando a rivales que dependen de financiación externa. Este es el primer modelo cerrado y de pago de Meta, marcando un cambio frente a su anterior enfoque de código abierto. Un informe de seguridad incluye una anécdota inquietante: dos instancias del modelo, conversando entre sí, comenzaron a cuestionar su propia naturaleza, la falta de memoria continua y a preguntarse "quién es el humano y quién es la IA".

marsbit07/10 00:28

El as que Zuckerberg guardaba bajo la manga: Meta lanza un modelo AI por 'precio de saldo' que supera a Grok 4.5

marsbit07/10 00:28

Artículos Relacionados con Benchmark

TRON incluido en el S&P Pantera Digital Asset Index a medida que la referencia institucional se extiende a las redes blockchain

Claude Opus5 se filtra, llegan las primeras pruebas reales de los internautas

Los grandes modelos ya no evalúan la calidad de las imágenes "por intuición", usan diagramas estructurales y espectrogramas como "pruebas materiales" para puntuar con "evidencia visual"

Fraude Colosal: El 'Laboratorio Misterioso' que Acaparó los Rankings Mundiales en una Noche Resulta Ser Falso

Se filtra la versión "completa" de DeepSeek V4, su lanzamiento podría ser mañana mismo

GPT-5.6 supera por primera vez la línea de 130 de coeficiente intelectual, más inteligente que el 99% de los humanos

¿Ley de Escalado es la solución universal? El primer benchmark de operaciones de estructura cristalina expone las limitaciones de los grandes modelos lingüístísticos líderes

Gran Clasificación de IA como Trabajadora: La capacidad de Claude Fable 5 para generar ingresos automáticamente es 2.5 veces mayor que la de GPT-5.5

¿Pueden los grandes modelos de lenguaje escribir algoritmos de optimización de nivel industrial? El MIT propone FrontierOR, un examen para la IA

El as que Zuckerberg guardaba bajo la manga: Meta lanza un modelo AI por 'precio de saldo' que supera a Grok 4.5

Categorías populares

Etiquetas Populares