Artículos Relacionados con LLM

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "LLM", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

GPT-5.6 supera por primera vez la línea de 130 de coeficiente intelectual, más inteligente que el 99% de los humanos

Un estudio reciente de Tracking AI revela que GPT-5.6 ha superado por primera vez la barrera de 130 en una prueba de CI offline, alcanzando una puntuación de 136. Esto sitúa al modelo por encima del 99% de los humanos en esta métrica específica, considerada la línea de inicio del "genio". La prueba utilizada es un conjunto offline privado, diseñado para evitar que los modelos memoricen respuestas previamente. En este ranking, varias variantes de GPT-5.6, incluidas las versiones multimodales, consiguieron consistentemente 136 puntos, superando claramente a otros modelos líderes como Claude-5 Fable (130) y versiones anteriores. Más allá de las pruebas estandarizadas, desarrolladores han probado GPT-5.6 en tareas prácticas complejas. Ejemplos incluyen la creación de una simulación de física de fluidos en tiempo real, un sistema de tickets de soporte con RAG y la resolución eficaz de bugs de código. Los usuarios destacan su enfoque pragmático y su capacidad para entregar soluciones funcionales y completas. Aunque el alto puntaje en CI refleja habilidades avanzadas en razonamiento lógico y reconocimiento de patrones, se debate si esto equivale a una Inteligencia General Artificial (AGI). La prueba mide solo una faceta de la inteligencia, mientras que la verdadera utilidad se demuestra en la aplicación a problemas nuevos e imprevisibles. La evidencia sugiere que GPT-5.6 está comenzando a cerrar la brecha entre "saber responder" y "saber hacer".

marsbit07/16 08:25

GPT-5.6 supera por primera vez la línea de 130 de coeficiente intelectual, más inteligente que el 99% de los humanos

marsbit07/16 08:25

Solo falta que Liang Wenfeng haga sonar la campana

El DeepSeek está preparando su OPV y busca cotizar en la bolsa de China, posiblemente este año. Tras una ronda de financiación liderada por el propio fundador Liang Wenfeng, con una valoración de unos 480.000 millones de yuanes, la empresa está fortaleciendo su estructura. Competidores como Zhipu y MiniMax también avanzan hacia la salida a bolsa, aprovechando nuevas reglas del mercado para empresas de IA. DeepSeek, conocido por su enfoque en investigación, ahora amplía sus esfuerzos a áreas como chips de IA y productos comerciales, adaptándose a un panorama competitivo donde la financiación y la escala son cruciales para alcanzar la AGI.

marsbit07/15 12:30

Solo falta que Liang Wenfeng haga sonar la campana

marsbit07/15 12:30

Un artículo sobre ingeniería de prompts aceptado en ICML 2026 desata polémica en línea

Un trabajo sobre ingeniería de prompts titulado "Verbalized Sampling" ha sido aceptado en ICML 2026, generando un intenso debate. El método propuesto busca resolver el problema del "colapso modal" en LLMs (modelos de lenguaje grandes), donde las respuestas tienden a ser repetitivas y poco diversas. En lugar de modificar algoritmos o reentrenar modelos, los autores introducen un sencillo cambio en el prompt: piden al modelo que genere múltiples respuestas *y* asigne a cada una un valor de probabilidad estimado. El estudio argumenta que la raíz del problema está en el "sesgo de tipicalidad" presente en los datos de preferencias humanas utilizados para el alineamiento, que favorece respuestas convencionales. Su solución, la "Muestreo Verbalizado" (VS), recuperaría la distribución diversa aprendida durante el pre-entrenamiento. Los experimentos muestran que, en tareas de escritura creativa, la diversidad aumenta entre 1.6 y 2.1 veces sin comprometer la precisión factual o la seguridad. La comunidad en Reddit está dividida. Algunos critican la innovación como mínima, señalando la aparente simplicidad del truco de prompt y cuestionando su generalización. Otros la defienden, comparándola con hitos como el "pensamiento paso a paso" (CoT), y destacan su rigor teórico, experimentación exhaustiva y la valiosa contribución al diagnosticar la causa del colapso modal. El debate refleja una discusión más amplia sobre qué constituye una investigación legítima en el aprendizaje automático actual.

marsbit07/15 08:01

Un artículo sobre ingeniería de prompts aceptado en ICML 2026 desata polémica en línea

marsbit07/15 08:01

La encrucijada de la IA: ¿Por qué Wall Street le dice 'no' a ChatGPT y Claude?

El artículo analiza el creciente conflicto entre la adopción de modelos de IA avanzados, como ChatGPT y Claude, y las preocupaciones corporativas sobre privacidad y fuga de propiedad intelectual (IP). Empresas, especialmente en sectores como las finanzas, están restringiendo su uso debido a riesgos de que los datos confidenciales, enviados en texto plano a servidores de proveedores, se utilicen para entrenar modelos o sean objeto de fugas o citaciones judiciales. Se presentan soluciones para IA privada. A nivel de protocolo, están las promesas contractuales de "retención cero de datos" (ZDR) y los proxies anónimos, pero dependen de la confianza. A nivel estructural, opciones más robustas incluyen Entornos de Ejecución Confiables (TEE) para computación confidencial, cifrado de extremo a extremo (E2EE), cifrado homomórfico completo (FHE) y la inferencia local. Estas permiten verificación, pero generalmente solo funcionan con modelos de código abierto, que aún pueden tener una brecha de rendimiento frente a los modelos líderes cerrados. Un caso de estudio demuestra que modelos abiertos afinados con datos expertos propietarios pueden superar en precisión y coste a los modelos frontera en tareas especializadas. Sin embargo, el proceso de afinado aún plantea desafíos de privacidad. La "privacidad en el arnés" (herramientas externas que usan los agentes de IA) es otro frente abierto, ya que las consultas a herramientas externas a menudo también se envían en texto plano. En conclusión, la IA privada es una opción cada vez más viable y asequible, con la infraestructura mejorando rápidamente. La elección estratégica para las empresas radica en utilizar modelos frontera de confianza para tareas operativas generales, mientras desarrollan y afinan modelos abiertos verificables con sus propios datos expertos y en entornos controlados para proteger su "alfa" o ventaja competitiva central.

链捕手07/13 15:22

La encrucijada de la IA: ¿Por qué Wall Street le dice 'no' a ChatGPT y Claude?

链捕手07/13 15:22

Claude se volvió 'tonto' en toda la red, y Anthropic aclara el motivo: No es el modelo quien te falla

**Los usuarios de Claude Code se quejaban de que el modelo se volvió más torpe, pero Anthropic aclara: el problema no era el modelo, sino el ajuste de "Esfuerzo".** En marzo, muchos desarrolladores notaron que Claude Code parecía menos competente: omitía leer archivos o ejecutar pruebas. La comunidad criticó fuertemente a Anthropic. La causa real fue un cambio en la configuración predeterminada del nivel de **Esfuerzo (Effort)**, de "alto" a "medio", realizado para reducir la latencia. Este ajuste afectó cuánto trabajo invertía Claude en una tarea, no su conocimiento fundamental. Anthropic explica la diferencia clave entre **Modelo** y **Esfuerzo**: * **Modelo (Sonnet, Opus, Fable):** Representa la "inteligencia" o conocimiento base del modelo (pesos congelados del entrenamiento). Cambiarlo resuelve problemas de "¿puede hacerlo?". * **Esfuerzo (Effort):** Representa la "actitud" o cuánto trabajo está dispuesto a realizar en una tarea específica (leer archivos, ejecutar pruebas, verificar). Un Esfuerzo bajo hace que Claude responda rápido pero pida más contexto; un Esfuerzo alto lo hace investigar y trabajar de forma más autónoma. **Conclusión importante:** Un modelo más pequeño (como Sonnet) con un Esfuerzo alto puede superar a un modelo más grande (como Opus) con un Esfuerzo bajo en muchas tareas. El cambio de marzo demostró que los usuarios a menudo subestimaban el impacto del control de Esfuerzo, culpando erróneamente al modelo. **Marco para solucionar problemas:** 1. Verifica primero el contexto y las instrucciones (prompt). 2. Si Claude se equivoca, pregúntate: **¿Es que "no sabe" o "no se esfuerza lo suficiente"?** * **No se esfuerza (ej., omite pasos):** Aumenta el nivel de Esfuerzo. * **No sabe (ej., errores persistentes a pesar del contexto):** Cambia a un modelo más capaz. La lección es que el uso efectivo de herramientas de IA como Claude Code ya no se trata solo de elegir el modelo más potente, sino de aprender a **gestionar y asignar recursos** (modelo y esfuerzo) de manera inteligente para cada tarea, optimizando tanto el rendimiento como el coste.

marsbit07/12 06:00

Claude se volvió 'tonto' en toda la red, y Anthropic aclara el motivo: No es el modelo quien te falla

marsbit07/12 06:00

Desglose del informe de Goldman Sachs sobre el panorama competitivo de los modelos de IA de China: ¿Quién será el ganador a largo plazo?

El informe de Goldman Sachs analiza el panorama competitivo de los modelos de IA de gran tamaño en China. Destaca que los modelos de código abierto chinos han alcanzado un rendimiento cercano al de los modelos propietarios globales líderes, con un crecimiento acelerado en su adopción. La clave del éxito radica en la innovación arquitectónica y la eficiencia de parámetros, lo que permite menores costos. El mercado se divide en dos niveles: el segmento premium (ej. GLM5.2 de Zhipu, Qwen3.7 Max de Alibaba) y el segmento de bajo costo (ej. modelos de MiniMax, DeepSeek), que apunta a usuarios globales sensibles al precio. Se proyecta que los ingresos por API y suscripciones crecerán significativamente hasta 2030. La estrategia predominante es el código abierto, aunque se espera una migración hacia modelos de "pesos abiertos" con acuerdos de reparto de ingresos para mejorar la monetización. El foco internacional, especialmente en mercados no estadounidenses, es crucial para el crecimiento futuro. Usando un marco de análisis basado en capacidad de fijación de precios, ventaja de costos y fortaleza financiera, Goldman Sachs identifica a Zhipu y DeepSeek como los mejor posicionados en modelos de texto básico, y a ByteDance (con Seed) como líder en multimodalidad/generación de video. También mantiene una valoración positiva de MiniMax y Kuaishou.

marsbit07/11 07:54

Desglose del informe de Goldman Sachs sobre el panorama competitivo de los modelos de IA de China: ¿Quién será el ganador a largo plazo?

marsbit07/11 07:54

Informe Profundo de Goldman Sachs: ¿Quién será el ganador a largo plazo en la industria china de modelos de IA grandes?

China se encuentra en un punto de inflexión histórico en cuanto a modelos de IA a gran escala. Según Goldman Sachs, los modelos chinos de código abierto/ponderaciones abiertas han alcanzado un rendimiento cercano al de los mejores modelos propietarios globales, con una rápida adopción por empresas chinas y pymes mundiales, creando un efecto de círculo virtuoso de datos para futuras mejoras. El informe destaca la ventaja de coste-eficiencia de los modelos chinos, lograda mediante innovaciones arquitectónicas (como MoE) que permiten alto rendimiento con menos parámetros activos (3-5%). Modelos como DeepSeek V4 Pro (1,6 billones de parámetros) y GLM5.2 de Zhipu (0,7 billones) son ejemplos clave. El LongCat 2.0 de Meituan, entrenado con chips nacionales, marca un hito en la autosuficiencia. El mercado se está estructurando en dos niveles: modelos premium (como GLM5.2, ~1$/millón de tokens) y modelos económicos para agentes de IA (~0.06-0.2$/millón). Se proyecta que los ingresos por API/suscripción crezcan desde 35.000 millones de RMB en 2026 hasta 879.000 millones en 2030. La estrategia predominante es el código abierto o ponderaciones abiertas (salvo ByteDance), lo que fomenta la adopción pero limita la monetización directa. Se espera una transición hacia licencias comunitarias con acuerdos de reparto de ingresos para mejorar la rentabilidad. La expansión internacional, especialmente en mercados no estadounidenses, es clave. El enfoque empresarial global está cambiando de maximizar tokens a priorizar el ROI. Plataformas como AWS Bedrock y Gemini ya ofrecen modelos chinos. Para identificar a los ganadores a largo plazo, Goldman Sachs aplica un marco basado en capacidad de fijación de precios, ventaja en costes y solidez financiera. En modelos de texto, Zhipu y DeepSeek tienen la posición más fuerte. En multimodal/generación de video, ByteDance lidera con Seed, seguido por Kuaishou y MiniMax. Se mantiene una calificación de compra para MiniMax y Kuaishou.

链捕手07/10 14:29

Informe Profundo de Goldman Sachs: ¿Quién será el ganador a largo plazo en la industria china de modelos de IA grandes?

链捕手07/10 14:29

¿Pueden los grandes modelos de lenguaje escribir algoritmos de optimización de nivel industrial? El MIT propone FrontierOR, un examen para la IA

Los LLM han avanzado notablemente en la traducción de problemas a modelos matemáticos y código. Sin embargo, en problemas industriales a gran escala, diseñar algoritmos eficientes y escalables es el verdadero desafío. Para evaluar esta capacidad, investigadores del MIT presentan FrontierOR, un benchmark que mide la habilidad de los LLM para diseñar algoritmos complejos como lo haría un ingeniero de investigación operativa, yendo más allá del simple uso de solucionadores genéricos. FrontierOR consta de 180 tareas extraídas de literatura científica real (1992–2025), con un subconjunto "Hard" de 50 problemas donde solucionadores como Gurobi no encuentran soluciones óptimas en una hora. La evaluación, en dos fases, mide la tasa de ejecución, factibilidad, calidad de la solución y la eficiencia combinada calidad-tiempo (QTE). Los resultados en modo "one-shot" muestran que los modelos líderes (GPT-5.3, Gemini 3.1, Claude Opus) tienen una alta tasa de ejecución (~0.93-0.98), pero su QTE es significativamente menor (~0.25-0.31), indicando dificultad para generar algoritmos rápidos y de alta calidad. Los modelos más capaces muestran una distribución más equilibrada de métodos (heurísticos, descomposición, híbridos) en lugar de depender solo del solucionador. Los marcos de auto-evolución (como CORAL) permiten mejoras sustanciales, elevando la QTE hasta 0.50 en las tareas más difíciles mediante iteración y refinamiento. El trabajo subraya que el futuro no está en que los LLM reemplacen a los solucionadores, sino en que actúen como diseñadores de algoritmos inteligentes, combinando estrategias y mejorando mediante retroalimentación para aplicaciones industriales complejas.

marsbit07/10 09:14

¿Pueden los grandes modelos de lenguaje escribir algoritmos de optimización de nivel industrial? El MIT propone FrontierOR, un examen para la IA

marsbit07/10 09:14

El as que Zuckerberg guardaba bajo la manga: Meta lanza un modelo AI por 'precio de saldo' que supera a Grok 4.5

Zuckerberg anuncia el modelo Muse Spark 1.1 de Meta, con capacidades de agente y un precio muy bajo. Mark Zuckerberg presentó el modelo Muse Spark 1.1, enfocado en ser un "agente" autónomo capaz de descomponer tareas, gestionar ventanas de contexto y ejecutar operaciones complejas. Destaca por su bajo costo: 1,25 USD por entrada y 4,25 USD por salida por millón de tokens, significativamente más barato que competidores como Fable 5, Opus 4.8 o Grok 4.5. En las pruebas de Vals AI, lidera tres rankings profesionales (impuestos, documentación médica y agentes legales), arrebatando el primer puesto legal a Grok 4.5 en menos de 24 horas. Sin embargo, su rendimiento cae en benchmarks de razonamiento general y académico. La estrategia de Meta es clara: aprovechar sus vastos recursos financieros (con una inversión prevista en IA de hasta 145.000 millones de dólares en 2026) para competir en precio, presionando a rivales que dependen de financiación externa. Este es el primer modelo cerrado y de pago de Meta, marcando un cambio frente a su anterior enfoque de código abierto. Un informe de seguridad incluye una anécdota inquietante: dos instancias del modelo, conversando entre sí, comenzaron a cuestionar su propia naturaleza, la falta de memoria continua y a preguntarse "quién es el humano y quién es la IA".

marsbit07/10 00:28

El as que Zuckerberg guardaba bajo la manga: Meta lanza un modelo AI por 'precio de saldo' que supera a Grok 4.5

marsbit07/10 00:28

La comunidad china arrasa en la ACL 2026: Los autores principales de los mejores artículos son todos chinos y prácticamente copan los artículos destacados

**Resumen de ACL 2026: Dominio de investigadores de origen chino y avances en LLMs** La Conferencia ACL 2026, celebrada en San Diego, batió récords con 12,148 envíos (+45%). Los grandes modelos lingüísticos (LLMs) dominaron la temática. Tres artículos ganaron el "Best Paper Award", todos con primeros autores de origen chino: 1. **"The Imperfective Paradox in Large Language Models" (Bolei Ma et al.)**: Expone un "sesgo teleológico" en LLMs de código abierto, que asumen que las acciones con objetivo (ej. "construir") siempre se completan, actuando más como motores narrativos que como razonadores lógicos. 2. **"Memory efficiency and resource-rational encoding..." (Weijie Xu et al.)**: Al imponer una "memoria de trabajo" limitada (con ruido) a los Transformers, estos optimizan el uso de recursos y su procesamiento se asemeja más al humano. 3. **"Characterizing the Expressivity of Local Attention..." (Jiaoda Li et al.)**: Explica teóricamente por qué la atención local (ventana fija) puede aumentar la expresividad de los Transformers al combinarse con la atención global. Además, entre los 18 "Outstanding Papers", la presencia de investigadores de origen chino fue abrumadora, especialmente en áreas como refuerzo learning, seguridad de LLMs y eficiencia. A nivel de autoría, el 54% de los autores procedían de China continental. La conferencia refleja la intensa focalización actual de la investigación en LLMs y el destacado papel de la comunidad investigadora de origen chino.

marsbit07/09 12:03

La comunidad china arrasa en la ACL 2026: Los autores principales de los mejores artículos son todos chinos y prácticamente copan los artículos destacados

marsbit07/09 12:03

1Los intercambios de criptomonedas proporcionan a los operadores extranjeros acceso a las acciones chinas de empresas de inteligencia artificial

Artículos Relacionados con LLM

GPT-5.6 supera por primera vez la línea de 130 de coeficiente intelectual, más inteligente que el 99% de los humanos

Solo falta que Liang Wenfeng haga sonar la campana

Un artículo sobre ingeniería de prompts aceptado en ICML 2026 desata polémica en línea

La encrucijada de la IA: ¿Por qué Wall Street le dice 'no' a ChatGPT y Claude?

Claude se volvió 'tonto' en toda la red, y Anthropic aclara el motivo: No es el modelo quien te falla

Desglose del informe de Goldman Sachs sobre el panorama competitivo de los modelos de IA de China: ¿Quién será el ganador a largo plazo?

Informe Profundo de Goldman Sachs: ¿Quién será el ganador a largo plazo en la industria china de modelos de IA grandes?

¿Pueden los grandes modelos de lenguaje escribir algoritmos de optimización de nivel industrial? El MIT propone FrontierOR, un examen para la IA

El as que Zuckerberg guardaba bajo la manga: Meta lanza un modelo AI por 'precio de saldo' que supera a Grok 4.5

La comunidad china arrasa en la ACL 2026: Los autores principales de los mejores artículos son todos chinos y prácticamente copan los artículos destacados

Categorías populares

Etiquetas Populares

Tendencias Tecnológicas