Un modelo pequeño de 3B con puntuación de programación comparable a Opus 4.5, un modelo misterioso genera debate, resulta ser chino

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

Un pequeño modelo de 3B parámetros, VibeThinker-3B, desarrollado por el equipo de Sina Weibo, está generando revuelo al alcanzar un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos líderes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro, a pesar de su tamaño significativamente menor. Basado en Qwen2.5-Coder-3B, el modelo fue entrenado con un proceso "Spectrum-to-Signal" que incluye fine-tuning supervisado en dos etapas con aprendizaje curricular, aprendizaje por refuerzo aplicado a múltiples dominios (matemáticas, programación, razonamiento STEM) y destilación de conocimiento. También incorpora una estrategia de evaluación de confiabilidad "Claim-Level" (CLR) para mejorar aún más los resultados en benchmarks. Sus puntuaciones sobresalientes incluyen 94.3 en AIME26, 80.2 en LiveCodeBench v6 y una tasa de aprobación del 96.1% en competiciones recientes de LeetCode. Los autores proponen la "hipótesis de compresión paramétrica", sugiriendo que el razonamiento verificable es una capacidad altamente comprimible que puede alcanzar niveles de vanguardia en modelos pequeños cuando las tareas tienen una estructura clara y señales de feedback confiables, desacoplándose parcialmente del conocimiento factual que requiere más parámetros. El objetivo no es reemplazar a los modelos grandes, sino explorar los límites de los modelos pequeños en dominios específicos. El modelo está disponible públicamente, aunque su rendimiento es intencionalmente esp...

En los últimos días, un modelo pequeño de 3B se ha vuelto viral en X porque, en algunas tareas de razonamiento con verificación de dificultad (como la programación), ha entrado en el rango de rendimiento de modelos de vanguardia como Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, y su tamaño es mucho menor que el de estos modelos.

Este modelo se llama VibeThinker-3B, es un modelo denso de razonamiento con 3 mil millones de parámetros, diseñado para explorar hasta qué punto se puede impulsar la capacidad de razonamiento verificable en un modelo pequeño y estricto.

Después del lanzamiento del modelo, muchas personas quedaron impresionadas con sus resultados y expresaron su deseo de probarlo.

Vale la pena señalar que también es un modelo chino, proveniente del equipo de Sina Weibo.

El informe técnico muestra que el modelo está diseñado específicamente para tareas con señales de verificación confiables, incluyendo razonamiento matemático, programación competitiva, razonamiento STEM y ejecución de instrucciones con restricciones claras.

Por lo tanto, tiene un rendimiento sobresaliente en varias pruebas de referencia. Obtuvo una puntuación de 94.3 en la prueba AIME26, 89.3 en HMMT25, 80.2 (Pass@1) en LiveCodeBench v6, y logró una tasa de aprobación del 96.1% en los concursos semanales y quincenales más recientes y no públicos de LeetCode entre el 25 de abril y el 31 de mayo de 2026.

¿Cómo se entrenó este modelo? El informe técnico revela algunos detalles.

Primero, se basa en Qwen2.5-Coder-3B y utiliza un proceso actualizado de Spectrum-to-Signal para el post-entrenamiento. Este proceso reforzó la síntesis de datos, el filtrado de calidad y el aprendizaje curricular en el ajuste fino supervisado (SFT), extendió el aprendizaje por refuerzo al estilo MGPO a múltiples dominios verificables, conservó trayectorias completas de razonamiento de contexto largo y consolidó las capacidades mediante auto-distilación fuera de línea y aprendizaje por refuerzo de instrucciones (Instruct RL).

Flujo de entrenamiento general de VibeThinker-3B

Proceso Spectrum-to-Signal.

Además, VibeThinker-3B introduce la evaluación de confiabilidad a nivel de afirmación (CLR), una estrategia de escalado en tiempo de prueba para razonamiento verificable orientado a respuestas. CLR mejora aún más el rendimiento en pruebas de referencia matemáticas, elevando AIME26 de 94.3 a 97.1, HMMT25 de 89.3 a 95.4, y llevando BruMO25 a 99.2.

Su flujo de entrenamiento específico es el siguiente:

SFT en dos etapas basado en currículum. La primera etapa se centra en la cobertura amplia de capacidades como razonamiento matemático, programación, STEM, diálogo general y seguimiento de instrucciones. La segunda etapa se orienta hacia muestras de razonamiento más difíciles y de mayor alcance. La destilación de exploración de diversidad se usa para conservar múltiples rutas de solución efectivas.
Aprendizaje por refuerzo de razonamiento en múltiples dominios. VibeThinker-3B reutiliza MGPO. El aprendizaje por refuerzo se aplica secuencialmente a tareas de razonamiento matemático, de programación y STEM. El entrenamiento utiliza una única ventana de contexto largo de 64K para conservar trayectorias completas de razonamiento de largo plazo.
Auto-distilación fuera de línea. Se filtran y refinan trayectorias de alta calidad desde los puntos de control de RL matemático, de programación y STEM, formando finalmente un modelo de estudiante unificado. La puntuación de potencial de aprendizaje prioriza aquellas trayectorias correctas que el estudiante aún no imita bien.
Instruct RL. La etapa final mejora la controlabilidad ante indicaciones orientadas al usuario. Para datos instructivos sensibles al formato y de tipo abierto, se utilizan verificadores basados en reglas y modelos de recompensa basados en criterios de evaluación.

En una publicación reciente, el reconocido investigador y blogger de IA Sebastian Raschka resumió sistemáticamente los puntos clave revelados en el informe técnico de VibeThinker-3B, incluyendo los siguientes:

Si estás interesado en este contenido, puedes consultar su informe técnico en detalle. Actualmente, el modelo también está disponible para descarga pública.

Título del informe: VibeThinker-3B: Explorando la frontera del razonamiento verificable en modelos de lenguaje pequeños

Enlace al informe: https://arxiv.org/pdf/2606.16140

Enlace de HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Sin embargo, el ámbito de aplicación de este modelo tiene limitaciones claras, ya que no sobresale en áreas que requieren conocimiento general.

Los autores también señalan esto claramente y proponen la "hipótesis de compresión paramétrica por cobertura": diferentes capacidades dependen de los parámetros del modelo de maneras radicalmente distintas. El razonamiento verificable se acerca más a una capacidad altamente compresible y paramétricamente densa, cuyo núcleo reside en el razonamiento de múltiples pasos, la satisfacción de restricciones, la autocorrección y la verificación de respuestas. Cuando el espacio de tareas es suficientemente estructurado y las señales de retroalimentación son lo suficientemente confiables, los modelos compactos también pueden poseer capacidades de razonamiento cercanas a la vanguardia. En contraste, el conocimiento de dominio abierto, el diálogo general y la comprensión de escenarios de cola larga dependen más de grandes parámetros para cubrir ampliamente hechos, conceptos y conocimiento del mundo. Esta hipótesis es muy reveladora. VentureBeat escribió en su reportaje: "Revela que existe un desacoplamiento parcial entre la capacidad de razonamiento y el conocimiento fáctico, y que la primera puede comprimirse de manera más eficiente de lo que se pensaba — una perspectiva que tiene implicaciones profundas en cómo la industria ve el diseño de modelos, los costos de implementación y la accesibilidad de funciones avanzadas de IA."

Los autores indican que su objetivo no es crear un modelo pequeño que reemplace a los modelos grandes, sino examinar los límites reales de los modelos pequeños a lo largo de dimensiones de capacidad específicas. Con VibeThinker-3B, esperan mostrar que los modelos pequeños no deben verse meramente como una solución de compromiso para reducir los costos de implementación. En dominios de capacidad con mecanismos claros de retroalimentación y verificación, los modelos de lenguaje pequeños están mostrando una vía de investigación prometedora para lograr un rendimiento de nivel de vanguardia, formando una relación fundamentalmente complementaria con el paradigma tradicional de escalado de parámetros.

Actualmente, el modelo aún enfrenta algunas dudas en la comunidad. Si estás interesado en este modelo, puedes probarlo personalmente.

Enlaces de referencia:

https://x.com/orcus108/status/2066876960073281582

Este artículo es de la cuenta oficial de WeChat "机器之心" (ID: almosthuman2014), autor: Zhang Qian.

Preguntas relacionadas

Q¿Qué es el modelo VibeThinker-3B y por qué ha generado tanto interés?

AVibeThinker-3B es un modelo de lenguaje pequeño de 3.000 millones de parámetros desarrollado por el equipo de Sina Weibo. Ha generado interés porque, a pesar de su tamaño reducido, alcanza un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos de última generación mucho más grandes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro.

Q¿En qué tipo de tareas sobresale específicamente el VibeThinker-3B?

AEl VibeThinker-3B está especializado y sobresale en tareas de razonamiento con señales de verificación confiables, como razonamiento matemático, programación competitiva, razonamiento STEM (Ciencia, Tecnología, Ingeniería y Matemáticas) y ejecución de instrucciones con restricciones claras.

Q¿Cuál es la base del modelo y cuál fue su proceso de entrenamiento clave?

AEl modelo se construyó sobre la base de Qwen2.5-Coder-3B. Su proceso de entrenamiento clave fue el 'Spectrum-to-Signal', que incluyó ajuste fino supervisado (SFT) con datos sintéticos y filtrados, aprendizaje por refuerzo aplicado a múltiples dominios, destilación automática fuera de línea y aprendizaje por refuerzo con instrucciones (Instruct RL) para consolidar capacidades.

Q¿Qué hipótesis importante plantea el equipo detrás de VibeThinker-3B sobre las capacidades de los modelos?

APlantean la 'hipótesis de cobertura de compresión de parámetros'. Esta sugiere que la capacidad de razonamiento verificable (lógica, resolución de problemas) está parcialmente disociada del conocimiento fáctico general y es altamente compresible. Por lo tanto, un modelo pequeño y denso puede alcanzar un rendimiento de vanguardia en tareas con retroalimentación clara, mientras que el conocimiento de dominio abierto requiere más parámetros.

Q¿Dónde se puede encontrar más información técnica y acceder al modelo VibeThinker-3B?

AEl informe técnico titulado 'VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models' está disponible en arXiv: https://arxiv.org/pdf/2606.16140. El modelo puede descargarse públicamente desde HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B.

Lecturas Relacionadas

¡Como resultado de la piratería de Coldcard, uno de los mayores hackeos de billeteras de Bitcoin en los últimos tiempos, comienza una nueva ola de pérdidas! Las pérdidas aumentan

La empresa Galaxy Research ha identificado una tercera oleada de ataques dirigidos a direcciones de carteras Coldcard, resultando en el robo de 207.7294 BTC. Esto eleva las pérdidas totales a 1,367.05 BTC (aproximadamente 88.6 millones de dólares) afectando a 4,585 direcciones. Mientras las dos primeras oleadas mostraban comportamientos similares en la blockchain -usando unas pocas direcciones compartidas y apuntando a carteras con diferentes derivaciones-, la tercera presenta diferencias clave: crea una dirección única por víctima, ataca direcciones P2WSH (no P2WPKH) y escanea solo la ruta de derivación estándar. Los investigadores no pueden confirmar si se trata del mismo atacante o de uno nuevo aprovechando la vulnerabilidad publicada. Los fondos robados, en su mayoría de carteras con menos de 1 BTC, aún no han sido movidos de las direcciones controladas por los hackers. El software vulnerable de Coldcard fue lanzado en marzo de 2021, y todos los bitcoins robados se crearon después de esa fecha.

cryptonews.ruHace 38 min(s)

¡Como resultado de la piratería de Coldcard, uno de los mayores hackeos de billeteras de Bitcoin en los últimos tiempos, comienza una nueva ola de pérdidas! Las pérdidas aumentan

cryptonews.ruHace 38 min(s)

Trump Media vende otros 2,628 BTC; sus tenencias caen a 4,261 BTC

Trump Media & Technology Group, la empresa detrás de Truth Social, ha vendido otros 2.628 bitcoins (BTC) por valor de unos 165 millones de dólares, según datos de Arkham citados por Lookonchain. Con esta venta, realizada a través de transferencias a Crypto.com, la empresa ha vendido un total de 7.281 BTC en los últimos siete meses, reduciendo sus tenencias en un 63% hasta los 4.261 BTC actuales (unos 269,8 millones de dólares). Las ventas se producen en un contexto de mayor escrutinio sobre los intereses criptográficos vinculados al expresidente Donald Trump, mientras los legisladores debaten la ley CLARITY, que busca abordar normas éticas y posibles conflictos de interés de funcionarios públicos con activos digitales.

cointelegraphHace 58 min(s)

Trump Media vende otros 2,628 BTC; sus tenencias caen a 4,261 BTC

cointelegraphHace 58 min(s)

Fujian Jinjiang, un superunicornio de almacenamiento en silencio

福建 Jinjiang alberga una joya oculta del almacenamiento: Fujian Jinhua Integrated Circuit Co., Ltd. Fundada en 2016, la empresa fue creada con una misión nacional para romper el monopolio de Samsung, SK Hynix y Micron en la industria DRAM. Su trayectoria fue interrumpida en 2018 cuando Estados Unidos la incluyó en su lista de entidades y presentó cargos penales, deteniendo su producción. Después de seis años, un tribunal federal de EE. UU. declaró a Jinhua inocente en febrero de 2024. A pesar del retraso, la empresa, bajo el liderazgo de Chen Zhengkun, logró reconstruir lentamente su línea de producción, aumentando el uso de equipos nacionales. Actualmente, Jinhua se centra en la memoria DRAM especializada para productos como televisores inteligentes e impresoras, con una capacidad mensual estable de 40,000 obleas de 12 pulgadas y un objetivo de 60,000 para 2026. Aún permanece en la lista de entidades de EE. UU. Con el apoyo del gobierno local, Jinhha ha servido como catalizador para un clúster de circuitos integrados en Jinjiang. Aunque su escala es modesta en comparación con gigantes como ChangXin Memory Technologies, su persistencia simboliza la resiliencia de la industria china de semiconductores frente a la presión externa.

marsbitHace 1 hora(s)

Fujian Jinjiang, un superunicornio de almacenamiento en silencio

marsbitHace 1 hora(s)

Ante un déficit de 38 GW en suministro eléctrico, ¿por qué las granjas de minería de Bitcoin se han convertido de repente en la nueva entrada para la capacidad computacional de la IA?

Cuando la escasez eléctrica amenaza la expansión de la IA, antiguas granjas de minería de Bitcoin emergen como una solución clave. Según Morgan Stanley, EE.UU. podría enfrentar un déficit de 38 GW de energía para centros de datos entre 2026 y 2028. Empresas mineras como TeraWulf y Hut 8 están transformando sus infraestructuras -con conexiones a la red, tierras y subestaciones ya aprobadas- en centros de procesamiento para la IA. Estas "proveedoras de infraestructura energizada" ofrecen acceso rápido a cientos de megavatios, un recurso que ahora es más escaso y valioso que la propia capacidad de cómputo. Su valor ya no reside en minar criptomonedas, sino en proporcionar a las grandes tecnológicas la energía necesaria para desplegar su potencia de IA años antes que la competencia.

华尔街日报Hace 1 hora(s)

Ante un déficit de 38 GW en suministro eléctrico, ¿por qué las granjas de minería de Bitcoin se han convertido de repente en la nueva entrada para la capacidad computacional de la IA?

华尔街日报Hace 1 hora(s)

Michael Saylor: 'Nunca dijimos que nunca venderíamos bitcoins'

Michael Saylor, presidente del comité estratégico, aclaró que la empresa nunca se comprometió a no vender sus bitcoins, aunque espera seguir siendo un comprador neto de bitcoin a largo plazo. Sus declaraciones responden a informes sobre un supuesto nuevo permiso de venta de hasta $5 mil millones en BTC por parte de MicroStrategy. Saylor afirmó que la autorización no es nueva y fue anunciada el 29 de junio como parte del sistema de gestión de capital de la empresa, permitiendo ventas para fines específicos sin obligación de ejecutarlas. Destacó que el programa de monetización de bitcoin de MicroStrategy no requiere vender sus activos en BTC y que la compañía nunca adoptó oficialmente una política de "nunca vender bitcoin".

cryptonews.ruHace 2 hora(s)

Michael Saylor: 'Nunca dijimos que nunca venderíamos bitcoins'