Un modelo pequeño de 3B con puntuación de programación comparable a Opus 4.5, un modelo misterioso genera debate, resulta ser chino

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

Un pequeño modelo de 3B parámetros, VibeThinker-3B, desarrollado por el equipo de Sina Weibo, está generando revuelo al alcanzar un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos líderes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro, a pesar de su tamaño significativamente menor. Basado en Qwen2.5-Coder-3B, el modelo fue entrenado con un proceso "Spectrum-to-Signal" que incluye fine-tuning supervisado en dos etapas con aprendizaje curricular, aprendizaje por refuerzo aplicado a múltiples dominios (matemáticas, programación, razonamiento STEM) y destilación de conocimiento. También incorpora una estrategia de evaluación de confiabilidad "Claim-Level" (CLR) para mejorar aún más los resultados en benchmarks. Sus puntuaciones sobresalientes incluyen 94.3 en AIME26, 80.2 en LiveCodeBench v6 y una tasa de aprobación del 96.1% en competiciones recientes de LeetCode. Los autores proponen la "hipótesis de compresión paramétrica", sugiriendo que el razonamiento verificable es una capacidad altamente comprimible que puede alcanzar niveles de vanguardia en modelos pequeños cuando las tareas tienen una estructura clara y señales de feedback confiables, desacoplándose parcialmente del conocimiento factual que requiere más parámetros. El objetivo no es reemplazar a los modelos grandes, sino explorar los límites de los modelos pequeños en dominios específicos. El modelo está disponible públicamente, aunque su rendimiento es intencionalmente esp...

En los últimos días, un modelo pequeño de 3B se ha vuelto viral en X porque, en algunas tareas de razonamiento con verificación de dificultad (como la programación), ha entrado en el rango de rendimiento de modelos de vanguardia como Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, y su tamaño es mucho menor que el de estos modelos.

Este modelo se llama VibeThinker-3B, es un modelo denso de razonamiento con 3 mil millones de parámetros, diseñado para explorar hasta qué punto se puede impulsar la capacidad de razonamiento verificable en un modelo pequeño y estricto.

Después del lanzamiento del modelo, muchas personas quedaron impresionadas con sus resultados y expresaron su deseo de probarlo.

Vale la pena señalar que también es un modelo chino, proveniente del equipo de Sina Weibo.

El informe técnico muestra que el modelo está diseñado específicamente para tareas con señales de verificación confiables, incluyendo razonamiento matemático, programación competitiva, razonamiento STEM y ejecución de instrucciones con restricciones claras.

Por lo tanto, tiene un rendimiento sobresaliente en varias pruebas de referencia. Obtuvo una puntuación de 94.3 en la prueba AIME26, 89.3 en HMMT25, 80.2 (Pass@1) en LiveCodeBench v6, y logró una tasa de aprobación del 96.1% en los concursos semanales y quincenales más recientes y no públicos de LeetCode entre el 25 de abril y el 31 de mayo de 2026.

¿Cómo se entrenó este modelo? El informe técnico revela algunos detalles.

Primero, se basa en Qwen2.5-Coder-3B y utiliza un proceso actualizado de Spectrum-to-Signal para el post-entrenamiento. Este proceso reforzó la síntesis de datos, el filtrado de calidad y el aprendizaje curricular en el ajuste fino supervisado (SFT), extendió el aprendizaje por refuerzo al estilo MGPO a múltiples dominios verificables, conservó trayectorias completas de razonamiento de contexto largo y consolidó las capacidades mediante auto-distilación fuera de línea y aprendizaje por refuerzo de instrucciones (Instruct RL).

Flujo de entrenamiento general de VibeThinker-3B

Proceso Spectrum-to-Signal.

Además, VibeThinker-3B introduce la evaluación de confiabilidad a nivel de afirmación (CLR), una estrategia de escalado en tiempo de prueba para razonamiento verificable orientado a respuestas. CLR mejora aún más el rendimiento en pruebas de referencia matemáticas, elevando AIME26 de 94.3 a 97.1, HMMT25 de 89.3 a 95.4, y llevando BruMO25 a 99.2.

Su flujo de entrenamiento específico es el siguiente:

  • SFT en dos etapas basado en currículum. La primera etapa se centra en la cobertura amplia de capacidades como razonamiento matemático, programación, STEM, diálogo general y seguimiento de instrucciones. La segunda etapa se orienta hacia muestras de razonamiento más difíciles y de mayor alcance. La destilación de exploración de diversidad se usa para conservar múltiples rutas de solución efectivas.
  • Aprendizaje por refuerzo de razonamiento en múltiples dominios. VibeThinker-3B reutiliza MGPO. El aprendizaje por refuerzo se aplica secuencialmente a tareas de razonamiento matemático, de programación y STEM. El entrenamiento utiliza una única ventana de contexto largo de 64K para conservar trayectorias completas de razonamiento de largo plazo.
  • Auto-distilación fuera de línea. Se filtran y refinan trayectorias de alta calidad desde los puntos de control de RL matemático, de programación y STEM, formando finalmente un modelo de estudiante unificado. La puntuación de potencial de aprendizaje prioriza aquellas trayectorias correctas que el estudiante aún no imita bien.
  • Instruct RL. La etapa final mejora la controlabilidad ante indicaciones orientadas al usuario. Para datos instructivos sensibles al formato y de tipo abierto, se utilizan verificadores basados en reglas y modelos de recompensa basados en criterios de evaluación.

En una publicación reciente, el reconocido investigador y blogger de IA Sebastian Raschka resumió sistemáticamente los puntos clave revelados en el informe técnico de VibeThinker-3B, incluyendo los siguientes:

Si estás interesado en este contenido, puedes consultar su informe técnico en detalle. Actualmente, el modelo también está disponible para descarga pública.

Título del informe: VibeThinker-3B: Explorando la frontera del razonamiento verificable en modelos de lenguaje pequeños

Enlace al informe: https://arxiv.org/pdf/2606.16140

Enlace de HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Sin embargo, el ámbito de aplicación de este modelo tiene limitaciones claras, ya que no sobresale en áreas que requieren conocimiento general.

Los autores también señalan esto claramente y proponen la "hipótesis de compresión paramétrica por cobertura": diferentes capacidades dependen de los parámetros del modelo de maneras radicalmente distintas. El razonamiento verificable se acerca más a una capacidad altamente compresible y paramétricamente densa, cuyo núcleo reside en el razonamiento de múltiples pasos, la satisfacción de restricciones, la autocorrección y la verificación de respuestas. Cuando el espacio de tareas es suficientemente estructurado y las señales de retroalimentación son lo suficientemente confiables, los modelos compactos también pueden poseer capacidades de razonamiento cercanas a la vanguardia. En contraste, el conocimiento de dominio abierto, el diálogo general y la comprensión de escenarios de cola larga dependen más de grandes parámetros para cubrir ampliamente hechos, conceptos y conocimiento del mundo. Esta hipótesis es muy reveladora. VentureBeat escribió en su reportaje: "Revela que existe un desacoplamiento parcial entre la capacidad de razonamiento y el conocimiento fáctico, y que la primera puede comprimirse de manera más eficiente de lo que se pensaba — una perspectiva que tiene implicaciones profundas en cómo la industria ve el diseño de modelos, los costos de implementación y la accesibilidad de funciones avanzadas de IA."

Los autores indican que su objetivo no es crear un modelo pequeño que reemplace a los modelos grandes, sino examinar los límites reales de los modelos pequeños a lo largo de dimensiones de capacidad específicas. Con VibeThinker-3B, esperan mostrar que los modelos pequeños no deben verse meramente como una solución de compromiso para reducir los costos de implementación. En dominios de capacidad con mecanismos claros de retroalimentación y verificación, los modelos de lenguaje pequeños están mostrando una vía de investigación prometedora para lograr un rendimiento de nivel de vanguardia, formando una relación fundamentalmente complementaria con el paradigma tradicional de escalado de parámetros.

Actualmente, el modelo aún enfrenta algunas dudas en la comunidad. Si estás interesado en este modelo, puedes probarlo personalmente.

Enlaces de referencia:

https://x.com/orcus108/status/2066876960073281582

Este artículo es de la cuenta oficial de WeChat "机器之心" (ID: almosthuman2014), autor: Zhang Qian.

Preguntas relacionadas

Q¿Qué es el modelo VibeThinker-3B y por qué ha generado tanto interés?

AVibeThinker-3B es un modelo de lenguaje pequeño de 3.000 millones de parámetros desarrollado por el equipo de Sina Weibo. Ha generado interés porque, a pesar de su tamaño reducido, alcanza un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos de última generación mucho más grandes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro.

Q¿En qué tipo de tareas sobresale específicamente el VibeThinker-3B?

AEl VibeThinker-3B está especializado y sobresale en tareas de razonamiento con señales de verificación confiables, como razonamiento matemático, programación competitiva, razonamiento STEM (Ciencia, Tecnología, Ingeniería y Matemáticas) y ejecución de instrucciones con restricciones claras.

Q¿Cuál es la base del modelo y cuál fue su proceso de entrenamiento clave?

AEl modelo se construyó sobre la base de Qwen2.5-Coder-3B. Su proceso de entrenamiento clave fue el 'Spectrum-to-Signal', que incluyó ajuste fino supervisado (SFT) con datos sintéticos y filtrados, aprendizaje por refuerzo aplicado a múltiples dominios, destilación automática fuera de línea y aprendizaje por refuerzo con instrucciones (Instruct RL) para consolidar capacidades.

Q¿Qué hipótesis importante plantea el equipo detrás de VibeThinker-3B sobre las capacidades de los modelos?

APlantean la 'hipótesis de cobertura de compresión de parámetros'. Esta sugiere que la capacidad de razonamiento verificable (lógica, resolución de problemas) está parcialmente disociada del conocimiento fáctico general y es altamente compresible. Por lo tanto, un modelo pequeño y denso puede alcanzar un rendimiento de vanguardia en tareas con retroalimentación clara, mientras que el conocimiento de dominio abierto requiere más parámetros.

Q¿Dónde se puede encontrar más información técnica y acceder al modelo VibeThinker-3B?

AEl informe técnico titulado 'VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models' está disponible en arXiv: https://arxiv.org/pdf/2606.16140. El modelo puede descargarse públicamente desde HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B.

Lecturas Relacionadas

Gate Research Institute: Análisis de Formaciones Gráficas y Estrategia de Trading por Ruptura

"Gate Research: Análisis de Patrones Gráficos y Estrategias de Trading por Ruptura Los patrones gráficos son herramientas esenciales del análisis técnico para observar cambios en la oferta y la demanda, y posibles continuaciones o reversiones de tendencia. Su análisis requiere una evaluación integral de la tendencia, volumen, soportes/resistencias, ciclos temporales y la validez de las rupturas, no solo la memorización de formas. Los patrones se dividen principalmente en dos categorías: de reversión (como doble techo/doble suelo, cabeza y hombros) y de continuación (como banderas, triángulos, rectángulos). Una ruptura efectiva suele basarse en niveles claros de soporte/resistencia, una consolidación prolongada, el contexto de la tendencia y la confirmación del volumen. Sin embargo, una ruptura no garantiza una tendencia nueva, ya que las falsas rupturas son frecuentes. Los traders deben gestionar el riesgo mediante el control de la posición, stop-loss, confirmación por retroceso y toma parcial de ganancias. La estrategia de trading por ruptura se centra en la salida del precio de un rango o patrón consolidado. La entrada puede realizarse en el momento de la ruptura o tras una confirmación por retroceso. Es crucial definir niveles claros de entrada, stop-loss (colocándolo fuera de la estructura del patrón) y objetivos de beneficio (a menudo basados en la altura del patrón). La gestión de posiciones puede incluir tomar ganancias parciales en objetivos medibles y seguir el resto con un stop-loss móvil. Existen tres tipos principales de comportamiento tras una ruptura: ruptura efectiva (avance sostenido), ruptura con retroceso (que ofrece una segunda oportunidad de entrada) y falsa ruptura (que revierte rápidamente). Indicadores como el volumen, la conversión de soporte/resistencia, ATR, medias móviles, Bandas de Bollinger y RSI pueden ayudar a validar la solidez de una ruptura. En conclusión, los patrones y las rupturas proporcionan un marco útil, pero su eficacia depende de múltiples factores que converjan. Deben integrarse en un sistema de trading más amplio que incluya gestión de riesgo y gestión monetaria disciplinada."

marsbitHace 12 min(s)

Gate Research Institute: Análisis de Formaciones Gráficas y Estrategia de Trading por Ruptura

marsbitHace 12 min(s)

STRC sufre una grave desvinculación de su valor nominal, ¿qué riesgos está valorando el mercado?

**Resumen: La Desvinculación de STRC y los Riesgos que Valora el Mercado** La acción preferente perpetua STRC de Strategy ha caído a unos 89 dólares, desviándose significativamente de su valor nominal de 100 USD, lo que eleva su rendimiento simple actual a aproximadamente el 12.9%. Esto es inusual, ya que STRC fue diseñada como un instrumento de alto rendimiento que debería operar cerca de la paridad. Strategy mantiene un dividendo anual del 11.5% y aumentará la frecuencia de pago a quincenal a partir de julio, lo que, en teoría, debería apoyar el precio. El mercado, sin embargo, está valorando otros riesgos. Una explicación clave es la posible liquidación mecánica de operaciones de *carry trade* con apalancamiento: la caída del precio puede forzar ventas para cubrir márgenes, creando un círculo vicioso de desapalancamiento. Además, la tokenización de STRC y su integración en protocolos DeFi (como Apyx, Saturn, Pendle) han amplificado la volatilidad al conectar el activo con mecanismos más rápidos de préstamo, apalancamiento y liquidación. La aparición de un producto competidor, SATA de Strive, que ofrece un rendimiento nominal del 13% y pagos diarios, ha cambiado el punto de referencia para los inversores que buscan rendimiento, desafiando la narrativa de escasez de STRC. Aunque Strategy enfatiza su cobertura con reservas de BTC (capacidad para cubrir dividendos durante ~31.6 años), el mercado cuestiona si esto se traduce en un flujo de caja estable para los dividendos. El mecanismo de dividendo ajustable de Strategy, destinado a mantener el precio cerca de los 100 USD, está ahora bajo prueba. La cuestión clave es si Strategy actuará para restaurar la paridad (por ejemplo, ajustando el dividendo) o si el mercado ha establecido un nuevo punto de partida para la prima de riesgo de STRC. La evolución del precio, las próximas decisiones sobre dividendos y la estabilización de las posiciones apalancadas serán cruciales para determinar si el descuento actual es una sobreventa temporal o un reflejo de un riesgo estructural mayor.

marsbitHace 24 min(s)

STRC sufre una grave desvinculación de su valor nominal, ¿qué riesgos está valorando el mercado?

marsbitHace 24 min(s)

El precio de LIT alcanza un máximo de seis meses: ¿cuánto durará aún el combustible de la rueda de recompras?

El token LIT de Lighter, un exchange descentralizado de contratos perpetuos, alcanzó un máximo de 1.9 USD el 18 de junio, su precio más alto en seis meses, antes de corregir a alrededor de 1.6 USD. Su capitalización de mercado es de 425 millones de USD. El mecanismo central de captura de valor de Lighter es un programa de recompra automática que utiliza el 100% de los ingresos por comisiones para comprar LIT en el mercado abierto. Desde su lanzamiento, se han recomprado aproximadamente 15 millones de LIT (6% de la oferta circulante), por valor de unos 21 millones de USD. Otro pilar es el LLP (Lighter Liquidity Pool), un fondo que actúa como contraparte central para los traders. Los proveedores de liquidez deben apostar LIT equivalente al 10% de su depósito en USDC, lo que crea una demanda significativa y bloquea tokens. Actualmente, circulan 250 millones de LIT (25% del total), y el 75% restante (equipo e inversores) está bloqueado hasta diciembre de 2026, lo que elimina la presión de venta inmediata. Al compararse con su principal competidor, Hyperliquid (HYPE), Lighter muestra un volumen negociado y un interés abierto menores. Hyperliquid, con un ecosistema más amplio que incluye mercados de predicción y un ETF spot en EE.UU., cuenta con un respaldo institucional más fuerte (p.ej., a16z). En conclusión, el precio de LIT se ve impulsado por su programa de recompra transparente, el mecanismo de bloqueo del LLP y la ausencia actual de desbloqueos. Sin embargo, enfrenta desafíos en la expansión de su volumen y adopción frente a Hyperliquid, que disfruta de una ventaja de primer moviente y un mayor apoyo del mercado.

Foresight NewsHace 46 min(s)

El precio de LIT alcanza un máximo de seis meses: ¿cuánto durará aún el combustible de la rueda de recompras?

Foresight NewsHace 46 min(s)

Anthony Scaramucci Señala un Posible Fondo del Bitcoin, Citando un RSI Bajo y la Apatía Minorista

Anthony Scaramucci sugiere que el actual sentimiento de apatía en el mercado de Bitcoin podría ser una señal de fondo de ciclo, en lugar de una razón para alejarse del activo. El inversor afirma seguir teniendo una cantidad sustancial de Bitcoin y mantiene una visión alcista, anticipando un repunte más fuerte a finales del cuarto trimestre de 2026 o principios de 2027. Su argumento se basa en el bajo interés minorista, la escasa demanda, la debilidad del sentimiento y las condiciones de RSI (Índice de Fuerza Relativa) deprimidas. Scaramucci plantea que, en mercados con poca participación como el actual, incluso un modesto impulso de demanda puede mover el precio de manera más agresiva. No obstante, se debe matizar la afirmación sobre el RSI: aunque el RSI semanal de Bitcoin es bajo, no necesariamente se encuentra en mínimos históricos extremos, como los vistos en ciclos bajistas anteriores. Por tanto, este indicador por sí solo no es suficiente para confirmar un suelo duradero; los analistas suelen combinarlo con estructura de precios, volumen y datos on-chain. En resumen, Scaramucci presenta un argumento alcista contrario: la actual falta de emoción podría indicar que los vendedores están exhaustos y las expectativas son mínimas, preparando el terreno para la siguiente fase de acumulación si surge un nuevo impulso de demanda institucional o macroeconómico.

bitcoinistHace 55 min(s)

Anthony Scaramucci Señala un Posible Fondo del Bitcoin, Citando un RSI Bajo y la Apatía Minorista

bitcoinistHace 55 min(s)

Trading

Spot
Futuros
活动图片