Un modelo pequeño de 3B con puntuación de programación comparable a Opus 4.5, un modelo misterioso genera debate, resulta ser chino

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

Un pequeño modelo de 3B parámetros, VibeThinker-3B, desarrollado por el equipo de Sina Weibo, está generando revuelo al alcanzar un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos líderes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro, a pesar de su tamaño significativamente menor. Basado en Qwen2.5-Coder-3B, el modelo fue entrenado con un proceso "Spectrum-to-Signal" que incluye fine-tuning supervisado en dos etapas con aprendizaje curricular, aprendizaje por refuerzo aplicado a múltiples dominios (matemáticas, programación, razonamiento STEM) y destilación de conocimiento. También incorpora una estrategia de evaluación de confiabilidad "Claim-Level" (CLR) para mejorar aún más los resultados en benchmarks. Sus puntuaciones sobresalientes incluyen 94.3 en AIME26, 80.2 en LiveCodeBench v6 y una tasa de aprobación del 96.1% en competiciones recientes de LeetCode. Los autores proponen la "hipótesis de compresión paramétrica", sugiriendo que el razonamiento verificable es una capacidad altamente comprimible que puede alcanzar niveles de vanguardia en modelos pequeños cuando las tareas tienen una estructura clara y señales de feedback confiables, desacoplándose parcialmente del conocimiento factual que requiere más parámetros. El objetivo no es reemplazar a los modelos grandes, sino explorar los límites de los modelos pequeños en dominios específicos. El modelo está disponible públicamente, aunque su rendimiento es intencionalmente esp...

En los últimos días, un modelo pequeño de 3B se ha vuelto viral en X porque, en algunas tareas de razonamiento con verificación de dificultad (como la programación), ha entrado en el rango de rendimiento de modelos de vanguardia como Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, y su tamaño es mucho menor que el de estos modelos.

Este modelo se llama VibeThinker-3B, es un modelo denso de razonamiento con 3 mil millones de parámetros, diseñado para explorar hasta qué punto se puede impulsar la capacidad de razonamiento verificable en un modelo pequeño y estricto.

Después del lanzamiento del modelo, muchas personas quedaron impresionadas con sus resultados y expresaron su deseo de probarlo.

Vale la pena señalar que también es un modelo chino, proveniente del equipo de Sina Weibo.

El informe técnico muestra que el modelo está diseñado específicamente para tareas con señales de verificación confiables, incluyendo razonamiento matemático, programación competitiva, razonamiento STEM y ejecución de instrucciones con restricciones claras.

Por lo tanto, tiene un rendimiento sobresaliente en varias pruebas de referencia. Obtuvo una puntuación de 94.3 en la prueba AIME26, 89.3 en HMMT25, 80.2 (Pass@1) en LiveCodeBench v6, y logró una tasa de aprobación del 96.1% en los concursos semanales y quincenales más recientes y no públicos de LeetCode entre el 25 de abril y el 31 de mayo de 2026.

¿Cómo se entrenó este modelo? El informe técnico revela algunos detalles.

Primero, se basa en Qwen2.5-Coder-3B y utiliza un proceso actualizado de Spectrum-to-Signal para el post-entrenamiento. Este proceso reforzó la síntesis de datos, el filtrado de calidad y el aprendizaje curricular en el ajuste fino supervisado (SFT), extendió el aprendizaje por refuerzo al estilo MGPO a múltiples dominios verificables, conservó trayectorias completas de razonamiento de contexto largo y consolidó las capacidades mediante auto-distilación fuera de línea y aprendizaje por refuerzo de instrucciones (Instruct RL).

Flujo de entrenamiento general de VibeThinker-3B

Proceso Spectrum-to-Signal.

Además, VibeThinker-3B introduce la evaluación de confiabilidad a nivel de afirmación (CLR), una estrategia de escalado en tiempo de prueba para razonamiento verificable orientado a respuestas. CLR mejora aún más el rendimiento en pruebas de referencia matemáticas, elevando AIME26 de 94.3 a 97.1, HMMT25 de 89.3 a 95.4, y llevando BruMO25 a 99.2.

Su flujo de entrenamiento específico es el siguiente:

  • SFT en dos etapas basado en currículum. La primera etapa se centra en la cobertura amplia de capacidades como razonamiento matemático, programación, STEM, diálogo general y seguimiento de instrucciones. La segunda etapa se orienta hacia muestras de razonamiento más difíciles y de mayor alcance. La destilación de exploración de diversidad se usa para conservar múltiples rutas de solución efectivas.
  • Aprendizaje por refuerzo de razonamiento en múltiples dominios. VibeThinker-3B reutiliza MGPO. El aprendizaje por refuerzo se aplica secuencialmente a tareas de razonamiento matemático, de programación y STEM. El entrenamiento utiliza una única ventana de contexto largo de 64K para conservar trayectorias completas de razonamiento de largo plazo.
  • Auto-distilación fuera de línea. Se filtran y refinan trayectorias de alta calidad desde los puntos de control de RL matemático, de programación y STEM, formando finalmente un modelo de estudiante unificado. La puntuación de potencial de aprendizaje prioriza aquellas trayectorias correctas que el estudiante aún no imita bien.
  • Instruct RL. La etapa final mejora la controlabilidad ante indicaciones orientadas al usuario. Para datos instructivos sensibles al formato y de tipo abierto, se utilizan verificadores basados en reglas y modelos de recompensa basados en criterios de evaluación.

En una publicación reciente, el reconocido investigador y blogger de IA Sebastian Raschka resumió sistemáticamente los puntos clave revelados en el informe técnico de VibeThinker-3B, incluyendo los siguientes:

Si estás interesado en este contenido, puedes consultar su informe técnico en detalle. Actualmente, el modelo también está disponible para descarga pública.

Título del informe: VibeThinker-3B: Explorando la frontera del razonamiento verificable en modelos de lenguaje pequeños

Enlace al informe: https://arxiv.org/pdf/2606.16140

Enlace de HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Sin embargo, el ámbito de aplicación de este modelo tiene limitaciones claras, ya que no sobresale en áreas que requieren conocimiento general.

Los autores también señalan esto claramente y proponen la "hipótesis de compresión paramétrica por cobertura": diferentes capacidades dependen de los parámetros del modelo de maneras radicalmente distintas. El razonamiento verificable se acerca más a una capacidad altamente compresible y paramétricamente densa, cuyo núcleo reside en el razonamiento de múltiples pasos, la satisfacción de restricciones, la autocorrección y la verificación de respuestas. Cuando el espacio de tareas es suficientemente estructurado y las señales de retroalimentación son lo suficientemente confiables, los modelos compactos también pueden poseer capacidades de razonamiento cercanas a la vanguardia. En contraste, el conocimiento de dominio abierto, el diálogo general y la comprensión de escenarios de cola larga dependen más de grandes parámetros para cubrir ampliamente hechos, conceptos y conocimiento del mundo. Esta hipótesis es muy reveladora. VentureBeat escribió en su reportaje: "Revela que existe un desacoplamiento parcial entre la capacidad de razonamiento y el conocimiento fáctico, y que la primera puede comprimirse de manera más eficiente de lo que se pensaba — una perspectiva que tiene implicaciones profundas en cómo la industria ve el diseño de modelos, los costos de implementación y la accesibilidad de funciones avanzadas de IA."

Los autores indican que su objetivo no es crear un modelo pequeño que reemplace a los modelos grandes, sino examinar los límites reales de los modelos pequeños a lo largo de dimensiones de capacidad específicas. Con VibeThinker-3B, esperan mostrar que los modelos pequeños no deben verse meramente como una solución de compromiso para reducir los costos de implementación. En dominios de capacidad con mecanismos claros de retroalimentación y verificación, los modelos de lenguaje pequeños están mostrando una vía de investigación prometedora para lograr un rendimiento de nivel de vanguardia, formando una relación fundamentalmente complementaria con el paradigma tradicional de escalado de parámetros.

Actualmente, el modelo aún enfrenta algunas dudas en la comunidad. Si estás interesado en este modelo, puedes probarlo personalmente.

Enlaces de referencia:

https://x.com/orcus108/status/2066876960073281582

Este artículo es de la cuenta oficial de WeChat "机器之心" (ID: almosthuman2014), autor: Zhang Qian.

Preguntas relacionadas

Q¿Qué es el modelo VibeThinker-3B y por qué ha generado tanto interés?

AVibeThinker-3B es un modelo de lenguaje pequeño de 3.000 millones de parámetros desarrollado por el equipo de Sina Weibo. Ha generado interés porque, a pesar de su tamaño reducido, alcanza un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos de última generación mucho más grandes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro.

Q¿En qué tipo de tareas sobresale específicamente el VibeThinker-3B?

AEl VibeThinker-3B está especializado y sobresale en tareas de razonamiento con señales de verificación confiables, como razonamiento matemático, programación competitiva, razonamiento STEM (Ciencia, Tecnología, Ingeniería y Matemáticas) y ejecución de instrucciones con restricciones claras.

Q¿Cuál es la base del modelo y cuál fue su proceso de entrenamiento clave?

AEl modelo se construyó sobre la base de Qwen2.5-Coder-3B. Su proceso de entrenamiento clave fue el 'Spectrum-to-Signal', que incluyó ajuste fino supervisado (SFT) con datos sintéticos y filtrados, aprendizaje por refuerzo aplicado a múltiples dominios, destilación automática fuera de línea y aprendizaje por refuerzo con instrucciones (Instruct RL) para consolidar capacidades.

Q¿Qué hipótesis importante plantea el equipo detrás de VibeThinker-3B sobre las capacidades de los modelos?

APlantean la 'hipótesis de cobertura de compresión de parámetros'. Esta sugiere que la capacidad de razonamiento verificable (lógica, resolución de problemas) está parcialmente disociada del conocimiento fáctico general y es altamente compresible. Por lo tanto, un modelo pequeño y denso puede alcanzar un rendimiento de vanguardia en tareas con retroalimentación clara, mientras que el conocimiento de dominio abierto requiere más parámetros.

Q¿Dónde se puede encontrar más información técnica y acceder al modelo VibeThinker-3B?

AEl informe técnico titulado 'VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models' está disponible en arXiv: https://arxiv.org/pdf/2606.16140. El modelo puede descargarse públicamente desde HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B.

Lecturas Relacionadas

La historia de la financiación de DeepSeek

## Resumen del Financiamiento de DeepSeek A mediados de mayo, DeepSeek organizó una legendaria reunión de inversión de cuatro horas vía Tencent Meeting. Los participantes, en su mayoría sin haber conocido en persona al fundador Liang Wenfeng, quedaron profundamente impresionados por su filosofía. Liang enfatizó la búsqueda exclusiva de AGI (Inteligencia Artificial General), la importancia de la estabilidad del equipo por encima del capital, y una narrativa de "personas comunes logrando cosas extraordinarias" con extrema moderación. La ronda de financiamiento, iniciada en abril, ajustó sus términos iniciales: el monto mínimo por fondo se redujo de 5,000 a 1,500 millones de RMB, y se flexibilizó la estructura puramente en RMB, aunque se mantuvo una firme restricción contra la reventa de participaciones a LP extranjeros. La lista final de inversores, encabezada por Monolith Capital (que aumentó su compromiso a 3,000 millones de RMB), IDG Capital y Zhenxingu, generó sorpresa por la ausencia de gigantes como Sequoia China y Hillhouse. Se especula que razones regulatorias o relacionadas con sus LP pudieron influir. Un análisis más detallado revela que, tras una capa de fondos, participan indirectamente cerca de 100 instituciones e individuos, incluyendo capital estatal y corporativo. La principal condición de Liang Wenfeng para los inversores fue clara: no reclutar talento de DeepSeek. Más allá de los números, los inversores perciben en la compañía un profundo propósito, viéndola potencialmente como una futura empresa líder en el mercado bursátil chino. El proceso refleja la inesperada apertura de una empresa antes muy reservada, donde la convicción, el esfuerzo y la alineación filosófica fueron clave para obtener una participación.

marsbitHace 19 min(s)

La historia de la financiación de DeepSeek

marsbitHace 19 min(s)

Las empresas DAT se lanzan a los 'side hustles'

**Las compañías DAT exploran nuevas vías de negocio** Las compañías que adoptaron la estrategia de Tesorería de Activos Digitales (DAT) se enfrentan a un momento crucial. Con la desaceleración del mercado y la llegada de los ETF de criptomonedas, el modelo original—comprar y mantener criptoactivos financiado con capital de mercado—ha perdido su ventaja. Muchas han abandonado la estrategia, mientras otras se reinventan para sobrevivir. Dos caminos destacan. Por un lado, empresas como SharpLink Gaming y GameSquare se están transformando en plataformas de gestión de activos institucionales y fondos de rendimiento, buscando generar ingresos a través del staking y protocolos DeFi. Por otro lado, actores del ecosistema Solana, como DeFi Development y SOL Strategies, están evolucionando hacia operadores de infraestructura blockchain, ofreciendo servicios de staking líquido y validación. Esta transición colectiva subraya una evolución en la industria: el mero arbitraje financiero ya no es suficiente. El éxito futuro parece depender de la capacidad operativa, la creación de valor real dentro del ecosistema y la construcción de barreras técnicas o de red. Aunque estos nuevos caminos conllevan riesgos (como la dependencia de protocolos DeFi o de un ecosistema concreto), señalan una fase de maduración donde la participación activa y la generación de flujos de caja sustituyen a la especulación pasiva.

Foresight NewsHace 24 min(s)

Las empresas DAT se lanzan a los 'side hustles'

Foresight NewsHace 24 min(s)

El debut de Wash: el ‘Dot Plot’ sigue ahí, pero la Fed podría haber cambiado

**Resumen en español europeo:** La Reserva Federal (Fed) mantuvo sin cambios los tipos de interés en la reunión de junio, en línea con las expectativas del mercado. La atención se centró en la primera comparecencia del nuevo presidente, Christopher W. Warsh. Aunque la llamada "gráfica de puntos" (Dot Plot) de las proyecciones de tipos se mantuvo, Warsh no presentó su propia predicción, señalando su escepticismo histórico hacia esta herramienta y una preferencia por una política más dependiente de los datos y con menos orientación futura explícita. Esto sugiere un cambio tácito en el marco de comunicación de la Fed, pasando de "explicar el futuro" a "describir el juicio actual", lo que podría reducir la certidumbre del mercado. Tras las declaraciones de Warsh enfatizando la intolerancia ante una inflación elevada, los mercados revaluaron la posibilidad de una política más restrictiva. Las expectativas de subidas de tipos repuntaron, y los índices bursátiles estadounidenses cayeron, mostrando una reducción de la aversión al riesgo. El ajuste del mercado refleja una nueva fijación de precios ante el mayor riesgo de que la Fed actúe de forma más agresiva si la inflación no retrocede rápidamente. En resumen, el debut de Warsh no cambió la política de forma inmediata, pero inició un giro en el estilo de comunicación. La pregunta clave que deja es cómo se revalorizarán los mercados cuando la Fed deje de "adelantar" su trayectoria futura.

Odaily星球日报Hace 28 min(s)

El debut de Wash: el ‘Dot Plot’ sigue ahí, pero la Fed podría haber cambiado

Odaily星球日报Hace 28 min(s)

El destino de la banca digital: por más atractiva que sea una app, no supera una licencia bancaria

Los neobancos, a pesar de atraer a cientos de millones de usuarios con cuentas gratuitas y sin comisiones, luchan por ser rentables. El 76% sigue en pérdidas, generando solo 45 dólares por usuario frente a los 350 de los bancos tradicionales. El problema radica en su modelo de negocio: dependen de las mínimas comisiones por transacciones con tarjeta, mientras que la verdadera rentabilidad bancaria proviene de los intereses crediticios. Ejemplos como Nubank en Brasil demuestran que la supervivencia depende de pivotar hacia los préstamos. Aunque su app atrae clientes, sus ingresos principales vienen de tarjetas de crédito y créditos personales. Revolut logró beneficios a través de comisiones forex, suscripciones y, cada vez más, crédito. Chime, tras años de pérdidas, solo alcanzó la rentabilidad cuando sus productos de préstamo (como anticipos de nómina) despegaron. La dependencia de infraestructuras de terceros resultó ser un riesgo fatal, como mostró la quiebra del intermediario Synapse en 2024, que dejó a millones de usuarios sin acceso a sus fondos. La lección clave es que la única defensa contra estos riesgos sistémicos es poseer una licencia bancaria propia. El sector cripto ha aprendido esta lección. Empresas como Paxos, Circle y Crypto.com están solicitando activamente licencias de fideicomiso nacional (OCC) en EE.UU. para custodiar activos y operar con autonomía reguladora. SoFi ejemplifica esta evolución: de neobanco a banco con licencia propia y ahora emisor de una stablecoin. En conclusión, la esencia de la banca —obtener beneficios mediante el crédito— permanece inalterada. Las apps innovadoras y las cuentas gratuitas son solo el cebo. Para construir un negocio financiero sostenible y resiliente, una licencia bancaria es, finalmente, indispensable.

marsbitHace 33 min(s)

El destino de la banca digital: por más atractiva que sea una app, no supera una licencia bancaria

marsbitHace 33 min(s)

Un país que minó Bitcoin durante 8 años construye un banco exclusivo de criptomonedas

El pequeño reino de Bután, conocido por priorizar la Felicidad Nacional Bruta, ha estado minando Bitcoin desde 2018 utilizando su energía hidroeléctrica. Ahora, a través de su nueva ciudad administrativa especial, Gakiling (GMC), está llevando su compromiso con las criptomonedas un paso más allá con el lanzamiento de DK Bank. DK Bank, el único banco con licencia en GMC, se presenta como una solución a la gran falta de servicios bancarios para empresas de cripto. A diferencia de otros bancos, DK Bank integra activos tradicionales y digitales en una sola cuenta, permitiendo a los usuarios mantener y gestionar tanto monedas fiduciarias como stablecoins (USDT, USDC). El banco ofrece servicios de custodia, préstamos respaldados por Bitcoin y canales de conversión entre monedas. El marco regulatorio de GMC se basa en las leyes de Singapur y las normas de Abu Dhabi Global Market (ADGM), ofreciendo un proceso de licencia rápida para empresas ya reguladas en esas jurisdicciones. Las autoridades subrayan que los estándares no se relajan y exigen una presencia comercial real para optar a beneficios fiscales. Los impulsores del proyecto ven a GMC como un futuro centro financiero para el sur de Asia. Argumentan que la migración global de los servicios financieros a la cadena de bloques es inevitable y que los países más pequeños necesitan infraestructura soberana de cripto para reducir la dependencia de los sistemas financieros dominantes por grandes potencias. Bután no centra su estrategia únicamente en Bitcoin. Los líderes del proyecto enfatizan una cartera diversificada que incluya tokenización de activos reales y enfocan sus esfuerzos en servicios institucionales, no en tokens especulativos para minoristas. Aunque partes clave de la ciudad, como un aeropuerto internacional, están aún en construcción, DK Bank ya está operativo, representando un experimento único que combina la visión butanesa con la innovación financiera del siglo XXI.

marsbitHace 55 min(s)

Un país que minó Bitcoin durante 8 años construye un banco exclusivo de criptomonedas

marsbitHace 55 min(s)

Trading

Spot
Futuros
活动图片