Un modelo pequeño de 3B con puntuación de programación comparable a Opus 4.5, un modelo misterioso genera debate, resulta ser chino

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

Un pequeño modelo de 3B parámetros, VibeThinker-3B, desarrollado por el equipo de Sina Weibo, está generando revuelo al alcanzar un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos líderes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro, a pesar de su tamaño significativamente menor. Basado en Qwen2.5-Coder-3B, el modelo fue entrenado con un proceso "Spectrum-to-Signal" que incluye fine-tuning supervisado en dos etapas con aprendizaje curricular, aprendizaje por refuerzo aplicado a múltiples dominios (matemáticas, programación, razonamiento STEM) y destilación de conocimiento. También incorpora una estrategia de evaluación de confiabilidad "Claim-Level" (CLR) para mejorar aún más los resultados en benchmarks. Sus puntuaciones sobresalientes incluyen 94.3 en AIME26, 80.2 en LiveCodeBench v6 y una tasa de aprobación del 96.1% en competiciones recientes de LeetCode. Los autores proponen la "hipótesis de compresión paramétrica", sugiriendo que el razonamiento verificable es una capacidad altamente comprimible que puede alcanzar niveles de vanguardia en modelos pequeños cuando las tareas tienen una estructura clara y señales de feedback confiables, desacoplándose parcialmente del conocimiento factual que requiere más parámetros. El objetivo no es reemplazar a los modelos grandes, sino explorar los límites de los modelos pequeños en dominios específicos. El modelo está disponible públicamente, aunque su rendimiento es intencionalmente esp...

En los últimos días, un modelo pequeño de 3B se ha vuelto viral en X porque, en algunas tareas de razonamiento con verificación de dificultad (como la programación), ha entrado en el rango de rendimiento de modelos de vanguardia como Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, y su tamaño es mucho menor que el de estos modelos.

Este modelo se llama VibeThinker-3B, es un modelo denso de razonamiento con 3 mil millones de parámetros, diseñado para explorar hasta qué punto se puede impulsar la capacidad de razonamiento verificable en un modelo pequeño y estricto.

Después del lanzamiento del modelo, muchas personas quedaron impresionadas con sus resultados y expresaron su deseo de probarlo.

Vale la pena señalar que también es un modelo chino, proveniente del equipo de Sina Weibo.

El informe técnico muestra que el modelo está diseñado específicamente para tareas con señales de verificación confiables, incluyendo razonamiento matemático, programación competitiva, razonamiento STEM y ejecución de instrucciones con restricciones claras.

Por lo tanto, tiene un rendimiento sobresaliente en varias pruebas de referencia. Obtuvo una puntuación de 94.3 en la prueba AIME26, 89.3 en HMMT25, 80.2 (Pass@1) en LiveCodeBench v6, y logró una tasa de aprobación del 96.1% en los concursos semanales y quincenales más recientes y no públicos de LeetCode entre el 25 de abril y el 31 de mayo de 2026.

¿Cómo se entrenó este modelo? El informe técnico revela algunos detalles.

Primero, se basa en Qwen2.5-Coder-3B y utiliza un proceso actualizado de Spectrum-to-Signal para el post-entrenamiento. Este proceso reforzó la síntesis de datos, el filtrado de calidad y el aprendizaje curricular en el ajuste fino supervisado (SFT), extendió el aprendizaje por refuerzo al estilo MGPO a múltiples dominios verificables, conservó trayectorias completas de razonamiento de contexto largo y consolidó las capacidades mediante auto-distilación fuera de línea y aprendizaje por refuerzo de instrucciones (Instruct RL).

Flujo de entrenamiento general de VibeThinker-3B

Proceso Spectrum-to-Signal.

Además, VibeThinker-3B introduce la evaluación de confiabilidad a nivel de afirmación (CLR), una estrategia de escalado en tiempo de prueba para razonamiento verificable orientado a respuestas. CLR mejora aún más el rendimiento en pruebas de referencia matemáticas, elevando AIME26 de 94.3 a 97.1, HMMT25 de 89.3 a 95.4, y llevando BruMO25 a 99.2.

Su flujo de entrenamiento específico es el siguiente:

SFT en dos etapas basado en currículum. La primera etapa se centra en la cobertura amplia de capacidades como razonamiento matemático, programación, STEM, diálogo general y seguimiento de instrucciones. La segunda etapa se orienta hacia muestras de razonamiento más difíciles y de mayor alcance. La destilación de exploración de diversidad se usa para conservar múltiples rutas de solución efectivas.
Aprendizaje por refuerzo de razonamiento en múltiples dominios. VibeThinker-3B reutiliza MGPO. El aprendizaje por refuerzo se aplica secuencialmente a tareas de razonamiento matemático, de programación y STEM. El entrenamiento utiliza una única ventana de contexto largo de 64K para conservar trayectorias completas de razonamiento de largo plazo.
Auto-distilación fuera de línea. Se filtran y refinan trayectorias de alta calidad desde los puntos de control de RL matemático, de programación y STEM, formando finalmente un modelo de estudiante unificado. La puntuación de potencial de aprendizaje prioriza aquellas trayectorias correctas que el estudiante aún no imita bien.
Instruct RL. La etapa final mejora la controlabilidad ante indicaciones orientadas al usuario. Para datos instructivos sensibles al formato y de tipo abierto, se utilizan verificadores basados en reglas y modelos de recompensa basados en criterios de evaluación.

En una publicación reciente, el reconocido investigador y blogger de IA Sebastian Raschka resumió sistemáticamente los puntos clave revelados en el informe técnico de VibeThinker-3B, incluyendo los siguientes:

Si estás interesado en este contenido, puedes consultar su informe técnico en detalle. Actualmente, el modelo también está disponible para descarga pública.

Título del informe: VibeThinker-3B: Explorando la frontera del razonamiento verificable en modelos de lenguaje pequeños

Enlace al informe: https://arxiv.org/pdf/2606.16140

Enlace de HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Sin embargo, el ámbito de aplicación de este modelo tiene limitaciones claras, ya que no sobresale en áreas que requieren conocimiento general.

Los autores también señalan esto claramente y proponen la "hipótesis de compresión paramétrica por cobertura": diferentes capacidades dependen de los parámetros del modelo de maneras radicalmente distintas. El razonamiento verificable se acerca más a una capacidad altamente compresible y paramétricamente densa, cuyo núcleo reside en el razonamiento de múltiples pasos, la satisfacción de restricciones, la autocorrección y la verificación de respuestas. Cuando el espacio de tareas es suficientemente estructurado y las señales de retroalimentación son lo suficientemente confiables, los modelos compactos también pueden poseer capacidades de razonamiento cercanas a la vanguardia. En contraste, el conocimiento de dominio abierto, el diálogo general y la comprensión de escenarios de cola larga dependen más de grandes parámetros para cubrir ampliamente hechos, conceptos y conocimiento del mundo. Esta hipótesis es muy reveladora. VentureBeat escribió en su reportaje: "Revela que existe un desacoplamiento parcial entre la capacidad de razonamiento y el conocimiento fáctico, y que la primera puede comprimirse de manera más eficiente de lo que se pensaba — una perspectiva que tiene implicaciones profundas en cómo la industria ve el diseño de modelos, los costos de implementación y la accesibilidad de funciones avanzadas de IA."

Los autores indican que su objetivo no es crear un modelo pequeño que reemplace a los modelos grandes, sino examinar los límites reales de los modelos pequeños a lo largo de dimensiones de capacidad específicas. Con VibeThinker-3B, esperan mostrar que los modelos pequeños no deben verse meramente como una solución de compromiso para reducir los costos de implementación. En dominios de capacidad con mecanismos claros de retroalimentación y verificación, los modelos de lenguaje pequeños están mostrando una vía de investigación prometedora para lograr un rendimiento de nivel de vanguardia, formando una relación fundamentalmente complementaria con el paradigma tradicional de escalado de parámetros.

Actualmente, el modelo aún enfrenta algunas dudas en la comunidad. Si estás interesado en este modelo, puedes probarlo personalmente.

Enlaces de referencia:

https://x.com/orcus108/status/2066876960073281582

Este artículo es de la cuenta oficial de WeChat "机器之心" (ID: almosthuman2014), autor: Zhang Qian.

Preguntas relacionadas

Q¿Qué es el modelo VibeThinker-3B y por qué ha generado tanto interés?

AVibeThinker-3B es un modelo de lenguaje pequeño de 3.000 millones de parámetros desarrollado por el equipo de Sina Weibo. Ha generado interés porque, a pesar de su tamaño reducido, alcanza un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos de última generación mucho más grandes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro.

Q¿En qué tipo de tareas sobresale específicamente el VibeThinker-3B?

AEl VibeThinker-3B está especializado y sobresale en tareas de razonamiento con señales de verificación confiables, como razonamiento matemático, programación competitiva, razonamiento STEM (Ciencia, Tecnología, Ingeniería y Matemáticas) y ejecución de instrucciones con restricciones claras.

Q¿Cuál es la base del modelo y cuál fue su proceso de entrenamiento clave?

AEl modelo se construyó sobre la base de Qwen2.5-Coder-3B. Su proceso de entrenamiento clave fue el 'Spectrum-to-Signal', que incluyó ajuste fino supervisado (SFT) con datos sintéticos y filtrados, aprendizaje por refuerzo aplicado a múltiples dominios, destilación automática fuera de línea y aprendizaje por refuerzo con instrucciones (Instruct RL) para consolidar capacidades.

Q¿Qué hipótesis importante plantea el equipo detrás de VibeThinker-3B sobre las capacidades de los modelos?

APlantean la 'hipótesis de cobertura de compresión de parámetros'. Esta sugiere que la capacidad de razonamiento verificable (lógica, resolución de problemas) está parcialmente disociada del conocimiento fáctico general y es altamente compresible. Por lo tanto, un modelo pequeño y denso puede alcanzar un rendimiento de vanguardia en tareas con retroalimentación clara, mientras que el conocimiento de dominio abierto requiere más parámetros.

Q¿Dónde se puede encontrar más información técnica y acceder al modelo VibeThinker-3B?

AEl informe técnico titulado 'VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models' está disponible en arXiv: https://arxiv.org/pdf/2606.16140. El modelo puede descargarse públicamente desde HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B.

Lecturas Relacionadas

Un artículo exhaustivo de Dalio: ¿Cómo posicionarse en el entorno de mercado actual?

Resumen del largo artículo de Ray Dalio sobre cómo posicionarse en el entorno de mercado actual: Dalio compara la inversión con un juego de estrategia donde, ante el "tablero" actual, el inversor debe decidir su siguiente movimiento basándose en las características del mercado y las fuerzas que lo afectan. Identifica como factores clave el actual ciclo impulsado por la Inteligencia Artificial (IA), dominado por pocas empresas que concentran una parte significativa de la capitalización bursátil, y sus inherentes altos niveles de incertidumbre y volatilidad. Además, destaca la influencia de "cinco grandes fuerzas": la situación de la deuda y el dinero, los problemas políticos y sociales, la geopolítica, las fuerzas naturales y el desarrollo de nuevas tecnologías. Frente a este entorno, plantea tres opciones básicas: (a) apostar fuertemente por las empresas líderes en IA, (b) mantener una exposición similar al índice de referencia, o (c) diversificarse para reducir la concentración. Dalio argumenta que, históricamente, en etapas similares de ciclos tecnológicos, la mayoría fracasa por realizar apuestas concentradas en las compañías líderes, las cuales enfrentan riesgos elevados como la sobreinversión o subinversión, competencia feroz (ej. de China), disrupción futura, cambios regulatorios o fiscales. Su recomendación central es abrazar la **diversificación**. Su "santo grial de la inversión" consiste en construir una cartera con aproximadamente 15 apuestas de calidad, no correlacionadas y balanceadas por riesgo. Matemáticamente, esto mejora sustancialmente la relación riesgo/retorno comparado con una apuesta concentrada. En la coyuntura actual, con un mercado anormalmente concentrado en torno a una tecnología revolucionaria pero con riesgos altos y, en su opinión, expectativas de rendimiento futuro bajas (-5% a -10% real en 5-10 años para acciones según sus indicadores), sostiene que es difícil tener suficiente información para justificar apuestas concentradas con confianza. La conclusión clave es no confundir el entusiasmo por una nueva tecnología con el atractivo de sus acciones, y evitar asumir riesgos de concentración innecesarios cuando, mediante una diversificación inteligente, se pueden lograr retornos atractivos con un perfil de riesgo mucho menor. En esencia, saber cuándo no apostar porque no se sabe lo suficiente es tan importante como saber cuándo hacerlo.

marsbitHace 7 min(s)

Un artículo exhaustivo de Dalio: ¿Cómo posicionarse en el entorno de mercado actual?

marsbitHace 7 min(s)

“Buffett y el VC, uno tiene que perder”

Resumen: ¿Está el legendario inversor Warren Buffett en desacuerdo con el enfoque actual del capital riesgo (VC) hacia la IA? El artículo explora esta tensión, destacando que Buffett no se opone a la innovación tecnológica en sí, sino a las valoraciones excesivas basadas en narrativas de "esta vez es diferente" y a las estructuras de inversión complejas que priorizan las tarifas sobre los fundamentos reales. Analiza dos debates históricos clave: durante la burbuja puntocom de 1999-2000, Buffett advirtió que la identificación de una tecnología transformadora no equivale a identificar a sus ganadores corporativos, una postura inicialmente criticada pero luego vindicada. Luego, en su famosa apuesta de 2007-2017, demostró que un fondo índice de bajo coste superaba consistentemente a un conjunto de fondos de cobertura de élite, subrayando el impacto negativo de las altas comisiones. El artículo concluye que el núcleo de la filosofía de Buffett es que los inversores deben centrarse en el valor económico fundamental y la ventaja competitiva duradera de una empresa, utilizando las fluctuaciones del mercado (el "Señor Mercado") para su beneficio, no siendo guiados por ellas. La advertencia implícita para el actual frenesí de la IA es clara: más allá del potencial, ¿cómo generarán beneficios reales y sostenibles estas empresas?

marsbitHace 13 min(s)

marsbitHace 13 min(s)

El artículo importante de Dalio: ¿Cómo hacer el layout en el entorno actual del mercado?

Resumen: En el entorno de mercado actual, marcado por una concentración significativa en torno a la tecnología de IA y la incertidumbre impulsada por "cinco grandes fuerzas" (deuda/moneda, política, geopolítica, fuerzas naturales y tecnología), Ray Dalio compara la inversión con un juego estratégico. Argumenta que el alto riesgo y la baja rentabilidad esperada de las acciones líderes en IA, similares a ciclos tecnológicos históricos, hacen que las apuestas concentradas sean peligrosas. En su lugar, aboga firmemente por la **diversificación** como la estrategia óptima. Su "Santo Grial de la Inversión" consiste en mantener una cartera equilibrada de aproximadamente 15 apuestas de alta calidad, no correlacionadas y ajustadas al riesgo. Esta aproximación, fundamentada en matemáticas e historial, mejora el ratio riesgo/rentabilidad sin necesidad de predecir el ganador específico. Concluye que, ante la imposibilidad de conocer el futuro con certeza, reconocer lo que no se sabe y diversificar es más prudente que realizar apuestas concentradas en un sector volátil.

链捕手Hace 17 min(s)

El artículo importante de Dalio: ¿Cómo hacer el layout en el entorno actual del mercado?

链捕手Hace 17 min(s)

Última entrevista de Arthur Hayes: La IA succiona la liquidez del mercado, es difícil que el BTC vuelva a los 100.000 dólares este año

Arthur Hayes ha liquidado sus principales posiciones cripto como HYPE, NEAR, Worldcoin y Zcash. Su decisión se basa en un análisis macro que vincula el precio del petróleo, la guerra con Irán, la estrategia electoral de Trump y una posible corrección de la burbuja de la IA. Argumenta que Trump, para mejorar las perspectivas republicanas en las elecciones de mitad de período, podría cambiar su discurso y atacar a la industria de la IA con propuestas de impuestos y regulación, lo que dañaría su narrativa. Además, señala que la IA ha absorbido toda la liquidez del mercado (aproximadamente 1,5 billones de dólares en deuda desde 2025), dejando a activos como el Bitcoin sin fuelle para subir. Considera inminente una corrección en el sector de la IA, impulsada por los altos precios del petróleo, la política estadounidense y el riesgo de que las próximas OPVs masivas (como SpaceX, valorada en 1,8 billones) no cumplan las expectativas excesivas del mercado. Cuando esa burbuja estalle, todos los activos de riesgo caerán juntos, incluido Bitcoin, al que no ve superando los 100.000 dólares este año. Por ahora, ha reasignado su cartera a bonos del Tesoro y acciones energéticas (como Exxon), y planea reingresar en cripto solo si el panorama macro mejora, la presión sobre el petróleo disminuye y el sentimiento hacia la IA se enfría, lo que podría redirigir la liquidez hacia las criptomonedas.

marsbitHace 25 min(s)

Última entrevista de Arthur Hayes: La IA succiona la liquidez del mercado, es difícil que el BTC vuelva a los 100.000 dólares este año

marsbitHace 25 min(s)

Entrevista con los cofundadores de CoreWeave, una «acción relacionada con Nvidia»: la demanda de IA parece intensificarse cada día

Entrevista a los cofundadores de CoreWeave: La demanda de IA parece intensificarse cada día Resumen: CoreWeave, proveedor líder de computación en la nube con GPU, analiza la evolución de la demanda de infraestructura para IA. Sus ejecutivos, Brannin McBee y Nick Robbins, señalan que la demanda, impulsada por agentes de IA, inferencia y aplicaciones empresariales, continúa creciendo sin signos de desaceleración. El cuello de botella principal ya no son solo las GPU, sino problemas de infraestructura más complejos: disponibilidad de centros de datos con suministro eléctrico ("powered shells"), CPU, almacenamiento, mano de obra calificada y capacidad de ejecución de la cadena de suministro. Destacan un cambio estructural: la importancia de la CPU y el almacenamiento aumenta junto con las GPU, debido al auge de la IA agencial. CoreWeave, que sirve a clientes clave como OpenAI y Nvidia, rediseñó sus centros de datos para adaptarse. Su ventaja competitiva radica en su capacidad de ejecución, entrega rápida y una plataforma eficiente. El modelo de negocio, basado en contratos a largo plazo, les permite aislarse de la volatilidad de precios de componentes como la memoria HBM. Prevén que el despliegue masivo de la próxima generación de servidores, como Vera Rubin, se producirá principalmente a lo largo de 2027.

marsbitHace 27 min(s)

Entrevista con los cofundadores de CoreWeave, una «acción relacionada con Nvidia»: la demanda de IA parece intensificarse cada día