Un modelo pequeño de 3B con puntuación de programación comparable a Opus 4.5, un modelo misterioso genera debate, resulta ser chino

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

Un pequeño modelo de 3B parámetros, VibeThinker-3B, desarrollado por el equipo de Sina Weibo, está generando revuelo al alcanzar un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos líderes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro, a pesar de su tamaño significativamente menor. Basado en Qwen2.5-Coder-3B, el modelo fue entrenado con un proceso "Spectrum-to-Signal" que incluye fine-tuning supervisado en dos etapas con aprendizaje curricular, aprendizaje por refuerzo aplicado a múltiples dominios (matemáticas, programación, razonamiento STEM) y destilación de conocimiento. También incorpora una estrategia de evaluación de confiabilidad "Claim-Level" (CLR) para mejorar aún más los resultados en benchmarks. Sus puntuaciones sobresalientes incluyen 94.3 en AIME26, 80.2 en LiveCodeBench v6 y una tasa de aprobación del 96.1% en competiciones recientes de LeetCode. Los autores proponen la "hipótesis de compresión paramétrica", sugiriendo que el razonamiento verificable es una capacidad altamente comprimible que puede alcanzar niveles de vanguardia en modelos pequeños cuando las tareas tienen una estructura clara y señales de feedback confiables, desacoplándose parcialmente del conocimiento factual que requiere más parámetros. El objetivo no es reemplazar a los modelos grandes, sino explorar los límites de los modelos pequeños en dominios específicos. El modelo está disponible públicamente, aunque su rendimiento es intencionalmente esp...

En los últimos días, un modelo pequeño de 3B se ha vuelto viral en X porque, en algunas tareas de razonamiento con verificación de dificultad (como la programación), ha entrado en el rango de rendimiento de modelos de vanguardia como Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, y su tamaño es mucho menor que el de estos modelos.

Este modelo se llama VibeThinker-3B, es un modelo denso de razonamiento con 3 mil millones de parámetros, diseñado para explorar hasta qué punto se puede impulsar la capacidad de razonamiento verificable en un modelo pequeño y estricto.

Después del lanzamiento del modelo, muchas personas quedaron impresionadas con sus resultados y expresaron su deseo de probarlo.

Vale la pena señalar que también es un modelo chino, proveniente del equipo de Sina Weibo.

El informe técnico muestra que el modelo está diseñado específicamente para tareas con señales de verificación confiables, incluyendo razonamiento matemático, programación competitiva, razonamiento STEM y ejecución de instrucciones con restricciones claras.

Por lo tanto, tiene un rendimiento sobresaliente en varias pruebas de referencia. Obtuvo una puntuación de 94.3 en la prueba AIME26, 89.3 en HMMT25, 80.2 (Pass@1) en LiveCodeBench v6, y logró una tasa de aprobación del 96.1% en los concursos semanales y quincenales más recientes y no públicos de LeetCode entre el 25 de abril y el 31 de mayo de 2026.

¿Cómo se entrenó este modelo? El informe técnico revela algunos detalles.

Primero, se basa en Qwen2.5-Coder-3B y utiliza un proceso actualizado de Spectrum-to-Signal para el post-entrenamiento. Este proceso reforzó la síntesis de datos, el filtrado de calidad y el aprendizaje curricular en el ajuste fino supervisado (SFT), extendió el aprendizaje por refuerzo al estilo MGPO a múltiples dominios verificables, conservó trayectorias completas de razonamiento de contexto largo y consolidó las capacidades mediante auto-distilación fuera de línea y aprendizaje por refuerzo de instrucciones (Instruct RL).

Flujo de entrenamiento general de VibeThinker-3B

Proceso Spectrum-to-Signal.

Además, VibeThinker-3B introduce la evaluación de confiabilidad a nivel de afirmación (CLR), una estrategia de escalado en tiempo de prueba para razonamiento verificable orientado a respuestas. CLR mejora aún más el rendimiento en pruebas de referencia matemáticas, elevando AIME26 de 94.3 a 97.1, HMMT25 de 89.3 a 95.4, y llevando BruMO25 a 99.2.

Su flujo de entrenamiento específico es el siguiente:

SFT en dos etapas basado en currículum. La primera etapa se centra en la cobertura amplia de capacidades como razonamiento matemático, programación, STEM, diálogo general y seguimiento de instrucciones. La segunda etapa se orienta hacia muestras de razonamiento más difíciles y de mayor alcance. La destilación de exploración de diversidad se usa para conservar múltiples rutas de solución efectivas.
Aprendizaje por refuerzo de razonamiento en múltiples dominios. VibeThinker-3B reutiliza MGPO. El aprendizaje por refuerzo se aplica secuencialmente a tareas de razonamiento matemático, de programación y STEM. El entrenamiento utiliza una única ventana de contexto largo de 64K para conservar trayectorias completas de razonamiento de largo plazo.
Auto-distilación fuera de línea. Se filtran y refinan trayectorias de alta calidad desde los puntos de control de RL matemático, de programación y STEM, formando finalmente un modelo de estudiante unificado. La puntuación de potencial de aprendizaje prioriza aquellas trayectorias correctas que el estudiante aún no imita bien.
Instruct RL. La etapa final mejora la controlabilidad ante indicaciones orientadas al usuario. Para datos instructivos sensibles al formato y de tipo abierto, se utilizan verificadores basados en reglas y modelos de recompensa basados en criterios de evaluación.

En una publicación reciente, el reconocido investigador y blogger de IA Sebastian Raschka resumió sistemáticamente los puntos clave revelados en el informe técnico de VibeThinker-3B, incluyendo los siguientes:

Si estás interesado en este contenido, puedes consultar su informe técnico en detalle. Actualmente, el modelo también está disponible para descarga pública.

Título del informe: VibeThinker-3B: Explorando la frontera del razonamiento verificable en modelos de lenguaje pequeños

Enlace al informe: https://arxiv.org/pdf/2606.16140

Enlace de HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Sin embargo, el ámbito de aplicación de este modelo tiene limitaciones claras, ya que no sobresale en áreas que requieren conocimiento general.

Los autores también señalan esto claramente y proponen la "hipótesis de compresión paramétrica por cobertura": diferentes capacidades dependen de los parámetros del modelo de maneras radicalmente distintas. El razonamiento verificable se acerca más a una capacidad altamente compresible y paramétricamente densa, cuyo núcleo reside en el razonamiento de múltiples pasos, la satisfacción de restricciones, la autocorrección y la verificación de respuestas. Cuando el espacio de tareas es suficientemente estructurado y las señales de retroalimentación son lo suficientemente confiables, los modelos compactos también pueden poseer capacidades de razonamiento cercanas a la vanguardia. En contraste, el conocimiento de dominio abierto, el diálogo general y la comprensión de escenarios de cola larga dependen más de grandes parámetros para cubrir ampliamente hechos, conceptos y conocimiento del mundo. Esta hipótesis es muy reveladora. VentureBeat escribió en su reportaje: "Revela que existe un desacoplamiento parcial entre la capacidad de razonamiento y el conocimiento fáctico, y que la primera puede comprimirse de manera más eficiente de lo que se pensaba — una perspectiva que tiene implicaciones profundas en cómo la industria ve el diseño de modelos, los costos de implementación y la accesibilidad de funciones avanzadas de IA."

Los autores indican que su objetivo no es crear un modelo pequeño que reemplace a los modelos grandes, sino examinar los límites reales de los modelos pequeños a lo largo de dimensiones de capacidad específicas. Con VibeThinker-3B, esperan mostrar que los modelos pequeños no deben verse meramente como una solución de compromiso para reducir los costos de implementación. En dominios de capacidad con mecanismos claros de retroalimentación y verificación, los modelos de lenguaje pequeños están mostrando una vía de investigación prometedora para lograr un rendimiento de nivel de vanguardia, formando una relación fundamentalmente complementaria con el paradigma tradicional de escalado de parámetros.

Actualmente, el modelo aún enfrenta algunas dudas en la comunidad. Si estás interesado en este modelo, puedes probarlo personalmente.

Enlaces de referencia:

https://x.com/orcus108/status/2066876960073281582

Este artículo es de la cuenta oficial de WeChat "机器之心" (ID: almosthuman2014), autor: Zhang Qian.

Preguntas relacionadas

Q¿Qué es el modelo VibeThinker-3B y por qué ha generado tanto interés?

AVibeThinker-3B es un modelo de lenguaje pequeño de 3.000 millones de parámetros desarrollado por el equipo de Sina Weibo. Ha generado interés porque, a pesar de su tamaño reducido, alcanza un rendimiento en tareas de razonamiento verificable (como programación) comparable al de modelos de última generación mucho más grandes como GPT-5, Claude Opus 4.5 o Gemini 3 Pro.

Q¿En qué tipo de tareas sobresale específicamente el VibeThinker-3B?

AEl VibeThinker-3B está especializado y sobresale en tareas de razonamiento con señales de verificación confiables, como razonamiento matemático, programación competitiva, razonamiento STEM (Ciencia, Tecnología, Ingeniería y Matemáticas) y ejecución de instrucciones con restricciones claras.

Q¿Cuál es la base del modelo y cuál fue su proceso de entrenamiento clave?

AEl modelo se construyó sobre la base de Qwen2.5-Coder-3B. Su proceso de entrenamiento clave fue el 'Spectrum-to-Signal', que incluyó ajuste fino supervisado (SFT) con datos sintéticos y filtrados, aprendizaje por refuerzo aplicado a múltiples dominios, destilación automática fuera de línea y aprendizaje por refuerzo con instrucciones (Instruct RL) para consolidar capacidades.

Q¿Qué hipótesis importante plantea el equipo detrás de VibeThinker-3B sobre las capacidades de los modelos?

APlantean la 'hipótesis de cobertura de compresión de parámetros'. Esta sugiere que la capacidad de razonamiento verificable (lógica, resolución de problemas) está parcialmente disociada del conocimiento fáctico general y es altamente compresible. Por lo tanto, un modelo pequeño y denso puede alcanzar un rendimiento de vanguardia en tareas con retroalimentación clara, mientras que el conocimiento de dominio abierto requiere más parámetros.

Q¿Dónde se puede encontrar más información técnica y acceder al modelo VibeThinker-3B?

AEl informe técnico titulado 'VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models' está disponible en arXiv: https://arxiv.org/pdf/2606.16140. El modelo puede descargarse públicamente desde HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B.

Lecturas Relacionadas

La Fundación da un paso atrás, Ethlabs da un paso adelante: Ethereum experimenta su mayor reestructuración de la historia

El 23 de junio, la red Ethereum experimentó dos cambios importantes en su gobernanza. Primero, exinvestigadores de la Ethereum Foundation fundaron Ethlabs, una nueva organización sin fines de lucro. Su objetivo es abordar necesidades clave para la adopción institucional a gran escala, como velocidad de transacciones, emisión de activos nativos y escalabilidad, recibiendo el respaldo financiero de grandes tenedores de ETH como Bitmine y SharpLink. Casi al mismo tiempo, la Ethereum Foundation anunció una importante reestructuración, despidiendo al 20% de su personal (54 personas). Esto forma parte de su nueva estrategia para convertirse en una entidad más ligera, centrada en la gobernanza y el mantenimiento del protocolo, y cediendo su papel central como principal impulsora del desarrollo del ecosistema. Este movimiento de "Ethlabs hacia adelante, la Fundación hacia atrás" se interpreta como una respuesta a las críticas sobre lentitud en la toma de decisiones y excesiva dependencia de la Fundación. Ethlabs, que no cuenta con el respaldo explícito del cofundador Vitalik Buterin, busca ser una capa de ejecución más orientada al mercado, centrada en la adopción real y en mejorar la utilidad financiera de Ethereum. El análisis sugiere que la Fundación mantendrá el enfoque en la "corrección" técnica y la neutralidad, mientras que organizaciones como Ethlabs podrán perseguir de manera más directa la "eficacia" y el crecimiento del ecosistema, incluyendo la valorización de ETH. Este cambio busca equilibrar los principios de descentralización con la necesidad de una ejecución más ágil y orientada al mercado para competir en el panorama blockchain actual.

链捕手Hace 5 hora(s)

La Fundación da un paso atrás, Ethlabs da un paso adelante: Ethereum experimenta su mayor reestructuración de la historia

链捕手Hace 5 hora(s)

Bitbase World Trading Clash (BWTC) 2026 ya está en marcha — Inscripciones abiertas hasta julio

Bitbase ha abierto el registro para BWTC 2026 (Bitbase World Trading Clash), su competencia global de trading. El registro está abierto hasta el 23 de julio. El evento cuenta con dos modalidades: una por equipos (Futures Team Pro) y otra individual (Trophy Picks). El "Promotion Pool" total puede alcanzar hasta 1.000.000 de USDT, desbloqueándose dinámicamente según la participación verificada. En la modalidad por equipos, la clasificación se basa tanto en el volumen total como en el rendimiento del capital, premiando así la eficiencia. Los premios principales se pagan como crédito de prueba para futuros en USDT. En las primeras 36 horas, más de 2.000 traders se habían registrado. La competencia incluye también un programa de referidos que recompensa a quienes inviten a nuevos usuarios válidos. Bitbase enfatiza que BWTC recompensa cómo se usa el capital, no solo cuánto se comercia, alineándose con su enfoque de confianza en todos los ciclos.

TheNewsCryptoHace 7 hora(s)

Bitbase World Trading Clash (BWTC) 2026 ya está en marcha — Inscripciones abiertas hasta julio

TheNewsCryptoHace 7 hora(s)

Segunda mitad de la política cripto en EE.UU.: El proyecto de ley CLARITY busca 60 votos, el "Comité de una sola persona" de la CFTC se convierte en la mayor incertidumbre

A medio camino de la política cripto en EE.UU.: el avance del proyecto de ley CLARITY en el Senado y las incertidumbres regulatorias El sector cripto espera un momento decisivo con el proyecto de ley CLARITY en el Senado estadounidense, que necesita 60 votos para su aprobación. Quedan solo unos 40 días legislativos este año, lo que hace crucial la negociación bipartidista. Además de CLARITY, están en juego varias propuestas fiscales derivadas del proyecto PARITY y la ley Blockchain Regulatory Certainty Act. Una gran preocupación es la composición de la Comisión de Comercio de Futuros de Materias Primas (CFTC), que actualmente opera con un solo comisionado, lo que genera incertidumbre sobre su capacidad para actuar, especialmente en la lucha por la jurisdicción sobre los mercados de predicción. La industria también lamenta la próxima salida de dos figuras clave: la comisionada de la SEC, Hester M. Peirce, y la senadora Cynthia Lummis, ambas defensoras influyentes de políticas claras para los activos digitales. Expertos del sector opinan que es improbable que CLARITY se apruebe este año debido al calendario ajustado, por lo que la SEC y la CFTC podrían tener que proporcionar más orientación. Las reformas fiscales podrían avanzar si se incluyen en proyectos de ley más amplios. Sobre los mercados de predicción, se debate si deben ser regulados como infraestructura financiera o como juegos de azar, con la CFTC trabajando en un marco más claro. En resumen, la ventana de oportunidad legislativa para 2024 es estrecha, pero el diálogo y los esfuerzos pragmáticos serán esenciales para lograr avances sustanciales.

marsbitHace 8 hora(s)

Segunda mitad de la política cripto en EE.UU.: El proyecto de ley CLARITY busca 60 votos, el "Comité de una sola persona" de la CFTC se convierte en la mayor incertidumbre

marsbitHace 8 hora(s)

Nuevo artículo de Dan Koe: Escapando del destino del asalariado, ¿Cómo sobrevivir a la ola de sustitución por IA?

Autora: DAN KOE En un mundo donde la IA parece amenazar muchos empleos, Dan Koe argumenta que el mayor peligro no es la tecnología, sino depender completamente de otros para la subsistencia y felicidad. El artículo explora cómo escapar de la mentalidad de "esclavo asalariado" y construir una carrera significativa que resista la automatización. **1. Escapar de la trampa del empleado** Koe define la "esclavitud salarial" como verse obligado a realizar trabajos sin sentido por necesidad. Aunque un trabajo puede ser un trampolín útil, rara vez ofrece el flujo constante de desafíos óptimos que genera crecimiento y satisfacción. El sistema educativo y laboral nos entrena para ser especialistas dentro de un sistema, no para entenderlo o crear el nuestro. La única manera de sobrevivir a la sustitución por IA es construir tu propio proyecto. **2. Los cinco ingredientes del éxito** Para ser resiliente y crear tu propio camino, necesitas dominar cinco elementos fundamentales: 1. **Iniciativa**: Actuar sin pedir permiso. 2. **Criterio (gusto)**: El instinto para juzgar qué tiene valor. 3. **Persuasión**: La habilidad de hacer que otros crean en lo que haces. 4. **Perseverancia**: Entender que fallar es parte del proceso. 5. **Iteración**: Ajustar el rumbo basándote en la retroalimentación. Estos elementos se resumen en dos habilidades clave: **resolver problemas** y la **experiencia** para saber qué hacer. La IA facilita la creación de activos, pero el verdadero éxito requiere estas habilidades humanas, que solo se desarrollan haciendo tus propias cosas. **3. La cura: volverse "inempleable"** La solución es transformar tu identidad para convertirte en alguien que no puede ser empleado. Esto se logra mediante tres pasos: * **Cambia tu entorno radicalmente**: Tu identidad está moldeada por tus entornos (familia, escuela, redes sociales). Para cambiar, debes alterar conscientemente todos los estímulos que recibes, sumergiéndote en un nuevo entorno que te obligue a crecer. * **Elige un medio que ofrezca retroalimentación real**: El mayor riesgo es una vida sin posibilidad de error. El crecimiento viene de perseguir metas desconocidas, fallar, aprender y ajustar el rumbo. Esto es la esencia del emprendimiento. * **Domina la creación de medios (contenido) o código**: Según Naval, estas son las palancas de apalancamiento infinito. Koe argumenta que **crear contenido (medios) es más valioso que programar (código)** en el futuro. El valor del contenido es subjetivo y requiere un criterio que la IA no puede replicar por sí sola, mientras que el código es objetivo y su distribución (marketing) depende de entender los medios. **4. Cómo empezar: 15 minutos al día** El proceso para construir tu proyecto de vida (no solo una "marca personal") comienza con una introspección guiada de 15 minutos: 1. **Excava tu materia prima**: Identifica los conocimientos profundos, habilidades naturales e intereses de la infancia que el sistema pudo haber enterrado. 2. **Encuentra tu "disenso"**: Determina en qué crees firmemente, contrario a la opinión popular o a los "expertos" de tu campo. La intersección entre esto y tu materia prima es tu dirección. 3. **Publica tu primera idea mañana**: Combina una respuesta del paso 1 y otra del paso 2 en una pieza de contenido (un post, un video) y publícala. La retroalimentación real del mundo es el único punto de partida para iterar y mejorar. En resumen, el antídoto contra la obsolescencia laboral es tomar la iniciativa, desarrollar un criterio profundo y construir en público un proyecto basado en tu experiencia única, utilizando la creación de contenido como palanca principal en la era de la IA.

marsbitHace 8 hora(s)

Nuevo artículo de Dan Koe: Escapando del destino del asalariado, ¿Cómo sobrevivir a la ola de sustitución por IA?

marsbitHace 8 hora(s)

Informe de Investigación: Morgan Stanley analiza a SanDisk SNDK, la verdad sobre el poder de fijación de precios en centros de datos en la nube y el dividendo del razonamiento de IA

**Resumen: Análisis de Morgan Stanley sobre SNDK - Poder de fijación de precios en centros de datos en la nube y oportunidades en inferencia de IA** Morgan Stanley actualizó su informe sobre SanDisk (SNDK) el 22 de junio, elevando el precio objetivo de 1100 a 1750 dólares y manteniendo la recomendación de "sobreponderar". La lógica central se basa en que la demanda de **inferencia de IA** está reescribiendo las reglas del mercado NAND. Los clientes de centros de datos en la nube, que buscan almacenamiento de alto rendimiento para cargas de trabajo como KV Cache, muestran poca sensibilidad al precio, otorgando a SNDK un sólido poder de fijación. Un pilar clave es el nuevo modelo de negocio (NBM) de SNDK, que ya ha asegurado más de un tercio de sus envíos en bits para el año fiscal 2027. Estos contratos a largo plazo (3-5 años) con precios fijos o con límites garantizan márgenes brutos de alrededor del **80% incluso en escenarios de precios bajos**, proporcionando una resiliencia significativa frente a los ciclos del sector. Se prevé que la escasez de oferta de NAND persista, impulsada por la expansión acelerada de centros de datos para IA. Morgan Stanley espera que los precios promedio (ASP) continúen subiendo hasta mediados de 2027. Los ingresos de SNDK se proyectan que crezcan de 7.355 mil millones de dólares en FY25 a 48.826 mil millones en FY27, impulsados por el negocio en la nube de alto margen, con un EPS que pasaría de 2.74 a 14.73 dólares. Los riesgos incluyen un crecimiento del sector menor al esperado, una mayor competencia y posibles pérdidas de cuota de mercado. Sin embargo, el marco de inversión se sostiene en el cambio estructural de demanda por la IA, la protección de márgenes vía contratos NBM y un entorno de oferta ajustada.

marsbitHace 9 hora(s)

Informe de Investigación: Morgan Stanley analiza a SanDisk SNDK, la verdad sobre el poder de fijación de precios en centros de datos en la nube y el dividendo del razonamiento de IA

marsbitHace 9 hora(s)

Trading

Spot

Futuros