3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

  • Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
  • Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
  • Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
  • Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

Фонд отступает, Ethlabs выходит на первый план: в Ethereum происходит крупнейшая в истории реорганизация

23 июня произошли два ключевых события в экосистеме Ethereum. Бывшие исследователи Ethereum Foundation основали независимую некоммерческую организацию Ethlabs, получившую основное финансирование от крупных держателей ETH, таких как Bitmine и SharpLink. Ethlabs сосредоточится на ключевых потребностях институционального внедрения, включая скорость расчетов, выпуск нативных активов и масштабирование. Почти одновременно Ethereum Foundation объявил о завершении реструктуризации, сократив 20% персонала (54 человека), и перепозиционировал себя как более легкого управляющего протоколом, а не основного разработчика. Эти изменения сигнализируют о важной корректировке управления: Foundation отходит на второй план, позволяя таким организациям, как Ethlabs, взять на себя больше исполнительных функций. Ethlabs, поддержанный крупными держателями, но без прямого одобрения Виталика Бутерина, должен доказать свою эффективность в решении практических задач, таких как институциональное внедрение и улучшение пользовательского опыта. Таким образом, Ethereum пытается перейти от модели, чрезмерно зависящей от Foundation и его основателя, к более распределенной структуре с множеством организаций. Задача Foundation — сохранять «правильность» и нейтралитет протокола, в то время как новые структуры, подобные Ethlabs, должны доказать его «эффективность» и способность привлекать капитал и инновации в условиях растущей конкуренции.

链捕手5 ч. назад

Фонд отступает, Ethlabs выходит на первый план: в Ethereum происходит крупнейшая в истории реорганизация

链捕手5 ч. назад

Bitbase World Trading Clash (BWTC) 2026 стартовал — регистрация открыта до конца июля

Bitbase открыла регистрацию на глобальный торговый конкурс BWTC (Bitbase World Trading Clash) 2026, который пройдет с двумя параллельными треками: командным (Futures Team Pro) и индивидуальным (Trophy Picks). Призовой фонд Promotion Pool может достигнуть 1 000 000 USDT и динамически разблокируется по мере подтвержденного участия трейдеров. Командный трек оценивается как по общему объему торгов, так и по доходности капитала, поощряя эффективное использование средств, а не только высокие обороты. Индивидуальный трек ранжируется по личному объему. Регистрация открыта с 22 июня по 23 июля. Формирование команд необходимо завершить до 9 июля. Параллельно работает реферальная программа Scout Program, поощряющая приглашение новых пользователей. Большинство наград выплачиваются в виде кредита для торговли фьючерсами USDT, который можно использовать вместе с собственными средствами, а полученная прибыль доступна для вывода. По данным на момент публикации, за первые 36 часов зарегистрировались более 2000 трейдеров, и призовой фонд разблокировался до 10 000 USDT. Bitbase подчеркивает прозрачность условий конкурса и свой подход, основанный на доверии, инфраструктуре институционального уровня и четко определенных правилах.

TheNewsCrypto7 ч. назад

Bitbase World Trading Clash (BWTC) 2026 стартовал — регистрация открыта до конца июля

TheNewsCrypto7 ч. назад

Вторая половина политики США в отношении криптовалют: закон CLARITY на пути к 60 голосам, «комиссия одного человека» в CFTC — главная неизвестная

В США продолжается работа над криптополитикой. Основное внимание уделяется продвижению закона CLARITY в Сенате, для принятия которого необходимо собрать 60 голосов. Успех зависит от компромиссов между республиканцами и администрацией Белого дома, а также от привлечения колеблющихся сенаторов. Законодательный календарь переполнен: осталось лишь около 40 рабочих дней, что делает временное окно крайне узким. На повестке дня также находятся налоговые предложения, выделенные из нового законопроекта PARITY, и Блокчейнский закон о регуляторной определенности, направленный на защиту разработчиков. Параллельно идет доработка правил GENUIS. Вызывает озабоченность кадровая ситуация в CFTC (Комиссия по торговле товарными фьючерсами), где не хватает четырех уполномоченных, что замедляет процесс принятия решений. Также остается открытым вопрос о юрисдикции над рынками прогнозирования: будут ли они регулироваться штатами, CFTC, SEC (Комиссия по ценным бумагам и биржам) или Верховным судом. Криптоиндустрия готовится к уходу двух ключевых фигур: уполномоченного SEC Хестер Пирс, которая возглавляла целевую группу по криптовалютам, и сенатора Синтии Ламмис, сыгравшей важную роль в двухпартийных переговорах. Эксперты отмечают, что шансы на принятие CLARITY в текущем созыве Конгресса невелики из-за нехватки времени и выборов, поэтому основная регуляторная нагрузка ляжет на SEC и CFTC. Налоговые инициативы, вероятно, будут продвигаться в составе более крупных законопроектов. Что касается рынков прогнозирования, CFTC работает над созданием для них постоянной регуляторной базы, стремясь избежать их классификации исключительно как азартных игр. В целом, для достижения существенных результатов к 2026 году отрасли необходимы непрерывные двухпартийные усилия и прагматичный подход в условиях сжатых сроков.

marsbit8 ч. назад

Вторая половина политики США в отношении криптовалют: закон CLARITY на пути к 60 голосам, «комиссия одного человека» в CFTC — главная неизвестная

marsbit8 ч. назад

Dan Koe: Как выжить в волне замещения AI и избежать участи наёмного работника

Даниел Коу рассуждает о необходимости избавления от «зарплатного рабства» и построения собственного дела в эпоху ИИ. Он утверждает, что настоящая угроза — не технологии, а зависимость от внешних обстоятельств и нежелание меняться. Коу подчеркивает, что рутинная работа часто ведет к скуке и потере смысла, поскольку не позволяет достигать состояния потока. Выход из этого положения автор видит в развитии пяти ключевых навыков: личной инициативы, вкуса (умения оценивать качество), способности убеждать, настойчивости и итеративного подхода (постоянного улучшения на основе обратной связи). Эти навыки, по его мнению, лучше всего развиваются через создание собственного проекта. Коу предлагает конкретный план действий. Первый шаг — радикально изменить свое окружение и привычки, чтобы начать мыслить как предприниматель. Второй — выбрать «среду» для деятельности, где можно получать честную обратную связь через эксперименты и ошибки. Автор считает, что в современном мире особенно ценными навыками являются создание контента (медиа) и программирование, при этом медиа-навыки — создание уникального, субъективного контента — становятся все более важными. В заключительной части статьи приводится практическое упражнение. Читателю предлагается за 15 минут ответить на вопросы, чтобы обнаружить свои глубочайшие интересы и «непопулярные» убеждения в своей области. Пересечение этих ответов и станет основой для личного проекта. Финальный и самый важный шаг — немедленно опубликовать первую мысль или работу, чтобы начать получать реальную обратную связь от мира и учиться на ней.

marsbit9 ч. назад

Dan Koe: Как выжить в волне замещения AI и избежать участи наёмного работника

marsbit9 ч. назад

Анализ отчета: Morgan Stanley объясняет SanDisk SNDK, правду о ценовой власти в облачных центрах обработки данных и дивидендах AI-инференса

**Обзор отчета Morgan Stanley о компании SANDisk (SNDK)** 22 июня аналитики Morgan Stanley повысили целевую цену акций SANDisk с $1100 до $1750, сохранив рекомендацию «Повышать». Ключевой тезис: спрос на вычисления для ИИ-инференса меняет правила игры на рынке NAND-памяти. **Структурный сдвиг спроса.** Облачный бизнес SANDisk в первом квартале вырос на 233% г/г, чему способствует потребность облачных провайдеров в высокопроизводительной памяти (TLC) для кэшей (KV Cache) и хранения контекста в ИИ-моделях. Эти клиенты, в отличие от потребительского сегмента, заключают долгосрочные контракты и менее чувствительны к цене. **Новая бизнес-модель (NBM) и устойчивая прибыль.** SANDisk уже зафиксировала в контрактах NBM более трети объема поставок на 2027 финансовый год. Соглашения (сроком 3-5 лет) с фиксированной ценой или коридорами обеспечивают маржинальность около 80% даже на нижнем пределе. Это создает «защитный буфер» прибыли. Morgan Stanley ожидает, что доля продаж по NBM может достичь 70-80%, что резко снизит цикличность бизнеса. **Контроль над ценообразованием и рост.** В условиях дефицита поставок NAND, который может продлиться до середины 2027 года, SANDisk обладает преимуществом в ценообразовании. Ожидается, что выручка вырастет с $7.36 млрд в FY25 до $48.83 млрд в FY27, а EPS — с $2.74 до $14.73. Рост будет в основном обеспечиваться высокомаржинальным облачным сегментом. **Потенциал и риски.** Позитивными катализаторами могут стать более быстрое внедрение корпоративных SSD, развитие edge-AI и новые технологии (например, HBM). К рискам относятся замедление роста отрасли, усиление конкуренции (включая китайские компании, такие как YMTC) и возможная потеря доли рынка SANDisk в дата-центрах. **Итог.** Логика повышения оценки основана на трех факторах: структурном росте спроса от ИИ-инференса, защите маржи через контракты NBM и сохраняющейся напряженности на рынке NAND. Целевая цена $1750 соответствует ~28x P/E на прогноз EPS за FY27.

marsbit9 ч. назад

Анализ отчета: Morgan Stanley объясняет SanDisk SNDK, правду о ценовой власти в облачных центрах обработки данных и дивидендах AI-инференса

marsbit9 ч. назад

Торговля

Спот
Фьючерсы
活动图片