3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

Основатель zkSync «собственноручно уволил» ключевую команду: бывшая звезда масштабирования Ethereum полностью переходит на обслуживание банков

Автор: Клод, Deep Tide TechFlow **Введение:** Основатель Matter Labs Алекс Глуховский 17 июня объявил о новом раунде сокращений. Компания полностью сосредотачивается на «разрешенной» приватной цепи Prividium, предназначенной для обслуживания регулируемых финансовых институтов. Это второе сокращение за два года. Основатель, называющий себя «максималистом свободы», в итоге привел проект к регулированию, разрешениям и банкам. Реакция сообщества неоднозначна, самый острый вопрос: куда делись 458 миллионов долларов привлеченных средств? Токен $ZK торгуется около $0.019, потеряв около 93% от исторического максимума. История zkSync движется в направлении, противоположном первоначальным обещаниям. Были уволены опытные инженеры, дизайнеры и операционные сотрудники. Главное — смена стратегии: от публичной цепи «для всех» к приватной «разрешенной» цепи Prividium для банков, таких как Deutsche Bank и UBS. Это противоречит прошлым заявлениям о технологии как общественном благе. Сообщество раскритиковало решение, требуя отчета о расходах привлеченных средств. Ранее, в сентябре 2024 года, также были увольнения. Токен $ZK сильно просел, а его экономическая модель слабо связана с новой B2B-стратегией компании. Этот поворот отражает высокую конкуренцию на рынке L2-решений Ethereum (Arbitrum, Optimism, Base). После аирдропа в июне 2024 года активность в сети zkSync резко упала. Переход к нишевому обслуживанию банков — понятное коммерческое решение в условиях «красного океана», но оно отталкивает ранних сторонников идеи «безразрешительного» будущего. Matter Labs выбирает более реалистичный и прибыльный путь, жертвуя своими первоначальными идеалами.

marsbit17 мин. назад

Основатель zkSync «собственноручно уволил» ключевую команду: бывшая звезда масштабирования Ethereum полностью переходит на обслуживание банков

marsbit17 мин. назад

Далио: Как инвестировать в текущих рыночных условиях?

Рэй Далио анализирует текущую рыночную среду, где доминируют акции, связанные с революционными технологиями, особенно искусственным интеллектом (ИИ). Он сравнивает инвестиции с игрой, где ключом является оценка «игрового поля» — текущих рыночных условий и сил, на них влияющих. Основными факторами являются «пять больших сил»: долг/деньги, внутренняя политика, геополитика, природные явления и новые технологии. Далио отмечает чрезвычайно высокую концентрацию рынка вокруг нескольких технологических компаний и вызванную этим волатильность. Он подчеркивает, что такие периоды технологических прорывов исторически характеризуются высокой неопределенностью и рисками, даже для самых успешных в долгосрочной перспективе компаний. Риски включают чрезмерные или недостаточные инвестиции, внешние шоки, будущие прорывные технологии (например, квантовые вычисления) и жесткую глобальную конкуренцию, в частности со стороны Китая. Исходя из этого, ключевой вывод и рекомендация Далио — **диверсификация**. Его «Святой Грааль инвестиций» — это портфель из 15-ти качественных, некоррелированных и сбалансированных по риску активов. Математически это значительно улучшает соотношение риск/доходность по сравнению с концентрированными ставками. В условиях, когда ожидаемая доходность акций ИИ выглядит низкой, а цены, возможно, завышены, осознанное принятие диверсификации — это рациональная стратегия управления «неизвестным». Главный вопрос для инвестора сегодня: «Какова должна быть моя степень концентрации перед диверсификацией?» Далио советует не путать энтузиазм по поводу технологии с инвестиционной привлекательностью акций и помнить, что часто лучший выбор — признать недостаток знаний для уверенной концентрированной ставки и выбрать диверсифицированный подход.

marsbit25 мин. назад

Далио: Как инвестировать в текущих рыночных условиях?

marsbit25 мин. назад

Баффет и VC: один из них должен проиграть

Заголовок: «Баффет и венчурные инвесторы: один должен проиграть» В статье обсуждается кажущееся противостояние между Уорреном Баффетом, который сохраняет осторожность, накапливая рекордные денежные резервы, и венчурными инвесторами, активно финансирующими технологический сектор, особенно в области ИИ. Автор напоминает о прошлых столкновениях Баффета с рынком: во время пузыря доткомов (1999–2000) и в споре с хедж-фондами (2007–2017). В обоих случаях Баффет критиковал не сами технологии или активное управление, а иррациональную оценку активов, завышенные комиссии и веру в «исключительность момента», которая подменяет трезвый анализ. Его подход основан на долгосрочной стоимости, устойчивых конкурентных преимуществах и разумных ценах. Сегодня, на фоне ажиотажа вокруг ИИ, Баффет, вероятно, задал бы те же вопросы: как компании будут генерировать прибыль, кто получит основную долю стоимости и оправданы ли текущие оценки. Статья завершается притчей Баффета о «мистере Рынке», подчеркивая, что инвестор должен использовать рыночные колебания, а не подчиняться им.

marsbit32 мин. назад

Баффет и VC: один из них должен проиграть

marsbit32 мин. назад

Далио представляет объемную статью: Как размещаться в текущей рыночной среде?

В статье «Как ориентироваться в текущей рыночной среде?» Рэй Далио рассматривает стратегии инвестирования в условиях доминирования технологий искусственного интеллекта (ИИ) на рынке. Он сравнивает инвестиционный процесс с игрой, где важно оценивать «состояние доски» — текущие рыночные условия и движущие силы. Ключевые факторы среды включают цикл, вызванный новыми технологиями (в первую очередь ИИ), и «пять великих сил»: долг и деньги, внутреннюю и внешнюю политику, геополитику, природные явления и сами новые технологии. Эти факторы создают высокую неопределённость и волатильность. Далио указывает на высокие риски, присущие компаниям, работающим с революционными технологиями, — даже успешные в долгосрочной перспективе, такие как Microsoft или Apple, переживали серьёзные спады на ранних этапах. Существуют риски чрезмерных или недостаточных инвестиций, внешних шоков, геополитической конкуренции (например, со стороны Китая) и технологического устаревания. Основная рекомендация — диверсификация. Далио называет её «Святым Граалем инвестиций»: портфель из 15–20 качественных, некоррелированных и сбалансированных по риску активов математически обеспечивает лучшее соотношение риска и доходности, чем концентрированные ставки на отдельные акции или сектора. В условиях высокой концентрации рынка вокруг нескольких технологических гигантов диверсификация становится особенно важной. Он также отмечает, что ожидаемая доходность акций в настоящее время выглядит низкой, а оценки — завышенными. Многие инвесторы ошибочно смешивают волнение от новых технологий с инвестиционной привлекательностью акций. Далио подчёркивает, что важно признавать границы своих знаний: «Знать, чего ты не знаешь, и решать, когда не делать ставку, так же важно, как знать, что ты знаешь, и решать, когда ставить». Вывод: в текущей среде, отмеченной революционной технологией и высокой концентрацией рынка, наиболее рациональным подходом является отказ от крупных концентрированных ставок в пользу тщательно сконструированного диверсифицированного портфеля, соответствующего толерантности инвестора к риску.

链捕手34 мин. назад

Далио представляет объемную статью: Как размещаться в текущей рыночной среде?

链捕手34 мин. назад

Интервью с сооснователем CoreWeave, «акцией-концептом Nvidia»: спрос на ИИ, кажется, обостряется с каждым днём

Интервью с сооснователем CoreWeave, Брэннином Макби, и вице-президентом Ником Роббинсом, показывает, что спрос на инфраструктуру ИИ продолжает стремительно расти, особенно в сфере агентного ИИ и инференса с первого квартала 2024 года. Основное узкое место смещается от простой нехватки GPU к более комплексным проблемам: доступность готовых энергообеспеченных дата-центров, поставки CPU, систем хранения, квалифицированных кадров и логистики. CoreWeave, как независимый облачный провайдер, обслуживающий ведущие компании (OpenAI, Anthropic, Meta, Google и др.), наблюдает структурные изменения в рабочих нагрузках ИИ. Растет важность CPU (включая будущие процессоры Nvidia Vera) и памяти. Компания заранее перепроектировала свои дата-центры, чтобы разместить больше CPU и систем хранения рядом с GPU. Конкуренция на рынке облачных услуг ИИ теперь определяется не только доступом к чипам, но и скоростью развертывания, инженерными компетенциями и способностью оптимизировать стоимость вычислений. CoreWeave выделяет свою клиентоориентированную модель и подтвержденный экспертами (SemiAnalysis) высокий уровень исполнения. Текущий главный ограничивающий фактор — нехватка готовых энергообъектов (powered shells). Компания ожидает, что массовое развертывание новых серверов Nvidia Vera Rubin начнется в конце 2024 года и достигнет пика в 2027 году.

marsbit43 мин. назад

Интервью с сооснователем CoreWeave, «акцией-концептом Nvidia»: спрос на ИИ, кажется, обостряется с каждым днём