3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

  • Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
  • Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
  • Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
  • Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

Основатель zkSync «собственноручно уволил» ключевую команду: бывшая звезда масштабирования Ethereum полностью переходит на обслуживание банков

Автор: Клод, Deep Tide TechFlow **Введение:** Основатель Matter Labs Алекс Глуховский 17 июня объявил о новом раунде сокращений. Компания полностью сосредотачивается на «разрешенной» приватной цепи Prividium, предназначенной для обслуживания регулируемых финансовых институтов. Это второе сокращение за два года. Основатель, называющий себя «максималистом свободы», в итоге привел проект к регулированию, разрешениям и банкам. Реакция сообщества неоднозначна, самый острый вопрос: куда делись 458 миллионов долларов привлеченных средств? Токен $ZK торгуется около $0.019, потеряв около 93% от исторического максимума. История zkSync движется в направлении, противоположном первоначальным обещаниям. Были уволены опытные инженеры, дизайнеры и операционные сотрудники. Главное — смена стратегии: от публичной цепи «для всех» к приватной «разрешенной» цепи Prividium для банков, таких как Deutsche Bank и UBS. Это противоречит прошлым заявлениям о технологии как общественном благе. Сообщество раскритиковало решение, требуя отчета о расходах привлеченных средств. Ранее, в сентябре 2024 года, также были увольнения. Токен $ZK сильно просел, а его экономическая модель слабо связана с новой B2B-стратегией компании. Этот поворот отражает высокую конкуренцию на рынке L2-решений Ethereum (Arbitrum, Optimism, Base). После аирдропа в июне 2024 года активность в сети zkSync резко упала. Переход к нишевому обслуживанию банков — понятное коммерческое решение в условиях «красного океана», но оно отталкивает ранних сторонников идеи «безразрешительного» будущего. Matter Labs выбирает более реалистичный и прибыльный путь, жертвуя своими первоначальными идеалами.

marsbit17 мин. назад

Основатель zkSync «собственноручно уволил» ключевую команду: бывшая звезда масштабирования Ethereum полностью переходит на обслуживание банков

marsbit17 мин. назад

Далио: Как инвестировать в текущих рыночных условиях?

Рэй Далио анализирует текущую рыночную среду, где доминируют акции, связанные с революционными технологиями, особенно искусственным интеллектом (ИИ). Он сравнивает инвестиции с игрой, где ключом является оценка «игрового поля» — текущих рыночных условий и сил, на них влияющих. Основными факторами являются «пять больших сил»: долг/деньги, внутренняя политика, геополитика, природные явления и новые технологии. Далио отмечает чрезвычайно высокую концентрацию рынка вокруг нескольких технологических компаний и вызванную этим волатильность. Он подчеркивает, что такие периоды технологических прорывов исторически характеризуются высокой неопределенностью и рисками, даже для самых успешных в долгосрочной перспективе компаний. Риски включают чрезмерные или недостаточные инвестиции, внешние шоки, будущие прорывные технологии (например, квантовые вычисления) и жесткую глобальную конкуренцию, в частности со стороны Китая. Исходя из этого, ключевой вывод и рекомендация Далио — **диверсификация**. Его «Святой Грааль инвестиций» — это портфель из 15-ти качественных, некоррелированных и сбалансированных по риску активов. Математически это значительно улучшает соотношение риск/доходность по сравнению с концентрированными ставками. В условиях, когда ожидаемая доходность акций ИИ выглядит низкой, а цены, возможно, завышены, осознанное принятие диверсификации — это рациональная стратегия управления «неизвестным». Главный вопрос для инвестора сегодня: «Какова должна быть моя степень концентрации перед диверсификацией?» Далио советует не путать энтузиазм по поводу технологии с инвестиционной привлекательностью акций и помнить, что часто лучший выбор — признать недостаток знаний для уверенной концентрированной ставки и выбрать диверсифицированный подход.

marsbit25 мин. назад

Далио: Как инвестировать в текущих рыночных условиях?

marsbit25 мин. назад

Баффет и VC: один из них должен проиграть

Заголовок: «Баффет и венчурные инвесторы: один должен проиграть» В статье обсуждается кажущееся противостояние между Уорреном Баффетом, который сохраняет осторожность, накапливая рекордные денежные резервы, и венчурными инвесторами, активно финансирующими технологический сектор, особенно в области ИИ. Автор напоминает о прошлых столкновениях Баффета с рынком: во время пузыря доткомов (1999–2000) и в споре с хедж-фондами (2007–2017). В обоих случаях Баффет критиковал не сами технологии или активное управление, а иррациональную оценку активов, завышенные комиссии и веру в «исключительность момента», которая подменяет трезвый анализ. Его подход основан на долгосрочной стоимости, устойчивых конкурентных преимуществах и разумных ценах. Сегодня, на фоне ажиотажа вокруг ИИ, Баффет, вероятно, задал бы те же вопросы: как компании будут генерировать прибыль, кто получит основную долю стоимости и оправданы ли текущие оценки. Статья завершается притчей Баффета о «мистере Рынке», подчеркивая, что инвестор должен использовать рыночные колебания, а не подчиняться им.

marsbit32 мин. назад

Баффет и VC: один из них должен проиграть

marsbit32 мин. назад

Далио представляет объемную статью: Как размещаться в текущей рыночной среде?

В статье «Как ориентироваться в текущей рыночной среде?» Рэй Далио рассматривает стратегии инвестирования в условиях доминирования технологий искусственного интеллекта (ИИ) на рынке. Он сравнивает инвестиционный процесс с игрой, где важно оценивать «состояние доски» — текущие рыночные условия и движущие силы. Ключевые факторы среды включают цикл, вызванный новыми технологиями (в первую очередь ИИ), и «пять великих сил»: долг и деньги, внутреннюю и внешнюю политику, геополитику, природные явления и сами новые технологии. Эти факторы создают высокую неопределённость и волатильность. Далио указывает на высокие риски, присущие компаниям, работающим с революционными технологиями, — даже успешные в долгосрочной перспективе, такие как Microsoft или Apple, переживали серьёзные спады на ранних этапах. Существуют риски чрезмерных или недостаточных инвестиций, внешних шоков, геополитической конкуренции (например, со стороны Китая) и технологического устаревания. Основная рекомендация — диверсификация. Далио называет её «Святым Граалем инвестиций»: портфель из 15–20 качественных, некоррелированных и сбалансированных по риску активов математически обеспечивает лучшее соотношение риска и доходности, чем концентрированные ставки на отдельные акции или сектора. В условиях высокой концентрации рынка вокруг нескольких технологических гигантов диверсификация становится особенно важной. Он также отмечает, что ожидаемая доходность акций в настоящее время выглядит низкой, а оценки — завышенными. Многие инвесторы ошибочно смешивают волнение от новых технологий с инвестиционной привлекательностью акций. Далио подчёркивает, что важно признавать границы своих знаний: «Знать, чего ты не знаешь, и решать, когда не делать ставку, так же важно, как знать, что ты знаешь, и решать, когда ставить». Вывод: в текущей среде, отмеченной революционной технологией и высокой концентрацией рынка, наиболее рациональным подходом является отказ от крупных концентрированных ставок в пользу тщательно сконструированного диверсифицированного портфеля, соответствующего толерантности инвестора к риску.

链捕手34 мин. назад

Далио представляет объемную статью: Как размещаться в текущей рыночной среде?

链捕手34 мин. назад

Интервью с сооснователем CoreWeave, «акцией-концептом Nvidia»: спрос на ИИ, кажется, обостряется с каждым днём

Интервью с сооснователем CoreWeave, Брэннином Макби, и вице-президентом Ником Роббинсом, показывает, что спрос на инфраструктуру ИИ продолжает стремительно расти, особенно в сфере агентного ИИ и инференса с первого квартала 2024 года. Основное узкое место смещается от простой нехватки GPU к более комплексным проблемам: доступность готовых энергообеспеченных дата-центров, поставки CPU, систем хранения, квалифицированных кадров и логистики. CoreWeave, как независимый облачный провайдер, обслуживающий ведущие компании (OpenAI, Anthropic, Meta, Google и др.), наблюдает структурные изменения в рабочих нагрузках ИИ. Растет важность CPU (включая будущие процессоры Nvidia Vera) и памяти. Компания заранее перепроектировала свои дата-центры, чтобы разместить больше CPU и систем хранения рядом с GPU. Конкуренция на рынке облачных услуг ИИ теперь определяется не только доступом к чипам, но и скоростью развертывания, инженерными компетенциями и способностью оптимизировать стоимость вычислений. CoreWeave выделяет свою клиентоориентированную модель и подтвержденный экспертами (SemiAnalysis) высокий уровень исполнения. Текущий главный ограничивающий фактор — нехватка готовых энергообъектов (powered shells). Компания ожидает, что массовое развертывание новых серверов Nvidia Vera Rubin начнется в конце 2024 года и достигнет пика в 2027 году.

marsbit43 мин. назад

Интервью с сооснователем CoreWeave, «акцией-концептом Nvidia»: спрос на ИИ, кажется, обостряется с каждым днём

marsbit43 мин. назад

Торговля

Спот
Фьючерсы
活动图片