3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

  • Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
  • Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
  • Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
  • Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

История финансирования DeepSeek

**Сводка по истории финансирования DeepSeek** В мае DeepSeek провёл ключевую 4-часовую онлайн-встречу с инвесторами, на которой основатель Лян Вэньфэн изложил философию компании: фокус исключительно на развитии AGI (искусственного общего интеллекта), важность стабильности команды и принцип «меньше значит больше». Он подчеркнул, что DeepSeek — это «история о простых людях, совершающих необычные дела». Раунд финансирования стартовал в апреле с высокими планками: минимальный взнос 5 млрд юаней и чистая структура капитала в юанях. Из-за ограниченного числа фондов, способных на такие инвестиции, требования были смягчены до 1.5 млрд юаней, что позволило большему кругу инвесторов участвовать. В финальный список вошли 10 основных инвесторов, включая Monolith Capital (который увеличил свою долю до 3 млрд юаней), Zhenxingu Capital, IDG Capital и государственные фонды. Примечательно отсутствие таких гигантов, как Sequoia China и Hillhouse Capital, что стало неожиданностью для рынка. Глубокий анализ показывает, что в раунде косвенно участвуют около 100 организаций и частных лиц через различные инвестиционные фонды. Ключевым условием для всех инвесторов стало обязательство не переманивать сотрудников DeepSeek. Лян Вэньфэн рассматривает стабильность команды как самый важный фактор успеха. Несмотря на кажущийся консенсус вокруг этой инвестиции, многие видят в DeepSeek не просто финансовую возможность, а проект, несущий особую ценность для развития AGI в Китае. Некоторые инвесторы верят, что компания имеет потенциал стать крупнейшей по капитализации на китайском фондовом рынке. Сделка была отмечена атмосферой сдержанности и уважения к миссии DeepSeek, выраженной в её девизе: «Не соблазняться славой, не бояться клеветы, идти путём принципов и исправлять себя».

marsbit21 мин. назад

История финансирования DeepSeek

marsbit21 мин. назад

Компании DAT начинают играть побочными ролями

Криптокомпании, ранее известные как DAT (Digital Asset Treasury), вынуждены менять стратегии из-за медвежьего рынка. Раньше они привлекали инвестиции, скупая криптовалюту, что повышало их акции. Теперь, с появлением ETF и падением цен, эта модель теряет эффективность. Некоторые компании, такие как ETHZilla, полностью отказались от DAT-модели. Другие ищут новые пути. SharpLink Gaming и GameSquare превращаются в платформы управления активами, используя стейкинг и DeFi для получения дохода для акционеров. В экосистеме Solana компании, такие как DeFi Development и SOL Strategies, становятся операторами инфраструктуры, запуская ликвидный стейкинг и управляя валидаторами. Эти трансформации направлены на создание реальной операционной деятельности и денежных потоков, а не просто на удержание активов. Хотя новые стратегии (высокие доходы в DeFi, зависимость от конкретного блокчейна) сопряжены с рисками, они отражают взросление отрасли. DAT-движение переходит от спекулятивной капитальной игры к этапу, где ценность создается через реальное участие в развитии экосистемы.

Foresight News26 мин. назад

Компании DAT начинают играть побочными ролями

Foresight News26 мин. назад

Дебют Ваша: график точек остаётся, но ФРС, возможно, уже изменилась

Дебют Джерома Восса на посту главы ФРС: «Точечный график» остался, но ФРС, возможно, уже меняется. 18 июня ФРС оставила ставку без изменений, что полностью соответствовало ожиданиям рынка. Главным событием стала первая пресс-конференция нового председателя Джерома Восса, ознаменовавшая сдвиг в коммуникационной стратегии регулятора. Ключевые изменения: 1. **Ослабление роли «точечного графика» (Dot Plot):** Из 19 членов FOMC прогноз по ставкам представили только 18. Восс открыто заявил, что не представил свой собственный прогноз, сославшись на скептическое отношение к текущему формату этого инструмента. Хотя график не отменили, отсутствие председателя сигнализирует о снижении его значимости как ориентира для рынка. 2. **Новая философия коммуникации:** Восс, известный как сторонник меньшей предсказуемости, отказался давать четкие указания о будущих шагах в ответ на вопросы журналистов. Он подчеркнул зависимость от текущих данных и принятие решений на каждом отдельном заседании. Это означает отход от практики «объяснения будущего» к описанию «текущей оценки», что снижает определенность «предиктивного руководства». 3. **Реакция рынка:** После заявлений Восса о нетерпимости к высокой инфляции рынки начали переоценку. Выросли ожидания более агрессивного пути повышения ставок, вплоть до вероятности нового повышения уже в октябре. Акции, особенно технологические, упали (S&P 500 -1.2%, Nasdaq -1.3%), а аппетит к риску снизился. Рынки начали учитывать более высокий «хвостовой риск» ужесточения политики, если инфляция не замедлится. Вывод: Прямого радикального изменения политики не произошло, но начался важный сдвиг в методах коммуникации ФРС. Восс не отменил старые инструменты, но ослабил их сигнальную роль. Главный вопрос, который оставил его дебют: как рынки будут переоценивать риски, когда ФРС перестанет «предсказывать» свой дальнейший путь.

Odaily星球日报30 мин. назад

Дебют Ваша: график точек остаётся, но ФРС, возможно, уже изменилась

Odaily星球日报30 мин. назад

Судьба цифровых банков: какой бы навороченной ни была мобильная программа, лучше, чем банковская лицензия, ничего не будет

Судьба цифровых банков: как бы ни был красив их интерфейс, главное — наличие банковской лицензии. Сотни цифровых банков (необанков) привлекают миллионы пользователей бесплатными счетами без скрытых комиссий, но большинство (76%) остаются убыточными. Средний доход на пользователя у них составляет лишь 45 долларов в год против 350 у традиционных банков. Основная причина убытков в том, что их бизнес-модель, построенная на доходах от платежных операций (комиссия за транзакции по картам), несостоятельна. Настоящий источник прибыли в банковском деле — это кредитование (ипотека, автокредиты, личные займы), которое требует банковской лицензии. Примеры успешных игроков подтверждают это: * **Nubank** (Бразилия): бесплатный счет стал лишь инструментом привлечения клиентов, а основная прибыль (158 млрд долларов выручки) генерируется за счет выдачи кредитных карт и персональных займов. * **Revolut**: достиг прибыльности за счет комиссий за обмен валют, подписок и, что важно, стремительного роста кредитного портфеля (на 120%). * **Chime** (США): после 12 лет работы впервые вышла в прибыль именно благодаря запуску кредитных продуктов. Критической проблемой многих необанков стала их зависимость от инфраструктурных посредников, таких как **Synapse**. Его банкротство в 2024 году привело к заморозке 265 млн долларов клиентских средств, показав хрупкость модели без собственной лицензии. Единственная надежная защита от подобных системных рисков — это банковская лицензия. Криптоиндустрия усвоила этот урок. В 2025-2026 гг. множество компаний (Paxos, Fidelity, Ripple, Circle и др.) подали заявки на получение национальных трастовых лицензий от Управления валютного контролёра США (OCC), чтобы самостоятельно хранить активы клиентов и проводить платежи. **Вывод:** Опыт необанков демонстрирует, что, несмотря на технологические инновации, фундаментальная сущность банковского дела остается неизменной: прибыль создается кредитованием, а для его ведения в полном масштабе и с минимальными рисками необходима банковская лицензия.

marsbit35 мин. назад

Судьба цифровых банков: какой бы навороченной ни была мобильная программа, лучше, чем банковская лицензия, ничего не будет

marsbit35 мин. назад

Страна, добывавшая биткоин 8 лет, создала собственный криптобанк

**Небольшое гималайское королевство Бутан, известное своим показателем «Валового национального счастья», создало специальный криптобанк DK Bank в новой особой административной зоне — городе Гьелуп Миндфулнесс (GMC). Эта инициатива направлена на решение хронической проблемы отказа в банковских услугах для криптоиндустрии.** DK Bank, расположенный в GMC, который управляется по принципу «одна страна — две системы», предлагает полный спектр услуг: единый мультивалютный счет для фиата и стейблкоинов (USDT, USDC), крипто-кастоди, кредитование под залог биткоина и круглосуточные операции. Это контрастирует с большинством «дружественных» банков, которые работают только с фиатными счетами криптокомпаний. Для привлечения бизнеса в GMC используется ускоренная процедура лицензирования на основе признанных стандартов Сингапура и Абу-Даби (ADGM). При этом особый упор делается на комплексный комплаенс, включающий проверку как традиционных финансовых потоков, так и полной цепочки транзакций на блокчейне. Этот шаг является логическим продолжением давней стратегии Бутана, который занимается майнингом биткоина с 2018 года, используя свою гидроэнергию. Вместо ставки на один актив страна развивает полноценную институциональную криптоэкосистему — майнинг, кастоди, управление активами. Цель Бутана — стать финансовым хабом для Южной Азии, подобно Сингапуру в ЮВА, предложив столь необходимую регулируемую инфраструктуру для растущего сектора цифровых активов. DK Bank позиционируется как учреждение, готовое к переходу мировых финансов на блокчейн.

marsbit57 мин. назад

Страна, добывавшая биткоин 8 лет, создала собственный криптобанк

marsbit57 мин. назад

Торговля

Спот
Фьючерсы
活动图片