Только что, DeepSeek V4 обновил DSpark, скорость вывода повысилась на 80%

marsbitОпубликовано 2026-06-27Обновлено 2026-06-27

Введение

DeepSeek выпустил фреймворк спекулятивного декодирования DSpark, который увеличивает скорость вывода DeepSeek-V4 на 80%. DSpark, развернутый в онлайн-трафике DeepSeek-V4 (Flash и Pro), сочетает высокопроизводительную «параллельную генерацию» с адаптивной «проверкой с учетом нагрузки». Он использует архитектуру полуавторегрессивной генерации для моделирования зависимостей внутри блоков токенов и аппаратно-ориентированное планирование проверки по уверенности для динамического определения оптимальной длины проверки для каждого запроса. В тестах DSpark превзошел современные авторегрессивные (Eagle3) и параллельные (DFlash) модели-черновики, повысив среднюю длину принятия на 26.7%-30.9% и 16.3%-18.4% соответственно. Вместе с DSpark был открыт исходный код DeepSpec — полного стека для обучения и оценки моделей-черновиков спекулятивного декодирования.

Только что, DeepSeek V4 выпустил обновление.

Была представлена новая фреймворк спекулятивного декодирования (Speculative Decoding) DSpark, а также одновременно был открыт исходный код полного стека фреймворка спекулятивного декодирования DeepSpec, поддерживающего эту версию.

DeepSeek-V4-Pro-DSpark не является моделью с совершенно новой архитектурой, а представляет собой DeepSeek-V4-Pro с добавленным модулем спекулятивного декодирования. Основное внимание в этом обновлении уделено инженерной реализации, а не итерации самих возможностей модели.

DSpark уже развернут в реальном онлайн-трафике DeepSeek-V4 (Flash и Pro), что значительно ускорило скорость вывода (инференса) больших языковых моделей (LLM).

Технический отчет: «DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation»

Ссылка на технический отчет: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

Основная цель DSpark — решить проблему узких мест в задержке и пропускной способности вывода LLM в производственных средах (особенно в сценариях с высокой параллельной нагрузкой). Проще говоря, DSpark успешно объединил высокопроизводительную «параллельную генерацию» с адаптивной «проверкой с учетом нагрузки».

Спекулятивное декодирование — это техника ускорения вывода больших языковых моделей без изменения распределения их вывода. Основная идея заключается во внедрении легковесной «черновой модели» (draft model), которая предварительно генерирует несколько кандидатных токенов, а затем целевая модель (target model) выполняет пакетную проверку и принятие этих кандидатов. Это преобразует последовательную потокенную генерацию в параллельную пакетную проверку, значительно снижая сквозную задержку.

На этой основе инновация DSpark заключается во внедрении архитектуры полуавторегрессивной генерации (Semi-Autoregressive Generation): она сохраняет преимущества высокой пропускной способности параллельной черновой модели, одновременно добавляя легковесный последовательный модуль для моделирования зависимостей между токенами внутри блока, чтобы смягчить проблему снижения процента принятия (acceptance rate), которая часто возникает у параллельной черновой модели на последующих позициях.

Кроме того, используется аппаратно-зависимая проверка по расписанию на основе уверенности (Confidence-Scheduled Verification): в предыдущих реализациях спекулятивного декодирования обычно все сгенерированные черновые токены вслепую отправлялись на проверку. При высокой нагрузке на систему эти хвостовые токены, которые с высокой вероятностью будут отклонены, серьезно растрачивают ценную вычислительную мощность пакетной обработки. DSpark вводит голову уверенности (Confidence Head) для оценки вероятности «выживания» каждого токена. В сочетании с планировщиком префиксов, учитывающим аппаратное обеспечение, система может динамически определять оптимальную длину проверки для каждого запроса на основе характеристик текущей пропускной способности движка, выделяя вычислительные ресурсы только токенам с наивысшей ожидаемой отдачей.

Для развертывания в реальной онлайн-инфраструктуре планировщик DSpark использует асинхронный механизм для совместимости с планированием с нулевыми накладными расходами (ZOS) и непрерывным воспроизведением CUDA-графов. Он использует исторические прогнозы из предыдущих шагов для определения текущей динамической длины усечения, скрывая тем самым задержку планирования, предотвращая остановки конвейера GPU и гарантируя при этом полное и безошибочное восстановление выходного распределения целевой модели.

В тестах, охватывающих математические рассуждения, генерацию кода и повседневный диалог, DSpark значительно превзошел самые передовые авторегрессивные модели (Eagle3) и параллельные черновые модели (DFlash). Например, на целевых моделях серии Qwen3 (4B, 8B, 14B) средняя длина принятия увеличилась на 26,7%–30,9% по сравнению с Eagle3 и на 16,3%–18,4% по сравнению с DFlash.

По сравнению с базовым однотокенным производством предыдущего поколения (MTP-1), при сохранении той же общей пропускной способности DSpark повысил скорость генерации для пользователей на 60%–85% (модель Flash) и 57%–78% (модель Pro).

Вместе с DSpark также был открыт исходный код DeepSpec — это полноценный стек кодовой базы для обучения и оценки черновых моделей спекулятивного декодирования. Это «открытая инфраструктура», на которой реализованы данное решение и другие передовые алгоритмы, включая инструменты подготовки данных, реализацию черновой модели, код обучения и скрипты оценки.

DeepSpec разбивает общий процесс на три этапа: подготовка данных, обучение и оценка. Эти этапы необходимо выполнять последовательно, выходные данные предыдущего этапа служат входными для последующего.

На этапе подготовки данных необходимо загрузить данные промптов, повторно сгенерировать ответы с помощью движка вывода для целевой модели и построить целевой кеш (target cache). Примечательно, что для конфигурации по умолчанию, например, Qwen/Qwen3-4B, объем целевого кеша может достигать около 38 ТБ, поэтому перед использованием необходимо тщательно оценить ресурсы хранения.

Этап обучения можно запустить с помощью bash scripts/train/train.sh. Этот скрипт вызовет train.py и запустит worker для каждого видимого GPU. Пользователи могут выбрать различные конфигурации алгоритмов и целевых моделей в каталоге config/, указав config_path. Проект также поддерживает изменение настроек обучения путем переопределения config_path, target_cache_dir, а также использования --opts для изменения отдельных полей конфигурации.

Что касается аппаратного обеспечения, конфигурация и скрипты DeepSpec по умолчанию ориентированы на среду с одним узлом и 8 GPU. Если количество GPU меньше, пользователям необходимо соответственно уменьшить количество видимых GPU в CUDA_VISIBLE_DEVICES.

Этап оценки запускается с помощью bash scripts/eval/eval.sh. Скрипт оценки будет использовать контрольную точку обученной черновой модели для измерения процента принятия на нескольких задачах бенчмарка спекулятивного декодирования. В проекте в настоящее время перечислены наборы данных для оценки: GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca и Arena-Hard-v2, охватывающие различные типы задач, такие как математические рассуждения, генерация кода, диалоговые способности и комплексные вопросы и ответы.

Что касается алгоритмов, DeepSpec в настоящее время включает три черновые модели: DSpark, DFlash и Eagle3. Что касается семейств целевых моделей, проект в настоящее время поддерживает Qwen3 и Gemma.

Открытие исходного кода DeepSpec объединило практики спекулятивного декодирования, ранее разрозненные внутри различных исследовательских групп, в стандартизированный, воспроизводимый и расширяемый инструментарий. Для исследователей и инженеров, желающих ускорить вывод собственных больших моделей, это означает, что они могут напрямую обучать пользовательские черновые модели на зрелой платформе, пропуская множество повторяющихся работ по созданию базовой инфраструктуры.

Ссылки для справки:

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpec

Эта статья из официального аккаунта WeChat «Машинный разум» (ID:almosthuman2014), авторы: Цзэнань, Ян Вэнь

Связанные с этим вопросы

QЧто такое DSpark и какова его основная цель?

ADSpark — это фреймворк для спекулятивного декодирования (speculative decoding), представленный DeepSeek для ускорения логического вывода больших языковых моделей (LLM). Его основная цель — решить проблемы задержки и пропускной способности в производственных средах, особенно в сценариях с высокой параллельной нагрузкой, сочетая высокопроизводительную «параллельную генерацию» с адаптивной «верификацией с учетом нагрузки».

QКакие ключевые инновации предлагает DSpark по сравнению с предыдущими подходами к спекулятивному декодированию?

ADSpark вводит две ключевые инновации: 1) Архитектуру полуавторегрессионной генерации (Semi-Autoregressive Generation), которая моделирует зависимости между токенами внутри блока для улучшения коэффициента принятия. 2) Аппаратно-ориентированную верификацию с планированием по уверенности (Confidence-Scheduled Verification), где «голова уверенности» оценивает вероятность выживания каждого токена, позволяя системе динамически оптимизировать длину верификации в зависимости от нагрузки и эффективно распределять вычислительные ресурсы.

QНасколько DSpark ускорил генерацию в моделях DeepSeek-V4 Flash и Pro?

AПо сравнению с базовым уровнем однотокенной генерации (MTP-1), DSpark повысил скорость генерации для пользователей на 60%-85% в модели Flash и на 57%-78% в модели Pro при сохранении одинаковой общей пропускной способности.

QЧто такое DeepSpec и какова его роль в экосистеме?

ADeepSpec — это полный стековый фреймворк с открытым исходным кодом для обучения и оценки моделей-черновиков (draft models) в спекулятивном декодировании. Он служит «инфраструктурой с открытым исходным кодом», которая объединяет инструменты подготовки данных, реализации моделей-черновиков, код обучения и скрипты оценки, позволяя исследователям и инженерам воспроизводить и расширять передовые методы ускорения логического вывода LLM.

QКакие алгоритмы и целевые модели в настоящее время поддерживает DeepSpec?

ADeepSpec в настоящее время поддерживает три алгоритма для моделей-черновиков: DSpark, DFlash и Eagle3. Что касается целевых моделей (target models), фреймворк поддерживает серии Qwen3 и Gemma.

Похожее

Эфириум упал на 45% с начала года – так почему же SharpLink и киты продолжают покупать?

Несмотря на падение Ethereum (ETH) на 20-45% с начала года, интерес крупных игроков сохраняется. SharpLink возобновил покупки после восьмимесячной паузы, приобретя 5000 ETH на сумму около $7,88 млн. Вскоре после этого казначейство добавило еще 26,324 тыс. LSETH на $45,54 млн, доведя общие активы до 876 285 ETH. Такое накопление, несмотря на нереализованные убытки, указывает на уверенность в долгосрочной полезности Ethereum и доходах от стейкинга. Крупные инвесторы (киты) также увеличивают свое присутствие, накапливая ETH, что говорит о стратегии, ориентированной на будущий рост, а не на краткосрочные колебания. Однако переводы активов BlackRock на Coinbase, вероятно, связаны с операционными нуждами ETF, а не с прямой продажей. Восстановлению ETH мешают оттоки из спотовых ETF, которые зафиксировали чистый вывод средств на $12,85 млн 26 июня. Это создает расхождение: прямые покупки казначейств идут вопреки общей слабости ETF-сегмента. Тем не менее, значительные остатки средств у эмитентов ETF ($8,38 млрд) и высокий дневной объем торгов ($491,73 млн) показывают, что институциональные инвесторы корректируют позиции, а не уходят с рынка полностью. Для устойчивого восстановления Ethereum необходимы более сильные притоки в ETF, чтобы компенсировать текущий отток.

ambcrypto1 ч. назад

Эфириум упал на 45% с начала года – так почему же SharpLink и киты продолжают покупать?

ambcrypto1 ч. назад

Сможет ли Aavenomics 3.0 поддержать восстановительный рост AAVE на фоне переговоров о выкупе Kraken?

Генеральный директор Aave Labs Стани Кулечов опроверг слухи о возможном выкупе доли в протоколе криптобиржей Kraken, отметив, что компания не будет продавать токены AAVE с дисконтом в 70%. Он также анонсировал планы по запуску Aavenomics 3.0, который включит новый механизм автоматического выкупа токенов. На фоне этой новости цена токена AAVE выросла на 12%, продолжив июньский восстановительный ралли, которое составило более 50% (до $88), несмотря на то, что токен все еще значительно ниже своего исторического максимума. Росту способствовало снижение продажного давления на рынке. Ранее цена падала из-за конфликтов в управлении и макроэкономических факторов. Вопрос о том, сможет ли Aavenomics 3.0 поддержать текущее восстановление, остается открытым.

ambcrypto3 ч. назад

Сможет ли Aavenomics 3.0 поддержать восстановительный рост AAVE на фоне переговоров о выкупе Kraken?

ambcrypto3 ч. назад

Оказывается, вот так гений Карпати использует Claude?

Андрей Карпати, известный специалист в области ИИ, после перехода в Anthropic стал менее активен в открытых сообществах. В сети появился файл CLAUDE.md, который, как утверждается, является его личной инструкцией для работы с ИИ-ассистентом Claude при программировании. Хотя подлинность документа не подтверждена, его содержание точно отражает принципы Карпати. Основные правила из файла: 1. **Сначала изучите код**: Прежде чем писать новый код, внимательно прочитайте существующую кодобазу, чтобы соблюдать её стиль и использовать имеющиеся инструменты. 2. **Продумайте решение заранее**: Чётко формулируйте предположения, обсуждайте компромиссы и варианты реализации, не угадывайте требования. 3. **Будьте проще**: Избегайте преждевременных абстракций, избыточной обработки ошибок и ненужной настройки. Пишите минимальный код, решающий конкретную задачу. 4. **Вносите точечные изменения**: Не меняйте код, не связанный с задачей, строго соблюдайте стиль проекта, не рефакторите «заодно». 5. **Проверяйте код**: Пишите тесты для воспроизведения ошибок, проверяйте их до и после изменений, тестируйте поведение, а не реализацию. 6. **Действуйте целенаправленно**: Чётко определяйте критерии успеха, составляйте план для сложных задач. 7. **Отлаживайте системно**: Внимательно читайте сообщения об ошибках, воспроизводите проблему, вносите изменения пошагово, ищите первопричину. 8. **Осмотрительно добавляйте зависимости**: Используйте стандартные библиотеки и существующие в проекте инструменты, оценивайте необходимость, размер и поддержку новых пакетов. 9. **Эффективно коммуницируйте**: Объясняйте свои действия и причины, указывайте на потенциальные проблемы, точно выражайте неуверенность, пишите информативные сообщения о коммитах. Также перечислены типичные ошибки: массовый рефакторинг, ошибочные абстракции, скрытые архитектурные решения, игнорирование нестандартных сценариев, иллюзия знаний и отклонение от стиля проекта. Сообщество отмечает, что эти принципы, основанные на идеях Карпати (например, проект «andrej-karpathy-skills» на GitHub), значительно повышают качество кода, генерируемого ИИ. Ключ — адаптировать правила под свой стек и стиль, а не слепо копировать.

marsbit4 ч. назад

Оказывается, вот так гений Карпати использует Claude?

marsbit4 ч. назад

Исследование BIT: Халвинг 2028 года — не конец, настоящая перестройка в майнинге биткоина только начинается

Текущая биткоин-индустрия переживает наиболее сложную структурную перестройку с момента создания протокола. Несмотря на то, что цена биткоина сохраняется на уровне около 61 000 долларов, а общая хешрейт сети приближается к 1 ZH/s, находясь вблизи исторических максимумов, рентабельность майнеров продолжает ухудшаться. Различные показатели, включая производственные затраты, доход от комиссий, расширение вычислительных мощностей и отраслевой бюджет безопасности, свидетельствуют о том, что майнинг сейчас работает на грани безубыточности, а халвинг 2028 года может ускорить отраслевую консолидацию. Основная проблема заключается не только в снижении вознаграждения за блок из-за халвинга, но и в незавершённом переходе к модели доходов, основанной на комиссиях. В то же время всё больше майнинговых компаний трансформируются из простых производителей биткоинов в операторов инфраструктуры, энергооператоров и провайдеров вычислительных мощностей для ИИ и высокопроизводительных вычислений. Конкуренция в отрасли смещается от наращивания хешрейта к модернизации бизнес-моделей. Данные показывают, что при цене биткоина около 61 000 долларов теоретический ежедневный доход майнеров должен составлять около 78 миллионов долларов, в то время как фактический доход составляет лишь около 33 миллионов долларов. Ежедневный доход от комиссий составляет всего около 220 тысяч долларов. При этом общая точка безубыточности для отрасли оценивается примерно в 65 000 долларов. Ожидается, что после халвинга 2028 года нижняя граница себестоимости производства биткоина вырастет примерно до 93 289 долларов, что ускорит концентрацию отрасли в руках крупных, хорошо капитализированных компаний с диверсифицированными источниками дохода. В целом, биткоин-майнинг переживает глубокую трансформацию от «добывающего бизнеса» к «инфраструктурному бизнесу». В будущем отрасль будет всё больше зависеть от таких источников дохода, как управление энергией и хостинг вычислительных мощностей для ИИ. Для инвесторов ключевым вопросом является не сам халвинг, а то, какие компании смогут осуществить трансформацию бизнес-модели и создать устойчивое конкурентное преимущество в новых условиях.

marsbit4 ч. назад

Исследование BIT: Халвинг 2028 года — не конец, настоящая перестройка в майнинге биткоина только начинается

marsbit4 ч. назад

Jito достиг отметки в $1,75 млрд дохода, но что это значит для продолжения роста цены?

Протокол Jito достиг значительного рубежа в $1,75 млрд общей выручки, в основном (81%) за счет вознаграждений MEV, а остальное — от стейкинга. Это свидетельствует об устойчивой экономической активности в сети. Рост также отразился в увеличении количества активных адресов и скачке торгового объема на 90% до $102 млн за 24 часа, что указывает на расширение участия пользователей, а не на спекулятивный всплеск. Технический анализ показывает, что цена JTO преодолела модель «бычьего флага» на дневном графике и удерживает восходящий тренд с начала мая. Рост цены, по всей видимости, начинает отражать эти улучшающиеся фундаментальные показатели. Дальнейшее развитие ралли будет зависеть от продолжения расширения сетевой активности.

ambcrypto4 ч. назад

Jito достиг отметки в $1,75 млрд дохода, но что это значит для продолжения роста цены?

ambcrypto4 ч. назад

Торговля

Спот
活动图片