DeepSeek переносит новую технологию на чипы Apple, ускоряя локальные большие модели на Mac на 60%

marsbitОпубликовано 2026-07-03Обновлено 2026-07-03

Введение

Технология DeepSeek DSpark, недавно представленная для серверных GPU, теперь адаптирована для чипов Apple Silicon в проекте mlx-dspark. Это первая нативная реализация, ускоряющая генерацию текста локальными большими языковыми моделями (LLM) на Mac. Инженер Abdur Rahim перенёс технологию "спекулятивного декодирования" (speculative decoding) в экосистему MLX. Этот метод использует небольшую "черновую" модель для быстрого создания нескольких кандидатов-токенов, которые затем проверяются основной целевой моделью. В результате модели Gemma-4 12B и Qwen3-4B на чипе M4 Pro показывают ускорение генерации примерно в 1.6 и 1.4 раза соответственно (до 30 и 73 токенов в секунду), сохраняя при этом точное соответствие выходным данным исходных моделей. Ключевые особенности реализации: * Поддержка как жадного декодирования, так и стохастической семплирующей генерации с температурой, что обеспечивает высокое качество и разнообразие вывода. * Использование 4-битной квантизации для черновой модели (размер ~1.8 ГБ) и 8-битной — для основной модели для оптимального баланса скорости и точности. * Интеграция альтернативного метода DFlash (от z-lab), который показывает ещё большее ускорение (до ~2.1x) на структурированных задачах, таких как генерация кода и математические вычисления, за счёт параллельного декодирования целых блоков токенов. Таким образом, mlx-dspark предоставляет гибкий инструмент для значительного ускорения работы LLM на устройствах Apple, поддерживая различные сценарии —...

Кресси, от имени "Оффнорной студии" Квантум Би | Официальный аккаунт QbitAI

DSpark, опубликованный всего неделю назад, уже перенесли на компьютеры Apple.

Перенесённая версия называется mlx-dspark, она запускает модели Gemma-4 12B и Qwen3-4B.

После установки скорость генерации этих двух моделей на Mac увеличилась в 1,6 и 1,4 раза соответственно.

Но самое сложное — это то, что она сделала то, что не удаётся большинству перенесённых версий — вывод в точности совпадает с исходной моделью байт в байт, ни на одну букву не отличается.

То есть, скорость увеличена, а качество нисколько не пострадало.

Создал это Абдур Рахим, инженер, в свободное время занимающийся открытыми проектами. Первая нативная версия для Mac, созданная с момента открытия исходного кода DSpark, — это его работа.

Запуск больших моделей на Mac: ускорение на 60%

Согласно официальным данным для DSpark, открытого DeepSeek 27 июня, ускорение в сценариях серверного применения составляет от 60% до 85%.

Однако на тот момент эта технология была реализована только для GPU в дата-центрах, версии для чипов Apple не было.

mlx-dspark является первой нативной версией этой технологии для чипов Apple.

Идея DSpark заключается в том, чтобы назначить меньшую модель в помощь целевой модели. Маленькая модель сначала выдаёт несколько кандидатных токенов, а целевая модель затем проверяет их все сразу, принимая правильные и отправляя неправильные на пересмотр.

Стоимость этого шага различна для дата-центра и компьютера Apple.

На GPU в дата-центре проверка партии кандидатов больше похожа на аренду автомобиля с водителем — фиксированная цена независимо от количества пассажиров. Декодирование и так является узким местом по памяти, проверка нескольких дополнительных токенов почти не занимает лишнего времени.

Чипы Apple больше похожи на такси со счётчиком — чем больше проверяешь кандидатов, тем больше «накручивает» счётчик.

Рахим провёл замеры: для Gemma-4 12B проверка каждого дополнительного токена занимает около 14 мс. Он рассчитал это в виде модели затрат и пришёл к выводу, что предельная скорость ускорения на чипах Apple составляет около 2,2 раза.

В общем, Рахим перенёс эту вспомогательную маленькую модель из чекпоинта HuggingFace и подключил её к целевым моделям Gemma-4 12B и Qwen3-4B.

Он также перестроил процесс проверки в рамках MLX, проведя квантизацию весов до 4 бит.

В результате, на M4 Pro, по сравнению с официальным инструментом Apple MLX, скорость генерации Gemma-4 12B увеличилась с 18,4 токенов/с до примерно 30 токенов/с, что примерно в 1,6 раза выше; Qwen3-4B — с 52,9 токенов/с до примерно 73 токенов/с, что примерно в 1,4 раза выше.

Кроме того, в mlx-dspark Рахим сделал то, чего не делается в большинстве работ по переносу.

Перенесённая версия также может достичь высокой точности воспроизведения

Большинство версий, переносящих большие модели на локальные устройства, поддерживают только жадное декодирование, то есть на каждом шаге выбирают токен с наивысшей вероятностью.

Рахим в mlx-dspark реализовал метод температурной выборки, изначально описанный в статье о DSpark: черновая модель выдаёт кандидатов, вероятность принятия — min(1, p/q), непрошедшие части заново семплируются из остатка.

Он сам проверил: вывод, полученный по этой схеме, строго соответствует точному распределению, которое выдала бы целевая модель при той же температуре, а не является упрощённой аппроксимацией.

Большинство вариантов спекулятивного декодирования реализуют только жадный режим, потому что проверить его корректность легко — достаточно побайтового сравнения.

Дополнительный шаг, который сделал Рахим, — это самостоятельная проверка распределения выходных данных, полученного в режиме выборки, и подтверждение отсутствия искажений.

Какая точность должна быть у целевой модели, отвечающей за проверку, — это ловушка, которую он обнаружил на собственном опыте.

Если маленькая модель подключена к базовой версии целевой модели, не прошедшей инструктивную тонкую настройку, только 47% выданных кандидатных токенов проходят проверку; при использовании соответствующей версии с инструктивной тонкой настройкой этот показатель возрастает до 82%.

Он также тестировал замену целевой модели на точность bf16: стоимость проверки росла быстрее, чем процент прохождения, что, наоборот, замедляло работу, поэтому для целевой модели оптимальнее всего оставить точность по умолчанию 8-bit.

Для маленькой модели, отвечающей за предварительный подбор кандидатов, используется другой уровень точности.

Сама черновая модель была им сжата — после квантизации до 4 бит она занимает всего 1,8 ГБ, без проблем помещается в память и работает без потерь.

В результате DSpark не только обеспечил ускорение, но и действительно воспроизвёл на устройстве упомянутое в статье увеличение процента принятия на 16%–18%.

DFlash также подключён, задачи по коду выполняются быстрее

После публикации твита в комментариях появилось сообщение от Цзянь Чэня, одного из авторов статьи о DFlash, который спросил, можно ли попробовать их модель.

DFlash — это другая схема спекулятивного декодирования, предложенная в статье лаборатории z-lab в мае этого года. Руководитель авторского коллектива — Чжицзянь Лю, доцент UCSD и одновременно научный сотрудник NVIDIA.

Подход DFlash отличается от DSpark. Он использует однократное параллельное «блочное диффузионное» устранение шума для целого блока из 16 токенов, а не предсказывает пошагово, как DSpark, с учётом зависимостей.

Рахим быстро взялся за дело.

Используя скрипт переноса, написанный самим Цзянем, он подключил gemma4-12B-it-DFlash, выпущенную z-lab, к целевой модели Gemma-4 в mlx-vlm и на том же Mac провёл прямое сравнение с только что протестированным DSpark.

На задачах по коду и математике эффективная длина принятия при блочном декодировании DFlash достигала 5,95–6,20, скорость — около 36 токенов/с, ускорение примерно в 2,1 раза, что превзошло DSpark.

Однако DFlash за один раз генерирует целый блок из 16 токенов, но целевая модель может принять не все, фактически проверку проходит только часть из них. В отрасли это называется «эффективная длина принятия» — блок не всегда заполняется полностью.

Поэтому в таких сценариях, как открытый чат, где содержание трудно предсказать, эффективная длина принятия невысока, блок не заполняется, и преимущество DFlash не раскрывается.

Марковский выход DSpark как раз существует для решения этой же проблемы: при параллельной генерации целого блока токенов, чем дальше позиция, тем более независимыми становятся вычисления, и они могут плохо сочетаться друг с другом. Марковский выход добавляет между этими позициями слой зависимостей, специально корректируя эту проблему.

В результате, в сценариях чата DSpark, наоборот, оказался быстрее DFlash.

В более позднем обновлении mlx-dspark v0.0.3 официально подключили оригинальный DFlash от z-lab в пакет и добавили параметр, позволяющий вручную уменьшать эффективную длину блока для DFlash: в чатах использовать короткие блоки, а в сценариях работы с кодом и математикой — по-прежнему полные блоки по 16.

После этого на одном и том же Mac, с одним и тем же пакетом, можно одновременно выполнять задачи как чата, так и работы с кодом и математикой, не переключаясь между проектами DSpark и DFlash.

Рахим написал в твите, что тот же метод, вероятно, будет работать и с более крупными черновыми моделями Qwen3-8B и 14B.

Ссылки:[1]https://x.com/_ARahim_/status/2072021710602432577[2]https://github.com/ARahim3/mlx-dspark

Статья из официального аккаунта WeChat «Квантум Би», автор: Гуаньчжу Цяньянь Кэцзи (Следим за передовыми технологиями)

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Связанные с этим вопросы

QЧто такое mlx-dspark и какова его основная цель?

Amlx-dspark — это первый нативный порт технологии DSpark от DeepSeek для чипов Apple (MLX-фреймворк). Его основная цель — ускорение работы больших языковых моделей (LLM) на Mac, достигая повышения скорости генерации текста на 40-60% для моделей, таких как Gemma-4 12B и Qwen3-4B.

QКакой метод используется в DSpark для ускорения генерации текста?

ADSpark использует метод спекулятивного декодирования (Speculative Decoding). Меньшая «черновая» модель (draft model) генерирует несколько кандидатных токенов за один раз, а основная «целевая» модель (target model) затем проверяет их все сразу, принимая верные и отклоняя неверные для повторной генерации.

QЧем отличается подход DFlash от DSpark в контексте спекулятивного декодирования?

ADFlash использует параллельную «блочную диффузию» для денойзинга целого блока из 16 токенов сразу, что эффективно для предсказуемых задач (код, математика). DSpark же генерирует кандидатные токены последовательно с зависимостями (Markov head), что лучше подходит для непредсказуемых диалогов.

QКакие результаты по ускорению были достигнуты на Mac с чипом M4 Pro с помощью mlx-dspark?

AНа Mac с чипом M4 Pro скорость генерации для модели Gemma-4 12B увеличилась с 18.4 до ~30 токенов в секунду (в ~1.6 раза), а для Qwen3-4B — с 52.9 до ~73 токенов в секунду (в ~1.4 раза).

QКакое ключевое преимущество mlx-dspark по сравнению со многими другими портами моделей?

AКлючевое преимущество mlx-dspark — сохранение точного, побитово идентичного вывода (output) по сравнению с исходной моделью, включая поддержку температурной выборки (temperature sampling), а не только жадного декодирования. Это означает, что ускорение не достигается за счёт снижения качества текста.

Похожее

Правила для криптовалюты — «не услуга», заявляет SEC, но закон CLARITY всё ещё ждёт

Председатель SEC Пол Эткинс заявил, что создание чётких правил для крипторынка — это не «одолжение» индустрии, а необходимое условие для её функционирования. Несмотря на то, что SEC предпринимает шаги по модернизации регулирования и выпускает разъяснения по классификации активов и ETF, эти меры основаны на интерпретациях сотрудников и могут быть оспорены в суде. Окончательную ясность может внести только принятие закона о структуре крипторынка, CLARITY Act. Однако, хотя законопроект преодолел ключевой комитет, голосование в Сенате ещё не назначено. На фоне действующего регуляторного пакета MiCA в ЕС, лоббистские группы в США призывают ускорить процесс, предупреждая, что задержки ведут к оттоку инноваций за рубеж.

ambcrypto18 мин. назад

Правила для криптовалюты — «не услуга», заявляет SEC, но закон CLARITY всё ещё ждёт

ambcrypto18 мин. назад

На рынке криптовалют сгущаются «медвежьи» тучи: истекли опционы на Bitcoin и Ethereum на сумму 2,13 млрд долларов

На рынке криптовалют 3 июля наступил ключевой момент, когда истек срок действия опционов на биткоин и эфир на общую сумму 2,13 миллиарда долларов. Истекло 31 000 опционов на биткоин (номинальная стоимость ~1,9 млрд долларов) с коэффициентом пут/колл 0,70 и точкой максимальной боли в 61 000 долларов. Одновременно истекло 135 000 опционов на эфир (~230 млн долларов) с коэффициентом пут/колл 1,29 и максимальной болью на уровне 1 650 долларов. Высокий коэффициент пут/колл для эфира (1,29) указывает на преобладание опционов на продажу (пут), что свидетельствует об осторожных настроениях инвесторов и хеджировании против падения. Позиции сконцентрированы вокруг ключевых уровней гамма-экспозиции: 60 000 долларов для биткоина и 1 700 долларов для эфира. Хотя биткоин сумел вернуться выше психологически важной отметки в 60 000 долларов, общий рыночный настрой остается смешанным. Аналитики обсуждают, является ли недавнее восстановление началом устойчивого роста или частью более широкого нисходящего тренда. На рынок также влияют макротренды, включая интерес к рынку акций, связанных с искусственным интеллектом, и токенизированным американским акциям. Данные об истечении опционов показывают, что трейдеры сохраняют осторожность в начале третьего квартала, готовясь к повышенной волатильности, а не к решительному бычьему прорыву. На момент публикации BTC торгуется около 61 932 долларов, а ETH — в районе 1 738 долларов.

TheNewsCrypto43 мин. назад

На рынке криптовалют сгущаются «медвежьи» тучи: истекли опционы на Bitcoin и Ethereum на сумму 2,13 млрд долларов

TheNewsCrypto43 мин. назад

Острый комментарий｜Почему известный «Tech Lead» распродал биткойн? Встречайте «Маленького гения инвестиций»!

Обзор недели в мире криптовалют: технический руководитель из Google и Meta, Патрик Шу, в видео признался, что из-за чрезмерного использования кредитного плеча понес огромные убытки при падении биткойна с 120 до 60 тысяч долларов и был вынужден продать все свои активы. Он отметил, что торговля часто движется вниманием, а не фундаментальными показателями, и указал на риски, включая концентрацию контроля над кодом и конкуренцию со стороны ИИ. В то же время в Reddit набрал популярность мем с Майклом Сэйлором, высмеивающий разницу в подходах к инвестициям. Кроме того, Белый дом опубликовал финансовый отчет Дональда Трампа, согласно которому он заработал 1,4 миллиарда долларов на криптовалютах за год, в то время как выпущенные им «Трамп-токены» упали на 97%, что привело к большим потерям инвесторов. Неделя показала контрасты между личными провалами, иронией сообщества и крупными заработками влиятельных лиц на волатильном рынке.

Foresight News1 ч. назад

Острый комментарий｜Почему известный «Tech Lead» распродал биткойн? Встречайте «Маленького гения инвестиций»!

Foresight News1 ч. назад

От SpaceX до торговых счетов: как токенизация меняет то, как мир переводит деньги

Разве вам не было бы неприятно, если бы сообщение в WhatsApp приходило через два дня, потому что его сначала нужно было проверить, завизировать и согласовать в трех разных инстанциях? Мы ожидаем, что общение происходит в режиме реального времени. Так почему же у нас нет таких же ожиданий от финансовых рынков? В наше время обмен одной акции на другую по-прежнему означает продажу, ожидание расчета и только затем повторную покупку. Однако токенизированные акции могут изменить эту ситуацию. Токенизированные акции — это акции, существующие в блокчейне. Та же компания, та же стоимость, те же права, что и у любой акции, купленной через брокера. Меняется то, как они перемещаются: их можно торговать в любое время, рассчитывать за секунды, дробить на более мелкие части для доступности и переводить через границы без многочисленных посредников. Тенденция к токенизации вышла на первый план после исторического IPO SpaceX. Платформы на базе блокчейна начали предлагать токенизированные активы SpaceX, Nvidia, Google и других крупных компаний. NASDAQ также подал заявку в SEC на разрешение торговли токенизированными ценными бумагами. Хотя акции доминируют в повестке, токенизация набирает обороты и в других классах активов: частный кредит, недвижимость, товары и структурированный долг. Вместе они представляют сотни триллионов долларов глобальной стоимости. Для масштабирования регулируемой токенизации требуются предсказуемые комиссии, детерминированное исполнение сделок и инфраструктура банковского уровня. Сеть XDC Network, например, уже обработала более 1,1 млрд долларов в токенизированных требованиях, частных кредитах и товарах. По прогнозам BCG и Ripple, рынок токенизированных активов может достичь 18,9 трлн долларов к 2033 году. Регуляторная среда также развивается: Бразилия, Сингапур, Великобритания и ЕУ создали правовые основы для токенизированных финансовых инструментов. IPO SpaceX стало ярким примером для токенизации, но инфраструктура для ее масштабирования создавалась годами в тех сегментах рынка, которые оставались вне заголовков. Именно на этой основе будет строиться следующее десятилетие финансов.

ambcrypto1 ч. назад

От SpaceX до торговых счетов: как токенизация меняет то, как мир переводит деньги

ambcrypto1 ч. назад

Перевод 500 BTC майнером Riot вызвал опасения по поводу распродажи – Возможна коррекция, ЕСЛИ…

По данным Arkham, майнинговая компания Riot Platforms перевела 500 BTC (около $30,7 млн) в хранилище NYDIG Custody. Это вызвало слухи о возможной распродаже, однако сам факт перевода не доказывает продажи. Решающим сигналом станет лишь последующий перевод этих средств на биржу или OTC-площадку. В противном случае это может быть частью стандартного управления казначейством. Данные BitcoinTreasuries.NET показывают, что резервы BTC у Riot сократились с 19 368 BTC в конце 2025 года до 15 680 BTC к настоящему моменту после продаж в январе и апреле 2026 года. Аналогичное сокращение резервов наблюдается и у других крупных майнеров, таких как Hut 8, Mara Holdings и Core Scientific, что отражает меняющуюся динамику в отрасли. Напряженность в майнинговом секторе обусловлена сочетанием факторов: падение цены Bitcoin с более $120 000 до около $65 000 к февралю 2026 года, сохраняющаяся высокая хешрейт и растущая сложность добычи. Это привело к снижению прибыльности, вынудив неэффективных майнеров отключать оборудование. Сетевая хешрейт снизилась с пикового значения более 1,08 ZH/s до примерно 930–950 EH/s. В этих условиях финансово устойчивые компании, такие как Riot, вынуждены более активно управлять своими биткойн-резервами, а не просто накапливать их. Таким образом, перевод 500 BTC Riot Platforms соответствует общей отраслевой тенденции адаптации к сложной экономической ситуации.

ambcrypto2 ч. назад

Перевод 500 BTC майнером Riot вызвал опасения по поводу распродажи – Возможна коррекция, ЕСЛИ…

ambcrypto2 ч. назад

Торговля

Спот

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на ONE (ONE) представлены ниже.