Автор: @KSimback
Перевод: AididiaoJP
Гипотетический сценарий: Что произойдет, если передовые модели окажутся под запретом?
Представьте октябрь 2026 года, всего через четыре месяца от сегодняшнего дня. Только что выпущен GLM-6, превзошедший в основных бенчмарках Fable-5.1 (кастрированная перевыпущенная версия запрещенной модели) и сравнявшийся с Mythos. Правительство США не может его напрямую отключить, поэтому издает ряд запретов: запрещает любому провайдеру предоставлять модель GLM-6, ее обновления, сервисы вывода, управление развертыванием или техническую поддержку на территории США или гражданам США.
Amazon Bedrock, Google Vertex, Microsoft Azure быстро заявляют о соблюдении и отказываются размещать модель для корпоративных клиентов. Основные агрегаторные платформы, такие как OpenRouter, Vercel, Cloudflare, TogetherAI, также соглашаются не размещать ее. GitHub очищает все связанные следы на своей платформе. Hugging Face как последний стойкий защитник в итоге также удаляет все связанные с GLM-6 модели для загрузки.
Хотя этот сценарий — не тот идеальный исход, которого мы желаем, в мире, где модели ИИ прогрессируют экспоненциально, а политическое регулирование ползет черепашьими шагами, такой исход полностью вероятен.
Именно этот результат, или другая ситуация, где передовой ИИ остается монополией небольшого числа централизованных субъектов, и является фундаментальной причиной, почему децентрализованный ИИ так важен.
Эта статья является продолжением предыдущего вводного руководства автора «Proof of Useful Work», используя тот же прагматичный подход, фокусируясь на другом ключевом аспекте crypto-ИИ (частично пересекающемся). Автор подробно разбирает проблемы, которые должен решить децентрализованный ИИ, проекты, за которыми он следит, структуру due diligence, а также личные выводы после глубокого исследования.
Почему децентрализованный вывод неизбежен?
Следуя из вышеописанного сценария, вы, вероятно, уже подумали о децентрализованном выводе. Если нет, продолжим рассуждения.
Как только веса модели GLM-6 будут выпущены, копии мгновенно распространятся по интернету — ни один запрет или мера не смогут уничтожить уже существующие тысячи копий. Эти копии будут обслуживаться в децентрализованных сетях вывода, потому что там нет центрального авторитета, который мог бы принять меры, и нет такого узла, отключение которого парализовало бы всю сеть.
Хочу сразу прояснить: я не спорю, хорошо это или плохо. Если новая модель с открытыми весами, выпущенная в будущем, может нанести серьезный ущерб из-за злоупотреблений, я ни в коем случае не буду советовать просто сидеть сложа руки. Я хочу подчеркнуть: модель в конечном итоге будет получена теми, кто не хочет подвергаться цензуре, и это неизбежно.
В этом и заключается основная предпосылка децентрализованного вывода — это хеджирование против цензуры, будь то от правительства или передовых лабораторий. Другие преимущества, такие как более дешевые токены, верифицируемый вывод, конфиденциальность и т.д., вторичны. Единственная ключевая ставка: снижение риска цензуры.
Децентрализованный вывод действительно сложен: перед ним стоят четыре основные проблемы
Для большинства стартапов решение одной-двух сложных проблем уже является огромным вызовом. А проекты децентрализованного вывода должны одновременно решить четыре по-настоящему трудные задачи. То, как каждый проект подходит к этим проблемам, и является ключом к отделению сути от пены, альфы от шума.
Проблема 1: Запуск модели, которая не помещается на одной машине
Основная идея — создать кластер (рой) GPU, использующий pipeline parallelism для обслуживания моделей, которые действительно нужны пользователям. Проще говоря, каждый узел хранит лишь небольшой срез весов модели и свою часть KV-cache, достаточно маленький, чтобы поместиться в потребительские видеокарты уровня 3090/4090 или даже в более продвинутые H100. Объединив достаточно узлов, можно разместить крупную модель вроде GLM.
Petals еще в 2022 году доказали жизнеспособность этого подхода на BLOOM-176B, используя рой в стиле BitTorrent на потребительских GPU, но скорость тогда составляла лишь около 1 токена в секунду. Очевидно, это было совершенно неприемлемо, поэтому дальнейшие инновации были сосредоточены на том, как сделать модели быстрее.
По-настоящему критическим узким местом является сеть. Внутри дата-центра GPU общаются через NVLink на скоростях терабайт в секунду; а в публичном интернете задержка (RTT) достигает десятков миллисекунд. Процесс декодирования последовательный, и наивный рой платит сетевую задержку за каждый сгенерированный токен.
Наиболее распространенное решение — спекулятивное декодирование (speculative decoding): небольшая и дешевая draft-модель сначала предлагает K кандидатных токенов, а большая сегментированная (sharded) модель проверяет эти K токенов за один проход по конвейеру, сохраняя самую длинную совпадающую последовательность. Таким образом, один дорогой сетевой проход приносит несколько токенов, а не один.
В настоящее время уже достигнуты уровни около 30-40 токенов в секунду на реальных интернет-каналах, что является значительным прогрессом, но в масштабе и на скоростях, действительно необходимых пользователям, это еще не до конца подтверждено. Это проблема, требующая по-настоящему глубокой инженерной экспертизы.
Внимание: Обслуживание вывода — это не только FLOPs
Частая ловушка при сравнении любого роевого метода с облачными моделями: люди смотрят только на токены в секунду, думая, что это всё.
Но вывод в промышленном масштабе должен хорошо справляться со многими задачами, не связанными с чистой вычислительной мощностью:
- Баланс между временем до первого токена (TTFT) и задержкой между токенами
- Две фазы: префилл (prefill) и декодирование (decode) (у них совершенно противоположные требования к железу)
- Размещение и передача KV-cache
- Потоковая передача, непрерывное батчирование (continuous batching) и утилизация при смешанной нагрузке
- Работа с длинным контекстом, холодный старт и прогрев модели
- Нестабильность узлов (churn)
Пункт due diligence: когда проект приводит цифры пропускной способности, обязательно спросите, с чем он конкурирует. Централизованные развертывания vLLM или SGLang (с разделенным префиллом и непрерывным батчированием) — это реальный бенчмарк, и он становится быстрее каждый квартал. «Мы достигаем 30 токенов в секунду в интернете» звучит впечатляюще, но все еще может быть недостаточно конкурентоспособным.
Проблема 2: Доказать, что вы действительно получили ту модель, за которую заплатили
Если вы не доверяете узлу, как узнать, что он действительно запустил заявленную модель, а не подменил ее на более дешевую квантованную версию? Особенно в сетях с майнинговыми токенами провайдерам легко «играть», притворяясь, что они обслуживают настоящую модель, а на деле запуская что-то более дешевое.
В настоящее время существует пять основных подходов:
- ZKML: Нулевое разглашение (ZKP) для прямого прохода (forward pass). Криптографически безупречно, но накладные расходы примерно в 10000 раз выше. Для модели Llama-3 генерация одного токена занимает около 150 секунд. Для масштабов передовых моделей в краткосрочной перспективе это нереально.
- opML: Выход сопровождается залогом, открывается окно для вызовов (challenge), спор сводится к одному шагу с помощью fraud-proof, и арбитр перезапускает вычисление. Близко к нативной скорости, но финальность требует ожидания окна, и существует «дилемма верификатора» (если стоимость проверки выше ценности поимки мошенника, никто не будет проверять).
- Детерминированное повторное выполнение (Deterministic re-execution): Добиться байтовой воспроизводимости (reproducibility) вывода, так что споры сводятся к проверке равенства байтов. Накладные расходы менее 2%, гарантия через рестейкинг ETH.
- Статистические отпечатки (Statistical fingerprints): Дешевое хеширование или сэмплирование вычислений, ловит большинство мошенничества в большинстве случаев. Не абсолютно правильно, но быстро и подходит для гетерогенных GPU, что нужно для permissionless роя.
- Доказательства живых весов (Live-weight proofs): Прямое сэмплирование тензоров, реально находящихся в памяти во время работы сервиса, и сравнение с манифестом утвержденной модели. Проверяется «что загружено», а не «что выведено», накладные расходы около 0,1%. Это действительно другой подход.
Реальная дилемма: вы можете получить одновременно только два из трех — криптографическую целостность, низкую задержку, экономическую эффективность. ZKML обеспечивает целостность, но жертвует задержкой и стоимостью; другие методы обеспечивают задержку и стоимость, но могут гарантировать только экономическую или статистическую целостность.
Пункт due diligence: Уточните, какой метод использует проект, почему, и как этот компромисс влияет на конечный продукт.
Проблема 3: Как сделать промпт действительно конфиденциальным?
Доказательство корректности вывода и скрытие ввода — совершенно разные задачи. В сегментированном рое (sharded swarm) каждый узел должен расшифровать активации (activations), чтобы выполнить вычисления — шифрование защищает канал передачи, но не сам узел.
Активации трансформера на самом деле легко восстановить. Исследование CCS 2025 показало точность восстановления исходного промпта из промежуточных активаций свыше 90%. Исследование «Hidden No More» (ICML 2025) достигло почти идеального восстановления и обошло защиту noise-and-permutation, часто используемую в роях.
На данный момент единственным надежным решением является более тяжелая схема sequence-sharded, которую еще никто в лагере consumer-GPU по-настоящему не реализовал, поэтому это все еще во многом нерешенная проблема.
Рой может заявлять, что «ни один узел не хранит всю модель», но при этом раскрывать каждый промпт любому узлу на пути. «Ни один узел не хранит модель» никогда не было свойством конфиденциальности.
По-настоящему обеспечить конфиденциальность могут аппаратные или математические методы, а не сетевая топология. TEE (Trusted Execution Environments) — такие как решение Phala для GPU, Darkbloom для Apple silicon, режим Pro от Venice — переносят доверие на аппаратный корень и используют аттестацию (attestation).
Пункт due diligence: У проекта либо есть одна из таких схем, либо конфиденциальности нет, независимо от того, что написано на целевой странице.
Важное напоминание: Private (приватный) не равно trustless (бездоверительный). TEE не устраняет доверие, а лишь переносит его с оператора узла на производителя оборудования, цепочку прошивок, сервисы аттестации и реализацию анклава.
Настоящий вопрос: кому вы готовы доверять как корню доверия? Производителю чипов? Набору валидаторов с рестейкингом? Сети TEE? Или чистой математике?
Проблема 4: Как построить настоящий двусторонний рынок?
Первые три — технические проблемы, четвертая — бизнесовая.
Для децентрализованных сетей вывода, обслуживающих модели с открытыми весами, кто является идеальным клиентом (ICP)?
Большинство обычных потребителей сейчас получают огромную ценность от подписочных планов — за 20-200 долларов в месяц они получают доступ к большому количеству интеллекта. В будущем эти субсидированные планы могут исчезнуть или стать лимитированными, но сегодня продавать API-инференс по запросу потребителям очень сложно.
Корпорации также не станут крупными покупателями в краткосрочной перспективе. Возможно, это изменится в будущем, но не стоит на это рассчитывать в ближайшее время.
Остаются по сути два типа пользователей: 1) стартапы и компании, внедряющие инференс в свои продуктовые стеки, которым по своей природе нужны API-планы; 2) автономные AI-агенты, ищущие собственные возможности для вывода.
Категория стартапов — это растущий рынок, ниша, где можно получить значительный доход, но в краткосрочной перспективе имеет очевидный потолок для захвата стоимости. Покупки со стороны AI-агентов более спекулятивны — в краткосрочной перспективе за них все равно должен кто-то платить.
Вот в чем проблема: как агрегировать значимое предложение моделей, которые действительно хотят люди, при том, что целевая группа пользователей, скорее всего, не будет крупными тратящими в сети?
Единственное на данный время работающее место — это децентрализованные провайдеры GPU. Такие проекты, как io.net, Akash, Render, Aethir, Nosana, годами занимались этим — они с помощью токенизированных рынков сдают в аренду целые GPU или всю емкость модели на узел платящим пользователям. Здесь есть прецедент.
Пункт due diligence: Уточните ICP проекта и то, как они планируют одновременно привлекать целевых пользователей и удовлетворять сторону предложения. Если все построено на спекулятивных ожиданиях роста токена — это явный сигнал.
Кто на самом деле решает эти проблемы? Обзор основных проектов
Сейчас существует множество проектов, которые относят к категории «децентрализованный вывод», но большинство из них не решают все четыре проблемы в равной степени, а фокусируются на разных аспектах.
Petals: Абсолютный пионер децентрализованного вывода. В 2022 году доказали, что BLOOM-176B может работать в стиле BitTorrent на потребительских GPU, что имеет огромное концептуальное значение, но не решает проблемы мотивации, конфиденциальности и монетизации. Проекты по сути «Архитектура Petals + токен», скорее всего, являются larp.
Dolphin Network: Команда, стоящая за серией нецензурированных моделей Dolphin (более 5 млн загрузок на Hugging Face). Началось с реального пользовательского спроса, затем была построена сеть. Техническая изюминка — доказательства живых весов (live-weight proofs) (0,1% накладных расходов) в сочетании с отпечатками logprob, проверками целостности ПО и bonding на уровне аккаунтов. Сгенерировано более 3,2 млрд токенов, устойчивая пропускная способность около 9400 т/с, это представитель подхода product-first с сильной исполнительской дисциплиной.
Inference.net (бывший Kuzco): Одна из самых зрелых попыток верификации моделей «в дикой природе». Уникальный механизм LOGIC основан на статистических тестах logprob для выявления подмены модели, работает в продакшене около 18 месяцев, флот насчитывает тысячи GPU, это один из немногих проектов, имеющих одновременно верификационные примитивы и реальную историю эксплуатации.
Morpheus: Децентрализованный слой маршрутизации и вознаграждений, предоставляет API, совместимый с OpenAI + обертку для умных агентов. Техническая изюминка — верификация провайдеров с поддержкой TEE (Intel TDX + NVIDIA GPU attestation уже запущены). Следует следить за эмиссией MOR и доказательствами реального внешнего спроса.
Chutes (подсеть 64 Bittensor): Со стороны пользователя — API, совместимый с OpenAI, на бэкенде — упакованные в Docker chute, развертываемые на GPU-майнерах Bittensor. Очевидные преимущества в дистрибуции и масштабе, но все еще есть пробелы в верификации и конфиденциальности.
c0mpute: Новый нативный проект на Solana, Shard Engine разделяет передовые модели на потребительские GPU. Уже есть публичные демо с реальными GLM-5.2 744B и gpt-oss-120B (30-40 т/с). Технические артефакты можно проверить, но проект находится на очень ранней стадии (репозиторий появился несколько дней назад, основатели анонимны, токен с микро-капитализацией на pump.fun).
Parallax (Gradient Network): P2P-распределенный фреймворк для вывода LLM, поддерживающий pipeline parallel шардинг на потребительских GPU и Apple Silicon, позволяя отдельным лицам или небольшим организациям запускать «суверенные кластеры». Сильные институциональные бэкинги (Pantera и Multicoin возглавили раунд на $10 млн), но схема конфиденциальности пока не ясна.
Darkbloom: Позволяет пользователям превращать простаивающие вычислительные мощности Mac в приватный рынок вывода. Каждый Mac запускает всю модель, конфиденциальность обеспечивается через аттестацию Secure Enclave. Не идет по пути sharded swarm, стек аттестации тщательно проработан. Перешел из исследовательского превью в открытый альфа-режим, стоит следить за реальным тракшеном (децентрализация не обязательно должна быть токенизирована).
MeshLLM: Permissionless P2P-сеть вывода (mesh), представленная Джеком Дорси и создаваемая связанной с Block командой. Обнаружение узлов на основе Nostr, без центральных серверов, больше похоже на BitTorrent, чем на Bittensor. Приоритет протокола, без токена, устойчивость к цензуре.
Venice и его экосистема реселлеров: Яркий пример поиска PMF и рабочей бизнес-модели во всей области. Сам по себе это централизованный, но с уровнями приватности, потребительский прокси, который уже эффективно решил часть проблем. Вокруг него сформировалась суб-экосистема реселлеров, таких как UsePod, AntSeed, Surplus Intelligence, которые в основном занимаются агрегацией спроса и расчетами, а не предоставлением децентрализованных мощностей напрямую.
Поля битвы децентрализованного вывода
Преимущество в стоимости существует только если рассматривать задержку и пропускную способность отдельно. Это два разных продукта, и децентрализация для одного — это налог, а для другого — особенность.
Сценарии, где централизация явно выигрывает (децентрализация — налог): ChatGPT-подобные интерактивные чаты, агенты для кодирования в реальном времени, голосовые интерфейсы с низкой задержкой, частые вызовы инструментов, строгие SLA на p95-задержку для предприятий, конкурентные сервисы вывода для передовых плотных моделей.
Сценарии, где децентрализация может выиграть (преимущество агрегации предложения): Генерация синтетических данных, офлайн-оценка, пакетное создание эмбеддингов, пакетный RAG, длительные исследовательские задачи агентов, очереди генерации изображений/видео, некритичный вывод на открытых моделях (предельная стоимость простаивающего оборудования близка к нулю).
Простая схема: когда важна задержка — децентрализация это налог; когда важна пропускная способность — децентрализация может стать преимуществом за счет агрегации предложения.
Скрытая долгосрочная ценность: Цикл данных
Децентрализованные сети вывода также могут собирать огромное количество ценных данных — синтетические тренировочные данные, данные о предпочтениях, траектории агентов, оценочные выводы, данные для дообучения, среды для RL, траектории использования инструментов и т.д. Эти данные могут питать децентрализованные тренировочные сети (такие как Nous Psyche, Prime Intellect, проекты в стиле Gensyn), порождая более новые модели с открытыми весами, которые затем возвращаются в сеть вывода.
В долгосрочной перспективе это не отдельная ставка на «децентрализованное обучение» или «децентрализованный вывод», а замкнутый цикл: вывод генерирует траектории → траектории становятся данными для обучения → обучение обновляет модель → обновленная модель возвращается в вывод.
Лучшие проекты будут рассматривать этот цикл как ключевую стратегию, и в будущем произойдет дальнейшее слияние проектов по обучению и выводу.
Практический чек-лист для due diligence: Просто ответьте на семь вопросов
- Является ли он действительно децентрализованным? Конкретно на каких уровнях? (Многие получают ярлык только из-за наличия токена)
- Можете ли вы доверять, что вывод получен от модели, за которую заплатили? (Детерминированность, доказательства, отпечатки или ничего)
- На самом ли деле он дешевле централизованного после вычета затрат на токены и координацию? (В продакшене, а не в теории)
- Действительно ли промпт скрыт от оператора? (Считаются только TEE/FHE, просто шардинг — нет)
- Остается ли система стабильной, когда узлы ненадежны и разбросаны по интернету?
- Есть ли кто-то, кто действительно платит, и за то, что нельзя купить у централизованного провайдера дешевле?
- Обладает ли команда реальными техническими компетенциями в области ИИ? (Самый важный пункт)
Дополнительный совет: Остерегайтесь «элегантных технических решений» без надежного плана дистрибуции.
Мой окончательный вывод
В целом, я скептически отношусь к категориям, которые привлекают исключительно криптоаборигенов (TAM, на мой взгляд, ограничен). Я бы хотел видеть больше проектов, привлекательных и для некрипто-пользователей, скрывающих крипто-механизмы на заднем плане.
Децентрализованный вывод — это одно из немногих направлений в крипто, которое действительно имеет потенциал для прорыва — вывод нужен всем, его можно предоставлять так же, как и традиционные провайдеры, даже через такие платформы, как OpenRouter, для бесшовного опыта. Ключ — в стоимости, производительности и конфиденциальности.
Рекомендация: Поддерживайте проекты, которые могут четко объяснить, какой уровень они децентрализуют и кто их покупатель. Избегайте проектов, которые просто используют «децентрализованный ИИ» как слоган, за которым следует монета.
Раскрытие информации: Автор оригинальной статьи владеет токенами некоторых упомянутых проектов, не подвергался влиянию со стороны проектов и не получал компенсации, все суждения являются личным мнением.








