Ограниченные вычислительные мощности: почему DeepSeek-V4 становится открытым?

marsbit發佈於 2026-04-26更新於 2026-04-26

文章摘要

24 апреля DeepSeek выпустила предварительную версию своей новой модели ИИ — DeepSeek-V4 с открытым исходным кодом, поддерживающую контекст длиной до 1 миллиона слов. Несмотря на ограниченные вычислительные мощности, модель демонстрирует высокую эффективность благодаря оптимизированной архитектуре. Версия Pro с 1.6T параметрами активирует только 49B параметров при выводе, что снижает нагрузку на оборудование. Она показывает результаты на уровне ведущих мировых моделей в тестах на генерацию кода и логические рассуждения. Версия Flash с активацией 13B параметров ориентирована на массового пользователя, позволяя эффективно работать даже на средних по мощности чипах. Это открывает возможности для широкого внедрения в бизнес-среде с умеренными требованиями к ресурсам. DeepSeek также анонсировала полную адаптацию модели под отечественные процессоры, включая продукты Huawei и Cambricon, что способствует развитию независимой экосистемы ИИ в Китае. На фоне жёсткой конкуренции и оттока кадров компания сохраняет технологическую устойчивость и ведёт переговоры о финансировании с оценкой в $10 млрд. Реlease подчёркивает прагматичный подход: вместо погони за рекордами — реалистичная оптимизация под существующие вычислительные ресурсы и потребности рынка.

Автор | Технологии без холода

24 апреля на рынке больших моделей в Китае произошло важное событие. Официально выпущена предварительная версия DeepSeek-V4 с одновременным открытием исходного кода, что сделало обработку сверхдлинного контекста в 1 миллион слов стандартной конфигурацией официального сервиса.

Если бы это произошло год назад, такие возможности обработки длинных текстов были бы эксклюзивной привилегией зарубежных крупных компаний, скрытой за корпоративным платным доступом. Теперь же они выложены на стол сообщества открытого исходного кода, став инфраструктурой, доступной разработчикам в любое время. Для разработчиков, которые долгие часы работают с длинными базами кода или сложными юридическими контрактами, это, несомненно, хорошая новость.

Однако за этим распространением технологий в официальном сообщении содержится очень сдержанное признание: «Из-за ограничений высокопроизводительных вычислительных мощностей пропускная способность службы DeepSeek-V4-Pro в настоящее время весьма ограничена».

Для тех, кто привык видеть, как компании на презентациях хвастаются своими вычислительными ресурсами, такая прямота кажется необычно холодной.

Во второй половине гонки больших моделей в отрасли хорошо известно, у кого сколько высокопроизводительных аппаратных ресурсов. Вместо поддержания видимости prosperity на уровне параметров, лучше прояснить текущую ситуацию в отрасли. Действия DeepSeek в данном случае фактически отказываются от одержимости pure benchmark-тестами и находят компромиссное решение,兼顾 (учитывающее) технологическое развитие и текущее состояние аппаратного обеспечения, между прорывом в ключевых алгоритмах, еще формирующейся в Китае экосистемой гетерогенных вычислений и реальной бизнес-средой предприятий.

Индустрия ИИ Китая сбрасывает раннюю одежду слепого сжигания денег и вступает в крайне реалистичную эру «бухгалтерской книги вычислительных мощностей».

Как выравнивается счет за вычисления Pro-версии?

Конкретно рассмотрим V4-Pro с явно ограниченной пропускной способностью. Как флагман в системе, V4-Pro обладает общим объемом параметров до 1.6T, но при выводе активирует только 49B параметров. Этот предельно разреженный дизайн — не просто модель для витрины; под строгими испытаниями реального производства его технологический фундамент обладает极强的 обороноспособностью.

Способность справляться со сложным кодом и логическими рассуждениями является пробным камнем для проверки того, может ли большая модель真正 войти в ключевые производственные звенья. В среде оценки Agentic Coding (код интеллектуального агента) практические показатели V4-Pro稳稳 находятся в первом эшелоне текущих открытых моделей.

DeepSeek уже интегрировал его в свой внутренний конвейер кода, сделав его инструментом productivity, от которого сильно зависят инженеры первой линии. Отзывы разработчиков показывают, что опыт генерации и исправления кода превосходит Sonnet 4.5, а в сценариях, не требующих глубоких размышлений, приближается к Opus 4.6, хотя до режима размышлений Opus 4.6 все еще есть差距 (разрыв).

За этими практическими показателями стоит极致 (предельное)挖掘 (извлечение) алгоритмической глубины исследовательской группой. В оценке мировых знаний, проверяющей качество очистки данных предварительного обучения и плотность знаний, V4-Pro опережает большинство существующих открытых моделей, в настоящее время лишь немного уступая ведущей закрытой модели Gemini-Pro-3.1. Что касается математики, STEM (наука, технология, инженерия, математика) и соревновательных оценок кода, он получил право соревноваться наравне с ведущими мировыми закрытыми крупными компаниями.

Очевидно, что такая боеспособность достигнута не просто за счет накопления вычислительных карт. Китайские команды понимают, что реально соревноваться запасами высококлассных графических карт нереально. То, что V4-Pro может обрабатывать сверхбольшой контекст в 1M при ограниченной видеопамяти, поддерживается глубокой реструктуризацией механизма внимания, проведенной研发 (R&D) командой. Они реализовали全新的 (совершенно новую) схему сжатия внимания, проводя高强度 (высокоинтенсивное) сжатие на уровне token в сочетании с их фирменной технологией разреженного внимания DSA (DeepSeek Sparse Attention).

Этот оригинальный технологический маршрут в сочетании с впервые引入 (введенными) алгоритмами скользящего окна и сжатия KV Cache эффективно контролирует вычислительные затраты и占用 (занятие) памяти, вызванные обработкой длинных последовательностей. Чтобы разработчики действительно могли использовать его возможности в бизнесе,研发 (R&D) команда специально провела底层 (низкоуровневую) адаптацию для основных инструментов Agent, таких как Claude Code и OpenClaw.

В технической документации даже прямо указано, что разработчики при обработке сложных задач могут напрямую включить режим размышлений, установив параметр reasoning_effort в max. Такая системная инженерная оптимизация при ограниченных вычислительных ресурсах как раз доказывает отрасли, что даже при ограниченных высокопроизводительных мощностях локальные команды все еще могут расширять границы производительности модели за счет原生 (нативной) архитектурной разработки.

Кого задержал объем активации в 13B?

Те, кто盯 (уставился) на узкое место пропускной способности Pro-версии, часто упускают из виду коммерческую опорную точку, скрытую DeepSeek behind the scenes — Flash-версию. В отрасли есть голоса, считающие это merely продуктом компромисса из-за нехватки вычислительной мощности, но такое мнение явно недооценивает долгосрочные соображения управленческой команды. Это тщательно просчитанный по затратам прагматичный ход для захвата позиций в下沉жной (нисходящей) экосистеме.

Согласно公开 (открытой) информации о адаптации кода, общий объем параметров Flash-версии сохраняется на уровне 284B, но ее объем активированных параметров точно зафиксирован на 13B.

13B — в контексте, где коллеги пытаются pushed параметры к триллионным масштабам, не выглядит примечательным. Но это как раз и отражает экономическую логику архитектуры смешанных экспертов (MoE) в коммерческом внедрении: общие параметры определяют широту знаний модели, а активированные параметры напрямую определяют затраты на электроэнергию и пропускную способность памяти, которые сервер должен支出 (оплачивать) при каждом вызове интерфейса.

Удержание объема активации на уровне 13B напрямую отделяет большую модель от дорогостоящих顶级 (топовых) интеллектуальных вычислительных центров. Ее требования к видеопамяти одной карты и пиковой вычислительной мощности очень сдержаны. Практические тесты показывают, что Flash-версия при обработке massive, высокочастотных простых повседневных задач сохраняет стабильную скорость отклика и точность, базовая универсальная способность к рассуждению не показала явного спада. Для малых и средних разработчиков и long-tail предприятий, которым необходимо обрабатывать тысячи вызовов API daily, это действительно доступный и работающий инструмент productivity по доступной цене.

Более глубокая отраслевая логика заключается в том, что основные отечественные чипы для гетерогенных вычислений все еще находятся на стадии догоняющего развития по абсолютной производительности одной карты. Вычислительные системы, несущие полную активацию,极易 (очень легко) сталкиваются со стеной памяти, приводя к низкой эффективности работы; но面对 (столкнувшись) с Flash-версией с объемом активации всего 13B, эти чипы могут работать плавно при средней и низкой мощности.

Этот шаг DeepSeek оживляет大量 (большое количество) простаивающих ресурсов средних и низких вычислительных мощностей в стране, предоставляя отечественным чипам, остро нуждающимся в сценариях внедрения, высокосовместимый испытательный полигон. Эта логика строительства инфраструктуры с downward包容 (нисходящей包容чивостью) гораздо больше соответствует current商业 (текущей коммерческой) реальности, чем просто поднятие позиций в различных тестовых рейтингах.

Справляются ли отечественные чипы?

Вызвавшей широкое обсуждение в отрасли此次 (этой) презентации является нанесенный ею ярлык全栈 (полного стека) отечественного внедрения. В течение долгого времени между алгоритмическими компаниями и производителями отечественных чипов существовал определенный разрыв: производители моделей опасались, что несовершенство аппаратной экосистемы замедлит研发 (R&D) прогресс, а производители чипов испытывали недостаток в передовых больших моделях для глубокой настройки. На этот раз тупик был substantially打破 (разрушен).

Huawei Computing быстро выступила с заявлением, подтвердив, что вся серия продуктов Ascend Super Node полностью поддерживает новую модель. С технической точки зрения, базовые чипы Ascend依靠 (полагаясь) на технологию融合 (слияния) kernel и многопоточного并行 (параллелизма), эффективно снижают вычислительные затраты системы, thereby стабилизируя производительность вывода в сценариях с длинным текстом. Cambricon также быстро завершила адаптацию Day 0 и открыла исходный код底层 (низкоуровневого) кода, Hygon DCU одновременно объявила о замыкании цикла.

Но нам нужно развеять表象 (видимость) prosperity экосистемы и审视 (внимательно изучить) реальное сопротивление, с которым сталкивается сшивка программного и аппаратного обеспечения в машинном зале. Взять, к примеру, чипы серии Ascend 950. Согласно отраслевой информации, этот чип обладает 112GB собственной HBM, пропускной способностью 1.4TB/秒 (в секунду) и энергопотреблением одной карты达 (достигающим) 600瓦 (ватт). При определенной точности вывода (например, FP4) его вычислительная мощность на одной карте уже демонстрирует extremely сильные данные, достигая 2.87 раза от показателей NVIDIA H20. Однако в более требовательных диапазонах общей точности обучения FP16 или FP32, производительный разрыв между отечественным hardware и NVIDIA все еще существует.

Кроме того, так называемая «адаптация Day 0» все еще需要跨越 (должна преодолеть) скрытые成本 (издержки), вызванные непрозрачностью цепочки поставок, для безотказной работы корпоративного бизнеса. Стандарты высокоскоростного соединения hardware Super Node крайне закрыты, поток ключевых компонентов resembles информационному черному ящику. Такой барьер на этапе закупок, несомненно, усложняет масштабное развертывание и обслуживание вычислительных систем.

В то же время, в настоящее время эта система сильно зависит от крупных оптовых заказов极少数 (очень немногих) крупных отечественных учреждений. Нехватка заказов с海外 (зарубежных) рынков означает, что эта битва за прорыв в вычислительной мощности может вестись только во внутреннем循环 (цикле). Такая единственная коммерческая闭环 (замкнутая система) делает urgent необходимость закалки эффективности работы всей системы软硬协同 (совместной работы программного и аппаратного обеспечения) в более разнообразной коммерческой среде.

Напряженный рост производства высокопроизводительных вычислительных мощностей напрямую привел к тому, что DeepSeek в своем сообщении坦白 (откровенно) признал: для значительного снижения цены на Pro-версию仍需等待 (все еще необходимо дождаться) массового выхода Super Node во второй половине года. Большие модели и отечественные чипы действительно завершили preliminary физическое сцепление, но при технологическом разрыве и ограничениях цепочки поставок, эта поза бега с травмами как раз и является самым реальным срезом выживания экосистемы отечественных вычислений.

Продолжит ли технология работать после ухода людей?

Возвращаясь к реальной商业 (коммерческой) конкуренции, появление DeepSeek-V4 является极其 (чрезвычайно) точной стратегической обороной. В течение последних полугода эта компания始终 находилась (всегда находилась) в состоянии высокого давления. Сегмент C-end превратился в красный океан, ведущие компании используют massive (огромные) средства для密集 (плотного) размещения. Данные QuestMobile показывают четкую конкурентную ситуацию: по состоянию на март 2026 года, месячная активность Doubao достигла 345 миллионов, Qianwen — 166 миллионов, а DeepSeek с 127 миллионами удерживает свою основную долю рынка.

Внешняя конкуренция за трафик fierce, внутренний технологический штаб также сталкивается с испытанием текучести. Конкуренция за переманивание в отрасли白热化 (накалилась до предела), ключевые сотрудники нескольких бизнес-направлений接连 (один за другим) уходят. Согласно公开 (открытым) резюме и отраслевой информации, основной автор языковой модели первого поколения подтвердил присоединение к Tencent, ключевой участник V3 перешел в Xiaomi, ключевой исследователь R1 поступил на работу в ByteDance, ключевые силы в multimodal направлении также подтвердили свое новое направление. По отраслевым слухам, ключевой автор направления OCR Вэй Хаоран также уволился.

Изменения в составе ключевых研发 (R&D) сотрудников неизбежно вызовут пристальное审视 (внимание) к их研发 (R&D) потенциалу: пострадает ли инновационная способность底层 (низкоуровневой) архитектуры этой компании,立足 (стоящей) на технологиях?

В этот момент выпуск предварительной версии V4 стал самым прямым ответом. Он подтвердил рынку, что компания создала системный研发 (R&D) конвейер, способный противостоять рискам. Даже перед лицом调整 (корректировок) кадровой структуры, логика其技术演进 (ее технологического развития) все еще может работать точно. Эта организационная resilience, построенная на основе инженерной системы, быстро получила положительную обратную связь на资本市场 (рынке капитала).

Недавно стало известно, что DeepSeek ищет финансирование с оценкой не ниже 100 миллиардов долларов, планируя привлечь средства для пополнения резервов. Согласно отраслевым СМИ, со ссылкой на источники, близкие к сделке, ходят слухи, что ожидается взнос от ведущего интернет-гиганта, который может поднять оценку в этом раунде. Если эта сделка最终 состоится (в конечном итоге состоится), она перепишет рекорды оценки на внутреннем треке больших моделей, превзойдя предыдущие показатели Moon's Dark Side. В关键期 (ключевой период) переговоров по финансированию, представить百万 (миллионный) контекст и实质性 (существенные) результаты全栈 (полной) отечественной адаптации — это理性 (рациональный) ход руководства для стабилизации общей стратегической ситуации и回应 (ответа) на внешние сомнения.

В заключение

В коммерческом контексте технологий с частой сменой концепций команды, желающие专注于 (сконцентрироваться на) создании底层 (низкоуровневой) инфраструктуры,始终稀缺 (всегда稀缺ны). Выпуск DeepSeek-V4 устанавливает прагматичный и холодный тон для竞争 (соревнования) во второй половине гонки больших моделей.

Столкнувшись с узким местом вычислительной мощности, они не выбрали приукрашивание, а бросили реальную ситуацию спроса и предложения на отечественное high-end hardware рынку; Столкнувшись с потребностями в downward (нисходящем) внедрении, они использовали Flash-версию с объемом активации 13B, чтобы предоставить пространство для выживания отечественным вычислительным чипам, находящимся на стадии догоняющего развития; Столкнувшись с внешней блокировкой трафика и конкуренцией за таланты, они конкретными возможностями обработки длинных текстов дали ответ на отраслевом уровне.

Цитируемые官方 (официально) в день выпуска слова Сюнь-цзы极具深意 (чрезвычайно глубоки): «Не соблазняться славой, не бояться клеветы, следовать пути и правильно выпрямлять себя».

Модель можно открыть, но вычислительная мощность не будет бесплатной. То, что представил DeepSeek на этот раз, — это не более сильная модель, а решение о том, как перераспределяются возможности после того, как вычислительная мощность стала ограничением. В реальности, где вычислительная мощность все еще неидеальна, это, возможно, и есть направление evolution,更接近 (более близкое) к сути отрасли.

你可能也喜歡

吉尔吉斯斯坦Web3深度研报：中亚Web3战略枢纽的崛起

2026年4月18日，吉尔吉斯斯坦总统扎帕罗夫在首都比什凯克与波场TRON创始人、火币HTX全球顾问孙宇晨举行正式会谈，双方围绕波场TRON基础设施在吉尔吉斯斯坦的落地应用、国家稳定币KGST生态扩展以及AI与区块链技术深度融合等议题展开战略对话。这是继2025年该国任命币安创始人赵长鹏（CZ）为国家区块链与Web3战略顾问之后，在Web3领域推进国际化合作的又一重大动作。吉尔吉斯斯坦的战略目标，是将自身打造成为中亚地区虚拟资产和Web3技术的区域中心。早在2022年，该国便在中亚率先建立了全面的虚拟资产法律框架；2025年通过《虚拟资产法》修订案，构建起包含稳定币监管、RWA代币合法化、国家加密储备、监管沙盒等在内的系统性监管体系。Chainalysis数据显示，吉尔吉斯斯坦的加密货币采用率位居全球第19位，在中亚地区处于领先地位。对于Web3产业而言，吉尔吉斯斯坦不仅是一个新的市场，更是其布局中亚、服务"一带一路"数字经济走廊的战略支点。主权AI联合研发、数字银行服务建设、水电驱动数据中心等提案，覆盖了从AI到金融基础设施的完整链条，彰显了双方合作的系统性战略眼光。

火币成长学院04/30 08:07

火币成长学院04/30 08:07

算力即抵押品：解析 USD.AI 的链上信贷模式

凭借"算力即抵押品"的创新模式，USD.AI 直击 AI 基础设施融资的核心痛点：为运营商提供高效的链上信贷，同时为 DeFi 资本打开参与真实 AI 增长收益的窗口。

HTX News04/29 09:00

HTX News04/29 09:00

OpenGradient（OPG）：构建可验证AI推理的链上基础设施

OpenGradient（OPG）定位于去中心化 AI 推理基础设施网络，核心目标是将 AI 推理结果转化为可验证、可审计的链上数据，使智能合约能够直接、安全地调用 AI 能力，从而解决 AI 结果在链上“可信使用”的关键问题。

HTX News04/29 08:52

HTX News04/29 08:52

被卡住的Polymarket：走过流量红利的真正大考来了

Polymarket作为预测市场龙头近期面临交易体验明显下降的问题，包括价格延迟、订单无法提交和交易确认缓慢等。其DeFi工程副总裁Josh Stevens承认，增长已超出基础设施承载能力，并宣布将进行“链迁移”（chain migration），同时重建核心订单簿系统（CLOB）、降低数据延迟、修复交易问题、提升网站性能，并计划推出永续合约（Perps）。 Polymarket早期选择Polygon链是因成本低且轻量，但随着用户交易行为变得高频，Polygon逐渐成为增长瓶颈。此次换链不仅是底层公链的变更，更是整套交易系统的升级，旨在适应更接近交易所的运营需求。多个公链（如Solana、Sui等）已向Polymarket抛出橄榄枝，强调其高性能和低费用优势。而Polygon作为当前主要链，面临重要生态应用流失的风险，正积极合作解决痛点。 Polymarket的真正考验在于：从验证需求阶段转向规模运营后，必须证明其系统能稳定承接高频交易，确保用户留存和持续交易信心。

Odaily星球日报04/27 03:19