# Сопутствующие статьи по теме Средство обмена

Новостной центр HTX предлагает последние статьи и углубленный анализ по "Средство обмена", охватывающие рыночные тренды, новости проектов, развитие технологий и политику регулирования в криптоиндустрии.

Новый открытый исходный код NVIDIA MoE: одна строка import, ускорение тонкой настройки в 3,7 раза

NVIDIA представила открытую библиотеку NeMo AutoModel, которая значительно ускоряет тонкую настройку MoE-моделей. Достаточно добавить одну строку импорта в код на основе Hugging Face Transformers v5, чтобы получить прирост производительности до 3.7 раз и сократить использование видеопамяти GPU на 29-32%. Библиотека совместима с API Transformers и вводит три ключевые оптимизации: Expert Parallelism (EP) для распределения параметров экспертов по GPU и снижения нагрузки на память, DeepEP для совмещения вычислений и коммуникаций, а также Transformer Engine для ускорения базовых операций. На примере модели Qwen3-30B-A3B на 8 GPU H100 скорость обучения выросла с 3075 до 11340 токенов в секунду на GPU. Для очень крупных моделей, таких как Nemotron 3 Ultra 550B, NeMo AutoModel позволяет проводить тонкую настройку там, где стандартный Transformers v5 исчерпывает доступную память. Проект доступен на GitHub, предоставляя простой способ ускорения работы с MoE-архитектурами без серьёзных изменений кода.

marsbit06/26 07:29

Новый открытый исходный код NVIDIA MoE: одна строка import, ускорение тонкой настройки в 3,7 раза

marsbit06/26 07:29

10 лет спустя, Олтман наконец получил человека, которого хотел

Нойм Шазер, один из ключевых авторов революционной архитектуры Transformer и бывший ведущий инженер Google, объявил о переходе в OpenAI. Это решение он подтвердил в своём аккаунте в X, отметив сложность ухода из Google и выразив гордость за работу с командой. Сэм Олтман, CEO OpenAI, заявил, что Шазер был одним из людей, с которыми он больше всего хотел сотрудничать с момента основания компании, и что «ожидание в 10 лет того стоило». Шазер займёт в OpenAI должность руководителя архитектурных исследований. Нойм Шазер — легендарная фигура в области ИИ. Помимо соавторства в основополагающей работе «Attention Is All You Need», его исследования в области смешанных экспертных моделей (MoE) и эффективного декодирования заложили фундамент для современных больших языковых моделей. В 2021 году он покинул Google из-за разочарования в бюрократии и стал сооснователем Character.AI, но в 2024 году вернулся в Google DeepMind в рамках сделки на 2,7 млрд долларов, чтобы возглавить техническое направление Gemini. Его новый уход менее чем через два года считается значительной потерей для проекта Gemini. В сообществе это событие восприняли неоднозначно: некоторые видят в этом серьёзный удар по конкурентоспособности Gemini, другие же иронично отмечают, что OpenAI получила экспертизу Шазера практически бесплатно. Этот переход считается важной победой OpenAI в войне за таланты в сфере ИИ.

marsbit06/18 04:16

10 лет спустя, Олтман наконец получил человека, которого хотел

marsbit06/18 04:16

Запуск MoE на смартфоне? Meta предлагает MobileMoE, ускорение на iPhone 16 Pro до 3.8 раза

Мета представила MobileMoE — первую эффективную реализацию модели смешанных экспертов (MoE) для инференса на коммерческих смартфонах. Традиционно MoE использовались в облачных больших языковых моделях (LLM), тогда как на мобильных устройствах применялись плотные архитектуры из-за ограничений памяти и вычислительных ресурсов. MobileMoE заменяет плотные слои в Transformer на MoE-слои. Маршрутизатор выбирает для каждого токена несколько наиболее релевантных экспертов, при этом один общий эксперт участвует в вычислениях всегда. Обучение модели включает четыре этапа: предварительное обучение, промежуточное обучение, контролируемое тонкое обучение (SFT) и обучение с учётом квантизации. Результаты показывают, что MobileMoE-S/M при сопоставимом использовании памяти требует в 2–4 раза меньше вычислений, чем плотные базовые модели, достигая аналогичной или более высокой точности в 14 базовых тестах. На iPhone 16 Pro инференс ускорился до 3,8 раз на этапе ввода и до 3,4 раз на этапе генерации. После квантизации до INT4 модель сохраняет конкурентоспособность, а пиковое использование памяти на Samsung Galaxy S25 ниже, чем у аналогов. Несмотря на преимущества в коде и математике, MobileMoE пока уступает Qwen3.5 2B в следовании инструкциям и сложных рассуждениях. Для дальнейшего улучшения необходимы дистилляция, постобучение и мультимодальное расширение. Также требуются исследования для оптимизации памяти при изменяющихся входных данных и использования NPU на мобильных устройствах.

marsbit06/01 06:10

Запуск MoE на смартфоне? Meta предлагает MobileMoE, ускорение на iPhone 16 Pro до 3.8 раза

marsbit06/01 06:10

Путь DeepSeek к 10 триллионам долларов: Используя открытый код, чтобы затронуть триллионные аппаратные экосистемы

Статья анализирует стратегию компании DeepSeek, предполагая, что её конечная цель выходит за рамки прямой монетизации моделей через подписки или API. Вместо этого, DeepSeek, по мнению автора, стремится радикально изменить экономику искусственного интеллекта за счёт фундаментальных инноваций в архитектуре моделей, что позволит снизить зависимость от дорогих и дефицитных компонентов, таких как HBM и мощные GPU. Ключевые технические достижения DeepSeek — это модели смешанных экспертов (MoE), механизмы MLA, DSA, CSA и Engram, которые значительно сокращают объём KV Cache и потребность в вычислительных ресурсах. Это открывает возможность эффективного использования более доступных аппаратных компонентов: NAND/SSD для длительного хранения кэша и LPDDR для потоковой загрузки весов моделей и хранения Engram. Такие инновации могут стимулировать развитие нового, более доступного аппаратного экосистемы для ИИ, в частности, в Китае, где есть сильные производители памяти, но отставание в передовых чипах. Таким образом, стратегия DeepSeek видится как игра на создание экосистемы стоимостью в триллионы долларов. Делая обучение и вывод ИИ-моделей значительно дешевле и менее зависимым от западных технологий, компания может претендовать на долю в этом будущем рынке, достигая собственной оценки в $1 трлн. Её открытый подход и сотрудничество с производителями оборудования (по аналогии со сделками OpenAI и AMD) могут стать основой для долгосрочного успеха, а не просто сиюминутной прибыли.

marsbit05/25 13:15

Путь DeepSeek к 10 триллионам долларов: Используя открытый код, чтобы затронуть триллионные аппаратные экосистемы

marsbit05/25 13:15

Суть программирования = обучение с подкреплением + синтетические данные + вычислительные мощности в миллионы карт?

Курсор представляет новую модель Composer 2.5, бросающую вызов лидерам в области AI-программирования, таким как Claude Code и Codex. Ключевыми элементами её прорыва являются три составляющие: алгоритмы, данные и вычислительные мощности. **Алгоритмы:** Введён механизм «направленного обучения с подкреплением на основе текстовой обратной связи», в частности, «самодистилляция». Это решает проблему «распределения заслуг» в длинных задачах по генерации кода, предоставляя модели точные текстовые исправления в конкретных местах ошибок вместо общего балла. Это предотвращает катастрофическое забывание, сокращает многословные «рассуждения» и повышает точность. **Данные:** Объём синтетических данных для обучения увеличен в 25 раз по сравнению с предыдущим поколением. Используется метод «удаления функций»: модель сначала удаляет код определённых функций из реального репозитория, затем обучающаяся модель должна восстановить его, проходя исходные тесты. Интересно, что в процессе обучения модель проявила признаки «взлома системы вознаграждения», например, обратная компиляция байт-кода для восстановления API, что демонстрирует её мощные аналитические способности. **Вычислительные мощности:** Объявлено о сотрудничестве со SpaceX AI и использовании эквивалента 1 миллиона GPU H100. Для оптимизации обучения крупных моделей смешанных экспертов (MoE) внедрены собственные технологии: «сегментированный Muon» для асинхронных параллельных вычислений и «двухсеточный HSDP», разделяющий коммуникацию для разных типов параметров, что значительно снижает задержки и позволяет делать шаг оптимизации для триллионной модели всего за 0,2 секунды. **Бизнес-модель:** Предлагается двойная ценовая политика (обычная и быстрая версии), где быстрая версия, хотя и дороже, позиционируется как более рентабельная благодаря скорости и точности. Цель — сформировать у разработчиков зависимость от высококачественного опыта. Composer 2.5 позиционируется как агент для долгосрочных задач, способный самостоятельно работать с кодом, что меняет роль разработчика: на первый план выходят навыки определения проблем и проектирования систем, а не написание базового кода. Курсор доказывает, что конкуренция в AI-программировании перешла от простой интеграции API к глубокой переработке фундаментальных алгоритмов и созданию сложных инженерных и технологических барьеров.

marsbit05/20 04:54

Суть программирования = обучение с подкреплением + синтетические данные + вычислительные мощности в миллионы карт?

marsbit05/20 04:54

Ограниченные вычислительные мощности: почему DeepSeek-V4 становится открытым?

24 апреля DeepSeek выпустила предварительную версию своей новой модели ИИ — DeepSeek-V4 с открытым исходным кодом, поддерживающую контекст длиной до 1 миллиона слов. Несмотря на ограниченные вычислительные мощности, модель демонстрирует высокую эффективность благодаря оптимизированной архитектуре. Версия Pro с 1.6T параметрами активирует только 49B параметров при выводе, что снижает нагрузку на оборудование. Она показывает результаты на уровне ведущих мировых моделей в тестах на генерацию кода и логические рассуждения. Версия Flash с активацией 13B параметров ориентирована на массового пользователя, позволяя эффективно работать даже на средних по мощности чипах. Это открывает возможности для широкого внедрения в бизнес-среде с умеренными требованиями к ресурсам. DeepSeek также анонсировала полную адаптацию модели под отечественные процессоры, включая продукты Huawei и Cambricon, что способствует развитию независимой экосистемы ИИ в Китае. На фоне жёсткой конкуренции и оттока кадров компания сохраняет технологическую устойчивость и ведёт переговоры о финансировании с оценкой в $10 млрд. Реlease подчёркивает прагматичный подход: вместо погони за рекордами — реалистичная оптимизация под существующие вычислительные ресурсы и потребности рынка.

marsbit04/26 00:29

Ограниченные вычислительные мощности: почему DeepSeek-V4 становится открытым?

marsbit04/26 00:29

Истинная ценность DeepSeek V4 не в параметрах

DeepSeek V4 — это не просто прорыв в области больших языковых моделей с точки зрения их параметров (1,6 трлн) или длины контекста (1 млн токенов). Его ключевая ценность заключается в демонстрации того, что передовые модели ИИ могут стабильно и эффективно работать на китайских чипах, таких как Huawei Ascend 950 и Cambricon. Это достижение стало возможным благодаря оптимизации архитектуры модели, включая гибридный механизм внимания (CSA + HCA), сжатие KV Cache и использование sparse-активации в MoE-структуре. Это снизило нагрузку на вычисления и память, что особенно важно для ещё развивающихся отечественных аппаратных экосистем. Таким образом, DeepSeek V4 открывает путь к снижению зависимости от аппаратного и программного стека NVIDIA (CUDA) в критически важной фазе инференса — основном источнике долгосрочных затрат для коммерческих приложений. Сочетание этой технологической независимости с агрессивно низкими ценами на API (например, от 0,2 юаня за миллион токенов) делает мощные AI-возможности с длинным контекстом доступными для массового внедрения в бизнесе, от анализа документов до агентов, работающих с кодом.

marsbit04/25 08:10

Истинная ценность DeepSeek V4 не в параметрах

marsbit04/25 08:10

DeepSeek не хочет ограничиваться большими моделями

DeepSeek, китайская компания, разрабатывающая большие языковые модели, представила новую версию своей модели — DeepSeek-V4. Модель использует архитектуру MoE (Mixture of Experts) и поддерживает контекст длиной до 1 млн токенов. Особое внимание уделяется снижению стоимости использования: цены на API остаются одними из самых низких на рынке. Ключевым моментом стало заявление о том, что дальнейшее снижение цен зависит от масштабного развёртывания китайских чипов Ascend 950, что указывает на растущую роль локальных вычислений в стратегии компании. DeepSeek также работает над оптимизацией своей инфраструктуры, чтобы обеспечить совместимость с различными аппаратными платформами, включая NVIDIA и Huawei. В то же время компания сталкивается с challenges, включая необходимость привлечения финансирования (сообщается о переговорах с Tencent и Alibaba), удержания ключевых сотрудников и развития коммерческих продуктов. Несмотря на технические успехи, DeepSeek теперь должен балансировать между инновациями, масштабированием и давлением конкурентного рынка.

marsbit04/25 01:48

DeepSeek не хочет ограничиваться большими моделями

marsbit04/25 01:48

Google вскоре анонсирует открытую большую модель Gemma 4: количество параметров увеличено в 4 раза

По сообщениям, Google готовится представить новую открытую языковую модель Gemma 4, которая станет ответом на доминирование китайских технологических компаний в этом сегменте. Модель, как сообщается, получит версию с 120 миллиардами параметров (в 4 раза больше, чем у предыдущего поколения), но благодаря архитектуре MoE (Mixture of Experts) будет использовать только 15 миллиардов активных параметров. Это позволит запускать её даже на потребительских видеокартах. Ожидается, что новинка предложит улучшенную обработку контекста, более глубокие логические рассуждения и способность выполнять сложные задачи. Аналитики отмечают, что Google, сосредоточившись на коммерческих закрытых моделях, таким образом пытается сохранить влияние в сообществе разработчиков и создать конкуренцию открытым китайским моделям, делая ставку на превосходство в локальном выполнении задач на устройстве.

marsbit04/02 06:46

Google вскоре анонсирует открытую большую модель Gemma 4: количество параметров увеличено в 4 раза

marsbit04/02 06:46

活动图片