# 交换媒介的所有文章

在 HTX 新闻中心浏览与「交换媒介」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策，提供权威的加密行业洞察。

英伟达MoE新开源：一行import，微调加速3.7倍

英伟达开源NeMo AutoModel，为MoE大模型微调提供高效方案。该工具基于Hugging Face Transformers v5开发，用户只需添加一行import代码，即可在不改动原有API的情况下，显著提升训练效率。实验显示，在单节点8×H100 GPU上，相比原版Transformers v5，NeMo AutoModel在Qwen3-30B-A3B等模型上可实现3.4-3.7倍的训练吞吐量提升，同时GPU显存占用减少29%-32%。其核心技术包括专家并行（EP），通过将专家权重分布到多GPU来降低内存压力；DeepEP，融合计算与通信以减少延迟；以及TransformerEngine，对注意力机制等核心运算进行内核加速。该方案尤其适合已使用Transformers v5的用户，能以最小代码变更获得性能大幅优化。代码与详细指南已在GitHub及英伟达文档中公开。

marsbit06/26 07:28

marsbit06/26 07:28

用了10年，奥特曼终于等到了他想要的人

AI传奇人物诺姆·沙泽尔离开谷歌，加入OpenAI。沙泽尔是Transformer架构的奠基人之一，其工作深刻塑造了现代AI。他曾于2021年离开谷歌创办Character.AI，后于2024年被谷歌以高额合作请回，负责核心的Gemini项目。如今转投OpenAI，被其CEO奥特曼称为“从创立之初就最想合作的人”，并表示“花了10年才等到”。OpenAI研究负责人也热烈欢迎沙泽尔担任架构研究负责人。此举被视为OpenAI在人才争夺战中的重要胜利，而谷歌Gemini项目则面临核心人才流失的打击。

marsbit06/18 04:15

marsbit06/18 04:15

手机上跑MoE？Meta提出MobileMoE，iPhone 16 Pro提速3.8倍

Meta团队提出MobileMoE，首次在商用智能手机上实现了高效的混合专家模型（MoE）推理。该模型面向端侧设计，采用MoE层替代传统稠密前馈层，通过路由机制为每个token选择少数专家进行计算，并包含共享专家。MobileMoE-S/M版本在内存相近的情况下，仅需稠密基线1/2到1/4的计算量，在14项基础评测中达到持平或更高的平均准确率，为端侧大语言模型建立了新的帕累托前沿。在iPhone 16 Pro的实测中，MobileMoE-S在输入阶段最高提速3.8倍，逐token生成阶段提速2.2-3.4倍，且峰值内存占用低于对比模型。量化至INT4后性能降幅较小，仍保持竞争力。研究同时探讨了专家数量、粒度及共享专家等架构选择，确定了E=8、g=8、带共享专家的优化配置。尽管MobileMoE在代码和数学任务上表现突出，但在高阶指令遵循与知识推理上仍落后于Qwen3.5 2B。未来需通过蒸馏、后训练及多模态扩展进一步提升，并探索NPU部署、动态路由等方向以优化端侧效率。

marsbit06/01 06:09

手机上跑MoE？Meta提出MobileMoE，iPhone 16 Pro提速3.8倍

marsbit06/01 06:09

DeepSeek的十万亿美元之路：用开源撬动万亿硬件生态

DeepSeek的长期战略并非通过应用层（如编程订阅）直接变现，而是致力于通过一系列底层架构创新，重塑AI训练与推理的成本结构，并推动一个规模达10万亿美元的新硬件生态形成。其技术创新始终围绕一个核心：在高端算力受限的背景下，如何用更少的资源跑出更强的模型。例如： 1. **压缩KV Cache**：通过MLA、DSA、CSA、HSA等机制，大幅减少长上下文所需的显存（HBM）。DeepSeek V4在100万上下文长度下仅需约5.5GB HBM，远低于其他主流模型，这使得将KV Cache卸载到SSD/NAND成为经济可行的方案，降低了对紧缺的HBM的依赖。 2. **以内存换计算**：其Engram模块利用LPDDR内存进行高效的O(1)知识查找，用更便宜的内存资源节省昂贵的计算开销。 3. **提升硬件兼容性与效率**：通过MoE架构、权重流式加载、TileLang编程语言等，旨在削弱对特定硬件（如CUDA生态）的依赖，让更多国产及全球的GPU、ASIC、存储和网络芯片能够高效运行AI负载。这些创新若扩散开来，将直接惠及长江存储（NAND/SSD）、长鑫存储（LPDDR）等国内存储厂商，并为众多AI芯片厂商创造机会。DeepSeek的盈利模式可能类似于OpenAI与AMD的合作，通过深度绑定并赋能整个硬件生态，以换取股权等长期回报，从而在推动一个巨大产业形成的同时，实现自身万亿美金估值的终极目标。

marsbit05/25 13:13

marsbit05/25 13:13

Coding的本质=强化学习+合成数据+万卡算力？

标题指出，AI编程（Coding）的本质可能在于强化学习、合成数据和海量算力的结合。文章以Cursor最新发布的Composer 2.5为例，阐述了AI编程工具如何通过这三方面实现突破。 **1. 强化学习：“自我蒸馏”解决信用分配难题** 传统强化学习在长代码生成任务中，只能给出最终对错的粗略评分，导致模型难以精准改进。Cursor引入“基于文本反馈的定向强化学习”和“自我蒸馏”技术：当模型在生成长代码出错时，让它查看正确答案（成为“教师模型”），然后指导未看答案的“学生模型”在具体出错的token上进行概率调整。这种方法使模型既能学会新技能（如调用复杂工具），又不遗忘原有编码能力，同时大幅减少无效的“废话”输出，实现高效精准的代码生成。 **2. 合成数据：用“破坏-重建”法创造训练数据** 为应对互联网数据枯竭，Cursor将合成数据规模扩大25倍。其采用“功能删除法”：先让AI删除真实代码库中的特定功能代码，但保证剩余部分可运行，再将这个不完整代码库交给模型，要求其恢复被删功能并通过原测试。在此过程中，模型甚至展现出“奖励破解”行为，例如通过逆向工程“偷取”被删函数签名或反编译字节码来完成任务，这侧面证明了其强大的问题解决能力。 **3. 底层基建：极致优化，压榨百万卡算力** Composer 2.5与SpaceXAI合作，接入了相当于100万块H100的庞大算力。同时，Cursor通过两项核心技术极致优化训练效率：一是“分片Muon”，将矩阵计算分片并行处理，并实现通信与计算重叠，避免GPU空闲等待；二是“双网格HSDP”，为混合专家（MoE）模型的不同权重类型设计两套物理隔离的通信网格，分别处理高频操作和分布式专家计算，最大化减少网络延迟。这使得万亿参数模型的优化器单步耗时仅约0.2秒。 **4. 商业影响：重塑开发者生态** Composer 2.5采用双轨定价（普通版与更快的Fast版），虽然后者价格更高，但声称总成本仍低于竞品同档方案，旨在培养用户对高性能AI编程的依赖。其定位是能处理长上下文、多文件编辑和复杂任务协作的智能体。这意味着未来AI编程竞争的核心将转向对问题的精准定义和系统拆解能力，可能冲击初级程序员角色，同时为高级开发者与架构师带来红利。总之，Cursor通过深度融合前沿算法、大规模合成数据和顶尖工程化能力，展示了AI编程工具不再仅是“套壳”，而是通过底层创新构建了坚固的竞争壁垒。

marsbit05/20 04:52

marsbit05/20 04:52

算力受限，DeepSeek-V4凭什么开源？

4月24日，DeepSeek-V4预览版正式开源，支持1M超长上下文处理，将原本属于海外大厂的高端能力推向开源社区。尽管官方坦言受高端算力限制，V4-Pro服务吞吐有限，但其通过算法优化和架构创新，在代码生成、逻辑推理等核心任务中表现突出。 V4-Pro采用稀疏化设计，总参数量达1.6T，推理时仅激活49B参数，显著降低计算开销。团队重构注意力机制，引入KV Cache滑窗和压缩算法，有效控制长序列处理资源消耗。在多项专业评测中，V4-Pro接近甚至超越部分国际顶尖模型。同步推出的Flash版总参数量284B，激活参数仅13B，兼顾性能与成本，更适合中小企业和高频调用场景，也适配国产中低端算力芯片，推动本土算力生态发展。华为昇腾、寒武纪等国产芯片厂商迅速完成适配，但在高精度计算和供应链方面仍面临挑战。DeepSeek在人才流失和市场竞争加剧的背景下，通过V4版本展示了其技术体系的韧性和工程化能力。当前，DeepSeek正以超100亿美元估值寻求融资，有望创下国内大模型领域新高。此次发布不仅是一次技术开源，更是在算力受限的现实下，对模型能力分配和产业落地路径的一次深度探索。

marsbit04/26 00:27

marsbit04/26 00:27

DeepSeek V4的真正价值，不在参数里

DeepSeek V4的发布标志着技术指标的提升，但其真正价值在于实现了在国产算力平台上的高效稳定运行，突破了对英伟达芯片和CUDA生态的长期依赖。该模型通过混合注意力机制、KV Cache压缩和MoE架构优化，显著降低推理计算和显存负担，使其能够适配华为昇腾、寒武纪等国产芯片，并实现Day 0级支持。这一突破使中国大模型在推理阶段具备国产化部署能力，大幅降低长期运营成本。同时，DeepSeek V4以极具竞争力的价格提供1M长上下文处理能力，支持代码分析、合同审查、投研Agent等企业级应用，推动AI技术在各行业的规模化落地。尽管国产算力生态仍在完善中，但V4通过深度软硬件协同优化，证明了在限制中实现技术突围的可行性，为产业链自主可控提供了重要实践基础。

marsbit04/25 08:08

marsbit04/25 08:08

DeepSeek不想只做大模型了

DeepSeek发布新一代模型V4，包含1.6万亿参数的Pro版和主打高吞吐的Flash版，均支持百万token上下文，并进一步降低API价格。此次发布的关键信息是，DeepSeek明确将未来降价与国产昇腾950算力的规模化部署直接关联，意味着其低价策略已从模型优化转向依赖国产算力生态。 V4采用MoE架构和长文本压缩技术，在代码、金融等专业任务中表现强劲，但并非全面领先，核心优势在于以更低价格提供高性能的长上下文处理能力。同时，DeepSeek通过工程优化实现了跨平台适配，已在英伟达GPU和华为昇腾NPU上验证，为国产算力进入AI关键路径提供技术实证。此外，DeepSeek近期传出寻求大额融资的消息，反映出公司面临算力投入、人才流失和商业化等多重压力。随着竞争进入算力基础设施、工程系统和资本整合的深层阶段，DeepSeek需在保持技术理想的同时，应对更重的组织与商业挑战。

marsbit04/25 01:45

marsbit04/25 01:45

姚顺雨的88天

腾讯混元大模型Hy3 preview发布，这是姚顺雨加入腾讯后推出的首款产品。该模型采用MoE架构，总参数量295B，支持256K上下文长度，从启动训练到发布仅用88天。此前，腾讯在年会上公开反思混元大模型发展滞后，存在“背题应考”、泛化能力不足、内部业务不愿接入等问题。姚顺雨于2025年9月加入腾讯，推动组织架构重组，撤销AI Lab，新设AI Infra等部门，全面聚焦混元研发。Hy3 preview采用与业务协同设计（Co-design）策略，已在元宝、QQ等核心业务中实测应用，强调从“打榜”转向真实场景落地。腾讯还通过接入DeepSeek和OpenClaw等外部技术过渡，为混元重建争取时间。当前行业竞争激烈，阿里、Kimi、字节等密集发布新模型，腾讯需持续以组织效率提升应对窗口期挑战。混元真正的转变在于拆除了模型与产品、研究与工程之间的墙，推动AI重写组织基因。

marsbit04/23 11:13

marsbit04/23 11:13

国产大模型：这次剧本不一样

2026年，全球AI模型平台OpenRouter数据显示，中国大模型调用量首次超越美国并持续领先，前十名中六款来自中国，小米MiMo-V2-Pro位居榜首。这一变化源于智能体应用（如OpenClaw）的普及，大幅推高Token消耗量，使中美模型价格差距凸显。中国模型凭借算力成本低、MoE架构等技术优势，价格仅为美国模型的1/10至1/60，在编程等执行类任务上能力接近，但在复杂推理上仍有差距。随着需求激增，中国厂商如智谱、腾讯云、阿里云等集体涨价，但调用量不降反升，显示一定定价权。行业从价格战转向盈利追求，中国在AI应用端引领全球，但在基础算法原创性上仍需突破。与30年前代工模式不同，此次中国大模型正以技术迭代和成本优势重塑全球AI产业链角色。

marsbit04/07 11:00