机器学习模型的内核级证明机制

Odaily星球日报发布于2025-06-11更新于2025-06-11

文章摘要

zkCuda将持续向高效、高扩展性、高适配性的通用证明框架迈进。

原文作者：Zhiyong Fang

"如何吃掉一头大象？一口一口地吃。"

近年来，机器学习模型以惊人的速度实现跨越式发展。随着模型能力的提升，其复杂性亦同步激增——当今先进模型往往包含数百万乃至数十亿参数。为应对此等规模挑战，多种零知识证明系统应运而生，这些系统始终致力于在证明时间、验证时间与证明大小三者间实现动态平衡。

表 1 ：模型参数规模的指数级增长

机器学习模型的内核级证明机制

尽管当前零知识证明领域的大部分工作集中在优化证明系统本身，但一个关键维度却常常被忽视——如何将大规模模型合理拆分为更小、更易于处理的子模块以进行证明。你可能会问，这一点为什么如此重要？

下面我们来详细解释：

现代机器学习模型的参数数量往往以十亿计，即便在不涉及任何密码学处理的情况下，也已占用极高的内存资源。而在零知识证明（Zero-Knowledge Proof, ZKP）的场景下，这一挑战被进一步放大。

每一个浮点数参数都必须被转换为代数域（Arithmetic Field）中的元素，这一转换过程本身会导致内存占用增加约 5 至 10 倍。此外，为了在代数域中精确模拟浮点运算，还需额外引入操作开销，通常也在 5 倍左右。

综合来看，模型整体内存需求可能提升至原始规模的 25 至 50 倍。例如，一个拥有 10 亿个 32 位浮点参数的模型，仅存储转换后的参数就可能需要 100 至 200 GB 内存。再考虑中间计算值与证明系统本身的开销，整体内存占用轻易突破 TB 级别。

当前主流的证明系统，如 Groth 16 和 Plonk，在未经优化的实现中，通常假设所有相关数据可同时加载至内存中。这种假设虽然在技术上可行，但在实际硬件条件下极具挑战性，极大限制了可用的证明计算资源。

Polyhedra 的解决方案：zkCuda

什么是 zkCuda？

如我们在《zkCUDA 技术文档》中所述：
Polyhedra 推出的 zkCUDA 是一个面向高性能电路开发的零知识计算环境，专为提升证明生成效率而设计。在不牺牲电路表达能力的前提下，zkCUDA 可充分利用底层证明器和硬件并行能力，实现快速的 ZK 证明生成。

zkCUDA 语言在语法和语义上与 CUDA 高度相似，对已有 CUDA 经验的开发者十分友好，且其底层以 Rust 实现，确保安全性与性能兼备。

借助 zkCUDA，开发者可以：

快速构建高性能 ZK 电路；
高效调度并利用分布式硬件资源，如 GPU 或支持 MPI 的集群环境，实现大规模并行计算。

为什么选择 zkCUDA？

zkCuda 是一套受 GPU 计算启发设计的高性能零知识计算框架，能够将超大规模的机器学习模型拆分为更小、更易管理的计算单元（kernels），并通过类似 CUDA 的前端语言实现高效控制。这一设计带来了以下关键优势：

1. 精准匹配的证明系统选择

zkCUDA 支持对每个计算 kernel 进行细粒度分析，并为其匹配最适合的零知识证明系统。例如：

对于高度并行的计算任务，可选用如 GKR 等擅长处理结构化并行度的协议；
对于规模较小或结构不规则的任务，则更适合使用如 Groth 16 这类在紧凑计算场景下具有低开销的证明系统。

通过定制化选择后端，zkCUDA 能最大化发挥各类 ZK 协议的性能优势。

2. 更智能的资源调度与并行优化

不同的证明 kernel 对 CPU、内存和 I/O 的资源需求差异显著。zkCUDA 可准确评估每个任务的资源消耗，并智能排程，最大化整体吞吐能力。

更重要的是，zkCUDA 支持在异构计算平台之间进行任务分发——包括 CPU、GPU 和 FPGA——从而实现硬件资源的最优利用，显著提升系统级性能。

zkCuda 与 GKR 协议的天然契合

尽管 zkCuda 被设计为一个兼容多种零知识证明系统的通用计算框架，但它与 GKR（Goldwasser-Kalai-Rothblum）协议在架构上具有天然的高度契合性。

机器学习模型的内核级证明机制

在架构设计上，zkCUDA 通过引入多项式承诺机制，将各个子计算内核连接起来，确保所有子计算基于一致的共享数据运行。这一机制对于保持系统完备性至关重要，但也带来了显著的计算成本。

相比之下，GKR 协议提供了一种更高效的替代路径。与传统零知识系统要求每个内核完整证明其内部约束的方式不同，GKR 允许将计算正确性的验证从内核输出递归回溯至输入。这一机制使得跨内核的正确性得以传递，而非在每个模块中完全展开验证。其核心思想类似于机器学习中的梯度反向传播，通过计算图追踪和传导正确性主张。

虽然在多路径中合并这类“证明梯度”带来了一定复杂性，但正是这一机制，构成了 zkCUDA 与 GKR 之间的深度协同基础。通过对齐机器学习训练流程中的结构特性，zkCUDA 有望实现更紧密的系统集成和大模型场景下更高效的零知识证明生成。

初步成果与未来方向

我们已完成 zkCuda 框架的初始开发，并在多个场景中成功进行了测试，包括 Keccak 和 SHA-256 等密码学哈希函数，以及小规模的机器学习模型。

展望未来，我们希望进一步引入现代机器学习训练中的一系列成熟工程技术，如内存优化调度（memory-efficient scheduling）与计算图级优化（graph-level optimization）。我们相信，将这些策略融合进零知识证明生成流程，将极大提升系统的性能边界与适配灵活性。

这只是一个起点，zkCuda 将持续向高效、高扩展性、高适配性的通用证明框架迈进。

原文链接

你可能也喜欢

以太坊年初至今下跌45% – 为何SharpLink和巨鲸仍在买入？

尽管以太坊（ETH）年内下跌20%-45%，但机构与巨鲸仍在持续买入。SharpLink时隔八个月后通过FalconX购入5000枚ETH，价值约788万美元，随后又增持价值4554万美元的LSETH，使其总持仓达876,285枚ETH。这表明尽管面临未实现亏损，机构对其长期效用和质押收入抱有信念。巨鲸也在跟进积累。一个新钱包在九天内买入18,361枚ETH（约2890万美元）及大量Hyperliquid代币，显示大资金正在为未来价格波动布局而非短期操作。同时，BlackRock向Coinbase转移了大量BTC和ETH，这通常与ETF结算、托管调整或流动性管理相关，并非直接抛售。然而，市场信心尚未全面恢复。现货ETF在6月26日出现1285万美元净流出，尽管累计净流入仍高达109亿美元。这表明直接国库买家和ETF投资者对市场反应不一。整体来看，巨鲸积累与机构活动显示信心正逐步重建，但以太坊的持续复苏仍需更强的ETF资金流入来抵消机构资金外流压力。

ambcrypto20分钟前

ambcrypto20分钟前

刚刚，DeepSeek V4更新DSpark，推理速度提升80%

DeepSeek-V4-Pro-DSpark版本已更新，通过引入推测性解码框架DSpark大幅提升推理速度。该版本并非架构革新，而是在原有模型基础上加入推测性解码模块，重点在于工程优化。 DSpark采用了创新的半自回归生成架构，结合了并行草稿模型的高吞吐优势和串行模块的精准依赖建模。同时引入硬件感知的置信度调度验证机制，动态调整验证长度，将算力集中在高价值token上。在真实线上部署中，DSpark通过异步调度器实现了零开销调度和连续CUDA图回放。测试显示，在Qwen3系列模型上，DSpark的平均接受长度比Eagle3提升26.7%-30.9%，比DFlash提升16.3%-18.4%。与单token生成基准相比，DSpark将用户生成速度提升了60%-85%（Flash模型）和57%-78%（Pro模型）。随DSpark一同开源的还有全栈推测性解码框架DeepSpec，提供了从数据准备、训练到评估的完整工具链，支持多种草稿模型算法和目标模型系列，为研究者提供了可复现的标准化开发环境。

marsbit1小时前

marsbit1小时前

在Kraken收购传闻中，Aavenomics 3.0能否维持AAVE的复苏势头？

Aave Labs CEO 斯坦尼·库莱霍夫驳斥了近期关于Kraken收购的传闻。据报道，加密货币交易所Kraken计划收购DeFi借贷协议Aave背后实体Aave Group的15%股份，但库莱霍夫否认会以大幅折价出售AAVE。他同时透露了Aavenomics 3.0计划，将包含新的自动化非酌情回购机制。此消息推动AAVE价格在6月反弹超过50%，一度触及88美元，尽管其价格相较2025年高点仍下跌约77%。市场分析认为，价格反弹得益于交易所供应量减少带来的卖压下降以及新代币经济学的预期。AAVE在2026年的下跌主要受治理冲突和宏观压力影响。市场后续将关注Aavenomics 3.0的具体细节及其是否能持续推动复苏。

ambcrypto2小时前

在Kraken收购传闻中，Aavenomics 3.0能否维持AAVE的复苏势头？

ambcrypto2小时前

BIT 投研：2028 年减半不是终点，比特币矿业真正的洗牌才刚开始

比特币矿业正经历结构性调整，行业盈利能力持续恶化。尽管比特币价格约61,000美元、全网算力接近历史高位的1 ZH/s，但矿工实际日收入远低于理论值，手续费收入亦持续低迷。当前行业整体盈亏平衡价格约65,000美元，多数矿企已接近无利可图。 2028年减半预计将把比特币生产成本下沿推升至约93,289美元，加速行业出清。矿业竞争重点正从算力扩张转向商业模式升级，收入结构亟待向手续费驱动过渡。越来越多矿企向能源运营商和AI/HPC算力基础设施提供商转型，寻求多元化收入。未来，行业将向资本雄厚、拥有低成本电力及多元化业务的大型机构化矿企集中。投资者需关注那些能成功完成从“挖矿业务”向“基础设施业务”转型、建立更具韧性竞争优势的矿企。

marsbit2小时前

marsbit2小时前

大神Karpathy用Claude的方式，原来是这样的？

AI大神安德烈·卡帕西（Andrej Karpathy）在加入Anthropic后，开源活动减少。近期，一份据称是他本人使用的`CLAUDE.md`文件在社区流传，旨在指导Claude AI进行更高效的编程协作。该文件强调了一系列核心原则，并非简单建议而是必须遵守的规则，以规避大语言模型写代码时的常见错误。核心原则包括： 1. **写之前先读**：在编写新代码前，务必认真阅读现有代码库，理解项目风格、既有模式和工具，确保新代码与项目保持一致。 2. **写代码之前先想清楚**：明确任务需求、澄清假设、说明方案取舍，避免基于模糊理解生成错误代码。 3. **保持简单**：抵制过度设计，避免过早抽象、臆想式错误处理和不必要的配置，编写能解决当前问题的最少代码。 4. **外科手术式修改**：修改代码时力求改动范围最小，严格匹配项目现有风格，只清理自己引入的问题，避免无谓的重构和格式化。 5. **验证**：重视测试，修复bug前先写测试复现，确保改动不破坏现有功能。 6. **目标驱动执行**：将模糊任务转化为可验证的具体步骤，并在执行前说明计划。 7. **调试**：遇到问题先深入调查、复现，理解根因，避免盲目添加临时解决方案。 8. **谨慎管理依赖**：添加新依赖前，优先考虑使用现有工具或标准库，并评估其维护状态和成本。 9. **有效沟通**：清晰说明改动内容和原因，主动指出潜在隐患和不确定之处。文章指出，尽管这份文件的真实性存疑，但其内容高度契合卡帕西本人关于AI编程助手的公开观点。社区已据此提炼出原则并制作了模板，有测试表明能显著降低Claude的代码错误率。这些准则被认为是提升AI辅助编程效率、保证代码质量的关键。

marsbit2小时前

marsbit2小时前

交易

现货

机器学习模型的内核级证明机制

文章摘要