# 推理的所有文章

在 HTX 新闻中心浏览与「推理」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策,提供权威的加密行业洞察。

AI 成绩单背后,藏着一位华人“出题人”

AI领域重要的基准评测MMLU-Pro、MMMU、MMMU-Pro背后,都站着同一位“出题人”——加拿大滑铁卢大学助理教授陈文虎。 随着大语言模型能力快速提升,旧的评测基准如MMLU逐渐“失灵”,顶尖模型得分趋近满分,难以区分高下。为此,陈文虎团队于2024年推出MMLU-Pro。它通过将选项扩至10个、增加推理题比例、剔除简单题等方式,使模型准确率相较旧基准显著下降16%-33%,成绩波动更小,有效拉开了模型间的真实差距。 在多模态评测方面,陈文虎团队推出的MMMU基准包含1.15万道需结合图像与专业知识的复杂题目,即便是当时最强的GPT-4V和Gemini Ultra准确率也未超过60%。后续的MMMU-Pro则进一步堵住模型仅凭文本猜答案的漏洞,强制其进行真正的多模态理解。 陈文虎的研究方向长期聚焦于复杂信息理解与推理。他曾于谷歌DeepMind参与Gemini多模态模型的研发与评估工作,这让他深谙模型能力增长路径与评估盲区。他创立的“老虎实验室”不仅做评测,也研发视频理解与生成等模型,这种“既做题也出题”的经历,使其能更精准地设计出触及模型能力边界的评估体系。 如今,陈文虎已加入Meta超级智能实验室,继续专注于多模态预训练与评估工作。他的故事反映了在AI浪潮中,众多华人研究者正深度参与并塑造着行业发展的核心基础工作。

marsbit前天 03:51

AI 成绩单背后,藏着一位华人“出题人”

marsbit前天 03:51

CPU杀回牌桌,一场1700亿美元的“上位”大戏开启

英伟达在2026年台北电脑展上首次发布独立CPU产品线Vera CPU,标志着其业务重心从GPU向更广阔的计算领域扩展。CEO黄仁勋指出,在AI智能体时代,CPU已成为数据中心性能的关键瓶颈。与此同时,AMD将服务器CPU市场规模预测大幅上调至1200亿美元以上,行业预测其潜在市场规模将在2030年达到约1700亿美元。 市场格局正在发生变化。2026年一季度,AMD在服务器CPU收入份额上逼近英特尔,显示出高核数产品的强大溢价能力。分析指出,AI发展正从训练转向推理和智能体阶段,后者需要频繁进行复杂控制流、工具调用和数据处理,这些任务严重依赖CPU而非GPU。在智能体任务中,GPU利用率可能低于50%,而CPU工作量占比可达七成以上。这导致CPU与GPU的配比从过去的1:8显著收敛至1:4甚至1:1。 需求变化直接推动了十多年来首次大规模涨价,英特尔和AMD服务器CPU价格普遍上涨10%-15%,且出现产能紧张。市场分化为配合GPU的高核数CPU和用于智能体任务编排的中核数批量CPU两类需求。 英伟达基于ARM架构的Vera CPU入局,进一步凸显了CPU的战略地位。这对中国CPU产业链既是机遇也是挑战。国产CPU厂商如海光信息、华为鲲鹏等,既受益于全球AI需求增长,也面临信创政策带来的国产替代窗口期。行业共识是,AI大规模落地的关键已从单芯片性能转向CPU与GPU的协同能力。

marsbit06/19 13:41

CPU杀回牌桌,一场1700亿美元的“上位”大戏开启

marsbit06/19 13:41

AI成绩单背后,藏着一位华人“出题人”

每次前沿AI模型发布,业界都会关注MMLU-Pro、MMMU等基准测试的成绩单。这些评测已成为衡量模型能力的“标准科目”,但其背后的关键人物却鲜为人知——华人学者陈文虎。 陈文虎是加拿大滑铁卢大学助理教授,“老虎实验室”(TIGERLab)创始人。随着模型能力快速提升,旧评测体系如MMLU逐渐“失灵”,模型分数趋同,难以区分高下。为此,陈文虎团队推出了MMLU-Pro,通过增加选项、强化推理题、清理简单题目等方式,使新基准更难、更稳定,有效拉开了模型间的差距。 在多模态领域,陈文虎团队创建的MMMU基准包含1.15万道需结合图像与专业知识进行推理的题目,即便顶尖模型初期准确率也仅约60%。后续的MMMU-Pro进一步堵住模型“只看文字猜答案”的漏洞,强调真正的多模态理解能力。 陈文虎的研究始终围绕复杂信息理解与推理。他拥有产业界研发经验,曾参与谷歌Gemini项目,如今在Meta超级智能实验室继续专注于多模态评估。他相信,好的评估源于对模型能力边界的深刻理解,而“老虎实验室”同时进行模型研发,正是为了更懂如何出题。 在AI行业的光环常聚焦于明星公司与产品之时,陈文虎的工作在底层塑造着行业评估模型的共同语言,展现了华人才智在关键基础环节的深远影响。

marsbit06/19 09:18

AI成绩单背后,藏着一位华人“出题人”

marsbit06/19 09:18

BitTorrent 推出 BTTInferGrid:用于可扩展 AI 推理的去中心化基础设施层

BitTorrent推出BTTInferGrid:面向可扩展AI推理的去中心化基础设施层 BitTorrent近日宣布战略推出BTTInferGrid,这是一个专为AI推理构建的去中心化GPU计算网络。该平台通过聚合全球闲置的GPU算力,旨在连接日益增长的AI工作负载需求,为全球开发者提供一个开放访问、可验证安全且按需付费的计算基础设施。 AI行业正经历从模型训练到推理部署的根本性转变,未来超过70%的算力需求将来自推理环节。然而,传统中心化云服务面临三大瓶颈:需求波动导致资源配置僵化与高成本;GPU租赁价格飞涨抑制创新;全球大量碎片化的闲置算力无法被有效利用。 BTTInferGrid采用去中心化边缘计算架构和DePIN模式来破解这些难题: * **供应端**:整合零散的闲置GPU资源,通过代币激励让硬件提供者将其转化为可产生收益的资产。 * **需求端**:为AI开发者提供成本更低、可扩展的按需推理服务,显著降低中小团队的进入门槛。 该平台的核心优势包括:极低的准入门槛以实现快速GPU聚合;利用区块链技术进行任务验证和信誉评分,确保服务可靠与防篡改;以及建立在真实AI需求驱动之上的可持续经济模型。 BTTInferGrid的发展路线图将分三阶段进行:2026年启动网络并验证服务;2027年加强网络并扩展支持更多AI模型架构;2028年及以后,致力于成为Web3原生的基础AI设施层。平台基于久经考验的BitTorrent和BTFS(BitTorrent文件系统)构建,继承了其在大规模去中心化资源调度方面的成熟经验,旨在为去中心化AI时代提供基础性的算力支撑。

TheNewsCrypto06/18 07:33

BitTorrent 推出 BTTInferGrid:用于可扩展 AI 推理的去中心化基础设施层

TheNewsCrypto06/18 07:33

你交给Claude的订阅费,光模块公司能拿到多少?

一张将Claude Pro约20美元月费拆解给模型公司、云算力、GPU折旧、电力及供应链的估算图,引发了投资者对AI应用估值逻辑的重新审视。 核心问题在于:用户为AI应用支付的订阅费,有多少能像传统SaaS(软件即服务)那样沉淀为高软件毛利?传统SaaS新增用户成本极低,毛利率可达70%-80%。而AI应用不同,用户每一次调用模型(推理)都会消耗GPU算力、电力和云资源,导致边际成本显著。固定月费背后是随使用量波动的成本链,重度用户的成本可能急剧上升。 因此,AI应用公司要获得高估值,不仅需证明用户付费意愿,更需证明在考虑使用量后,其毛利率能持续改善并接近传统软件公司。当前阶段,AI使用量的增长更直接地转化为对底层基础设施(如英伟达GPU、台积电芯片、HBM内存、电力及数据中心)的需求,这使得基础设施供应商的业绩和估值更早、更确定地得到验证。 支持AI应用高毛利前景的观点认为,当前推理成本高是早期现象。通过模型优化、缓存技术、使用小模型、自研芯片以及提高集群利用率,单位成本有望快速下降。行业已有案例显示,部分模型的单位成本大幅降低。 然而,挑战在于,AI应用正从简单问答转向更复杂、耗能更高的任务(如代码生成、长文档处理)。关键在于,推理成本下降的速度能否超越用户使用量和任务复杂度的增长速度。 总之,该分析图的价值在于提醒市场:在AI应用公司缺乏透明毛利率数据的情况下,不应简单将其收入等同于高毛利SaaS收入。投资者需要关注其成本结构、用户使用行为分层以及效率提升的实际证据。模型公司最终需要证明,即使在重度使用下,订阅收入也能转化为可观的利润。

marsbit06/17 03:43

你交给Claude的订阅费,光模块公司能拿到多少?

marsbit06/17 03:43

活动图片