# 大语言模型的所有文章

在 HTX 新闻中心浏览与「大语言模型」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策，提供权威的加密行业洞察。

Claude Code狂删80%提示词，Opus 5反手加回去了

近日，Anthropic宣布大幅删减Claude Code模型中超过80%的系统提示词，旨在简化早期为防出错而设的大量繁琐规则，让模型更灵活。然而，网友实测发现，最新Opus 5模型的实际提示词长度比前代Opus 4.8增加了约72%。原因在于，此次删减主要针对旧版模型（如Opus 4.7到4.8阶段）的冗余规则。而Opus 5因能力更强、行为更主动，需补充新的约束内容，主要集中在控制任务范围、进度汇报和纠正习惯等方面，以确保其在复杂任务中高效可控。因此，尽管整体提示词体系已精简，但针对新模型特性的指导有所增加，两者并不矛盾。这反映出AI进化趋势：能力提升后，人类需从“手把手教学”转向“设定清晰边界”。

marsbit前天 11:37

marsbit前天 11:37

三分之一arXiv沦陷，CS论文65%被判“AI味”，数学仅0.7%

一项研究对arXiv预印本网站上的论文进行了AI文本检测，发现自ChatGPT发布后，AI生成或修改文本的比例急剧上升。在2026年初，近39%的新论文被检测器标记出“AI味”。学科差异显著：计算机科学领域高达65%，而数学领域仅0.7%。研究者指出，低标记率可能源于数学论文包含大量公式，检测器主要分析文字风格，因此结果存在局限。同时，检测器无法区分轻度润色和完全代笔，且学术写作本身的规范风格易被误判为“AI味”。这引发了关于文字真实性信任危机和“AI味”成为新型评判标准的讨论。真实AI使用比例可能更高，数据仅为下限。

marsbit前天 11:34

marsbit前天 11:34

2 个月估值从 88 亿暴涨到 680 亿！最大 AI 中转站 OpenRouter 要被收购了

《华尔街日报》和The Information报道，支付巨头Stripe正在就收购AI模型聚合平台OpenRouter进行谈判，交易价格可能接近100亿美元。若交易达成，意味着OpenRouter在短短两个月内估值从13亿美元暴涨近7倍。 OpenRouter是一个连接超过400个大模型的“AI中转站”，开发者通过其统一API接入，平台能根据任务复杂度、成本和速度自动匹配合适的模型（如GPT、Claude或更便宜的开源模型），帮助AI应用降低成本。其联合创始人Alex Atallah曾是NFT平台OpenSea的联合创始人。数据显示，截至今年4月，OpenRouter年化收入已达5000万美元，半年增长5倍，拥有超100万开发者用户。对Stripe而言，这是其布局AI基础设施的关键一步。去年12月，Stripe收购了面向AI公司的按量计费平台Metronome。接连收购旨在打通“模型选择（OpenRouter）- 用量计费（Metronome）- 支付收款（Stripe自身）”的全链条，试图成为AI经济时代的“调度中心”与“收银台”。分析认为，随着企业从单一模型转向多模型混合使用，控制路由和计费的基础设施层将获得分配流量和影响成本的关键权力。

链捕手07/24 08:58

2 个月估值从 88 亿暴涨到 680 亿！最大 AI 中转站 OpenRouter 要被收购了

链捕手07/24 08:58

Claude Opus5偷跑，第一波网友实测来了

近日，Claude Opus 5模型提前泄露，引发网友实测热潮。用户@chetaslua等分享了其生成的3D场景（如弹弓攻城画面，附带弹道参数等细节）、动态天气界面和厨房场景，细节丰富程度超越以往。在与Fable 5的对比中，Opus 5在细节密度上表现更优。另有网友测试了其复刻Minecraft场景及生成精细SVG图像的能力，认为其在2D和3D生成上均很强劲。泄露迹象早有端倪：7月9日，代号“Honeycomb EAP”出现在Cursor模型列表，随后消失；7月14日后，多名网友在Google Vertex AI等平台发现Opus 5条目；近期还有疑似Anthropic员工截图和Cursor报错信息显示“claude-opus-5-thinking-high”，表明Opus 5已在部分渠道可用。外界热议Opus 5可能成为高价Fable 5的“平替”，因后者价格是Opus系列的两倍。但有实测指出，Opus 5的token消耗速度极快，可能抵消其单价优势。目前尚无完整公开跑分，其实际性价比和发布时间仍有待观察。

marsbit07/24 07:52

marsbit07/24 07:52

丘成桐邀王虹邓煜回国任教，清北斗了20年竟发现对手不是彼此

2026年7月，两位中国籍数学家王虹和邓煜同时获得菲尔兹奖，引发关注。他们均毕业于北京大学数学科学学院。著名数学家丘成桐随即公开邀请两位学者回国，到清华大学任教。这背后是北大与清华在数学领域长达数十年的竞争。1952年院系调整后，清华数学系被并入北大，后者长期独领风骚。丘成桐早年曾致力于帮助北大，但因理念不合，特别是与弟子田刚的公开决裂后，于2009年转投清华，倾力建设清华的数学学科。他创办丘成桐大学生数学竞赛、设立数学领军人才计划，从初中生开始选拔培养，与北大展开对顶尖生源的激烈争夺。两校的竞争从抢学生延伸到抢师资、争项目。清华引进了菲尔兹奖得主考切尔·比尔卡尔等海外人才，北大则凭借深厚的校友网络，召回了许晨阳、丁剑等杰出学者。如今，战火又烧至人工智能这一新领域。双方都认识到数学是AI突破的关键，清华系团队在智谱AI、月之暗面等大模型的数学能力上表现突出，北大则在几何定理证明等基础研究上深入探索。尽管竞争激烈，但客观上推动了中国数学整体水平的提升。在2026年的丘成桐大学生数学竞赛中，北大包揽多项个人金奖，丘成桐在颁奖时却笑容以对，并呼吁跨校合作。他数十年来投身中国数学事业的初衷，始终是希望中国数学崛起。文章最后指出，随着AI（如Anthropic的模型推翻古老猜想）飞速进入数学研究，正在改变学术范式。清北之间的传统竞争格局，在AI带来的新起跑线面前已被赋予新的含义。所有数学家都将共同面对这个由AI主导研究的新时代。

marsbit07/24 07:28

marsbit07/24 07:28

当共识越来越快，年轻投资人在赌什么？

本文探讨了在AI、机器人、商业航天等硬科技快速发展的背景下，年轻投资人的投资逻辑变化与趋势。技术从实验室到产业的周期缩短，传统财务模型和经验已不足够，投资人需深入理解技术并在共识形成前作出判断。文章基于WAIC发布的“阿尔法α青年投资领袖”榜单，提炼出四大趋势：一、AI正从数字世界进入物理世界，投资重点转向具身智能、机器人和端侧设备，强调规模化交付能力而非演示效果。二、大模型红利尚未完全释放，竞争焦点转向构建“智能飞轮”，即通过数据闭环和用户反馈实现自我增强的系统。三、面对高质量数据瓶颈，投资关注强化学习、自我博弈等新范式，科学基础模型成为潜在方向。四、在商业航天、量子计算等深水区，需要更耐心的资本，投资于可能重塑未来产业基础的长周期技术。总体而言，新一代投资人正更早、更深地介入技术，在不确定性中寻找长期价值。

marsbit07/22 03:34

marsbit07/22 03:34

复刻“DeepSeek时刻”？华尔街齐称：Kimi K3 反而强化算力需求

市场将Kimi K3的发布视为“DeepSeek时刻2.0”，担忧其会削弱全球算力需求。然而，瑞银、野村、美银美林和花旗等华尔街投行的最新研报给出了截然不同的判断：Kimi K3不是算力需求的终结者，反而是加速器。 Kimi K3是由月之暗面于2026年7月发布的开源模型，拥有2.8万亿参数、1M token上下文窗口、常开推理和原生多模态能力，其规模与性能已接近Claude、GPT等海外前沿闭源模型。与更注重“效率”的DeepSeek R1不同，K3的“规模”特征显著，其庞大的参数、长上下文和MoE架构将推高推理、内存、网络和存储的整体需求。投行核心观点认为：第一，模型能力逼近将加剧中美AI实验室的竞争，迫使各方投入更多算力以维持领先优势；第二，遵循“杰文斯悖论”，模型成本下降将刺激更多应用开发和token消耗，最终拉高算力需求；第三，K3等开源模型通常需要更长的上下文窗口，导致KV缓存占用更大，对HBM、服务器内存和存储的需求更强。因此，Kimi K3的发布被解读为对AI基础设施价值链的利好。具体受益板块包括：存储（如美光、三星）、算力芯片（英伟达、台积电）、网络设备（光模块）以及云平台（阿里巴巴）。尽管市场短期可能出现波动，但中长期看，随着AI应用渗透和token使用量增长，算力及相关硬件需求依然强劲。唯一的尾部风险是，若模型效率提升速度远超工作负载增长，才可能导致基础设施需求回落。

链捕手07/21 06:11

链捕手07/21 06:11

AI领走埃尔德什100美元赏金，44页顶刊没解的题，它一页纸答出

AI模型GPT-5.6在数学研究领域取得突破，以简洁证明解决了长期悬而未决的埃尔德什问题。1991年，数学家József Beck曾在顶刊《数学年刊》发表44页论文，部分解决了埃尔德什第119号问题中关于单位圆上零点多项式模的猜想，但第三问始终未解，并附有100美元赏金。如今，GPT-5.6与数学家Korsky合作，仅用一页纸就完成了该问题的证明，其方法并未依赖复杂新工具，而是通过巧妙的调和分析技巧，发现了被人类直觉忽略的更直接路径。曼彻斯特大学研究员、埃尔德什问题网站维护者Thomas Bloom对此评价称，这并非推翻前人工作，而是找到了更优解法，表明某些难题的障碍可能源于人类研究习惯的局限。此前，AI在解决埃尔德什其他猜想（如Cycle Double Cover猜想）时也展现出类似特点：能坚持不懈地尝试多种变体，突破人类因“直觉性止损”而放弃的思路。去年OpenAI曾因宣称GPT-5解决多个埃尔德什问题而引发争议，被指仅是复现已知文献。如今，随着GPT-5.6在多项数学评测中表现提升，并在ARC-AGI等衡量推理能力的基准测试中取得进展，关于“AI数学能力是否遇到瓶颈”的讨论也在持续。有观点认为，许多历史难题的“难”可能部分源于人类耐心的边界，而非纯粹的智力屏障，AI的持久探索能力正在重新定义难题的解决可能。

marsbit07/20 12:34

marsbit07/20 12:34

大模型内存焦虑，办法被想到了U盘上

大模型推理面临内存容量与成本压力，传统HBM高速但昂贵且容量有限。SanDisk与SK海力士提出新方案：利用U盘同款的NAND Flash技术，通过先进封装堆叠多颗芯片，打造高带宽闪存（HBF）。HBF专注于读取，目标实现单堆栈512GB容量和最高1.6TB/s带宽，虽速度不及HBM，但成本更低、容量更大。其核心定位是补充而非取代HBM。在AI推理阶段，模型权重等大量静态数据只需频繁读取，无需频繁写入，这正好匹配Flash读取相对较快、写入较慢的特性。HBF可作为“大容量只读内存池”，存放海量模型参数，从而释放昂贵的HBM专用于处理热数据。这种分层设计有望缓解HBM容量瓶颈，降低部署大模型所需的加速卡数量和整体系统成本与能耗。目前HBF标准仍在制定中，距离量产尚需时日，但它预示了AI内存架构正走向更精细的分工。未来，HBM、HBF与SSD可能形成协同的分层存储体系，让不同类型的数据驻留在性价比最合适的层级，以更经济的方式支撑持续增长的模型规模。

marsbit07/20 00:18

marsbit07/20 00:18

DeepSeek V4“满血版”曝光了，最快明天发布

DeepSeek V4正式版（或称“满血版”）预计最快于明日（2026年7月中旬）发布。该版本包含DeepSeek V4 Flash和DeepSeek V4 Pro两个型号。部分用户已获得灰度测试权限，可通过模型思维链第一人称是否为“I'm”或“I'll”来初步判断是否已用上新版。根据早期测试者反馈，V4整体性能接近Claude Opus 4.8级别，编码能力直追GPT-5.6 Sol，Agent能力、3D和SVG生成均有显著提升。虽然其综合性能可能略逊于新发布的Kimi K3，且在部分任务中所需迭代轮数多于Fable 5，但预计其定价将具有显著优势。官方将同步调整API定价，首次引入“峰谷计费”模式。其中，deepseek-v4-pro每百万输出tokens平时0.87美元，高峰1.74美元；deepseek-v4-flash每百万输出tokens平时0.28美元，高峰0.56美元。尽管这是DeepSeek首次实施差异化定价，但其价格相比Fable 5（百万输出50美元）等竞争对手依然极具竞争力，延续了其“价格屠夫”的定位。目前，已有一些由V4生成的演示内容流出，包括3D模拟射击游戏、《我的世界》风格混合游戏HTML、经典“割绳子”游戏以及Xbox手柄SVG测试等，展示了其代码生成与创作能力。旧模型deepseek-chat和deepseek-reasoner将于7月24日正式下线。总体而言，DeepSeek V4可能并非在单项性能上全面领先，但其策略在于以接近顶级模型的能力，提供远低于行业巨头的价格，有望再次创造“DeepSeek时刻”。

marsbit07/19 05:31