# 基准的所有文章

在 HTX 新闻中心浏览与「基准」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策,提供权威的加密行业洞察。

Anthropic警告的递归AI,田渊栋新公司刚刚走出了「第一步」

近日,Anthropic发布文章披露,其代码库超过80%由AI撰写,并警告AI“递归自我改进”(即AI自主设计、训练后续版本)可能带来风险,呼吁行业建立暂停机制。与此同时,由田渊栋等人联合创立的新公司Recursive Superintelligence结束了隐身状态,发布了其首项公开技术成果——“迈向自动化AI研究的第一步”。 该系统旨在将传统AI研究中“提出想法-编写代码-运行实验-分析结果”的人工闭环自动化。它能够针对给定目标自动生成实验思路、实现代码、运行验证并从中学习,从而自主推进研究进程,并内置了防止“奖励作弊”的机制。 Recursive在三个差异显著的基准测试中取得了领先结果: 1. **小模型训练优化**:在固定计算预算下,将模型验证损失进一步降低,相当于以更少时间达到同等效果。 2. **训练速度竞速**:在社区持续优化两年的基准上,将训练时间从79.7秒缩短至77.5秒,核心改进包括在注意力层使用FP8计算、为优化器添加退火噪声等。 3. **GPU内核优化**:在英伟达的底层计算内核基准测试中,将整体得分提升至0.754,缩小了与硬件理论极限的差距,而这些优化策略并非来自团队的专业知识,而是由系统自主发现。 Recursive团队阵容强大,已获得巨额融资,其目标是构建能够递归提升自身研发能力的AI系统。这与Anthropic的警告形成了微妙对比:一方正在实践AI加速AI研发的路径,另一方则呼吁为可能到来的“递归自我改进”时刻做好风险管控准备。当前成果虽仅是迈向自动化研究的初步尝试,但标志着一个能够自我增强的AI研发新范式已开始运转。

marsbit10小时前

Anthropic警告的递归AI,田渊栋新公司刚刚走出了「第一步」

marsbit10小时前

“我不需要更好的模型了”:Reddit 热帖下的 AI 众生相

Anthropic发布了新一代旗舰AI模型Claude Fable 5,在基准测试中表现卓越,但用户反响冷淡。Reddit上一篇题为“我不需要更好的模型了”的热帖引发广泛讨论,反映了当前用户的主流情绪。 许多用户认为,现有模型(如Opus 4.8)的能力已足够应对日常工作和代码编写,对新模型带来的边际效益提升感觉不明显,同时对其更高的使用成本和Token消耗感到不满,认为AI模型能力可能已进入平台期。 此外,Fable 5内置的偏保守的安全护栏成为主要槽点。用户抱怨在处理与安全相关(如代码安全审查)的请求时,触发拒绝的频率远高于官方宣称的5%,导致请求被降级回旧模型处理,付费用户对此尤其不满。 然而,也存在反对声音,主要来自处理极端复杂任务的深度用户。他们表示,在需要超长上下文理解、处理万行级别代码或复杂仿真的场景中,Fable 5的能力提升是“革命性”的,带来了实质性的效率突破。 这场争论揭示了AI行业的一个现状:基准测试衡量的是能力上限,而大众市场更关注日常需求的天花板。当多数普通用户的需求已被现有模型满足,更强模型的价值主要在特定专业领域凸显。文章最后指出,未来公开模型的发展,将取决于厂商如何平衡能力、成本、安全与可用性,以及重度用户是否愿意为之买单。

marsbit11小时前

“我不需要更好的模型了”:Reddit 热帖下的 AI 众生相

marsbit11小时前

刚刚,Claude Mythos 5发布,5000万行代码1天搞定

Anthropic正式发布了其最强大的大模型Claude Mythos 5,并推出了面向公众的安全版本Claude Fable 5。两者核心能力相同,但Fable 5在检测到高风险请求(如网络安全攻击、生化风险)时会自动降级使用旧模型Opus 4.8来回应,超过95%的会话不受影响。价格定为每百万输入Token 10美元,输出50美元。 技术方面,Fable 5在多项评测中表现出色:在软件工程基准SWE-bench Pro获得80.3%高分,并能在一天内完成原本需两个月的5000万行代码库迁移。其原生视觉能力可仅凭截图通关《宝可梦》游戏。在长上下文、记忆能力和金融法律等复杂分析任务上也实现显著突破。 官方透露,未完全开放的Mythos 5在生物医药领域展现出强大自主性,能独立执行生物学家工作流,其设计的蛋白质靶向复合物已有多个进入真实药物研发管线。 AI学者Ethan Mollick的测试显示,新模型的工作模式发生根本转变:人类从需要精细操控的“巫师”变为只需提出宏观需求的“甲方”,模型能自主规划并执行长达数小时的多步骤复杂项目。 此次发布也标志着前沿AI进入“权限时代”,最强能力伴随更严格的安全审查(如30天数据留存)。模型在提供强大生产力的同时,其自主性也引发了关于人类角色演变的思考。

marsbit前天 00:23

刚刚,Claude Mythos 5发布,5000万行代码1天搞定

marsbit前天 00:23

从混元到微信AI,腾讯的慢节奏走到交付关口

2026年6月8日,微信AI进入内测阶段,用户可通过自然语言对话直接调用和操作微信小程序。开放平台提供“自动模式”和“开发模式”两种接入方式。自动模式允许平台读取小程序源码,实现零开发成本接入,旨在吸引微信生态内数十万中小开发者;开发模式则允许服务商自定义技能。此举标志着腾讯AI从技术储备、独立产品验证走向在超级应用内的场景交付。 微信AI的底层能力依赖于腾讯自研的混元大模型。该模型在中文大模型评测中基础能力排名国内第二,但在应用与Agent能力上领先。腾讯坚持季度级稳健迭代,而非追逐高频发布,旨在为微信AI所需的稳定、可靠的操作型任务提供支撑。 此前,腾讯的独立AI应用“元宝”在2026年春节凭借红包活动实现日活峰值超5000万、月活破亿,但节后数据回落,常态日活约900万。这验证了微信社交链的拉新能力,也凸显了独立App在留存上的挑战。因此,微信选择将AI原生集成至应用内,通过绑定实际使用场景来提升用户黏性。 微信AI的目标是实现小程序的“龙虾化”(即智能体化),使其能自主执行跨应用任务。但这引发了生态平衡的核心矛盾:高效的中心化AI调度可能削弱服务商的页面流量、品牌曝光与用户沉淀。腾讯管理层承认需兼顾“中心化调度与去中心化流量保护”,具体规则尚未公布。 目前,腾讯AI已形成混元(底座)、元宝(C端验证)、微信AI(场景交付)三条并进的路径。微信AI内测是整合与交付的关键一步,但其成功取决于三个变量:开发者对源码授权的信任、生态流量的合理分配以及AI操作的准确性与责任界定。腾讯的AI战略是一场马拉松,内测仅是中途标记,最终体验与市场接受度仍需时间验证。

marsbit06/08 10:23

从混元到微信AI,腾讯的慢节奏走到交付关口

marsbit06/08 10:23

自动化的悖论:AI越强,人类越忙

本文探讨了AI自动化发展中的一个核心悖论:尽管AI能力快速提升,但人类的工作量并未减少,反而可能增加。文章以作者所在公司Every为例,说明AI工具已深度嵌入编码、写作、客服等流程,但并未导致裁员,而是重组了工作形态。人类从重复执行者转变为框架设计者、系统维护者和质量判断者。 AI擅长将过去已沉淀的能力(如代码、文案、客服回复)商品化,使其变得廉价且人人可用。这导致市场出现大量同质化的“默认输出”。然而,真正稀缺的是面对具体当下问题时的判断力、差异化创造和意义定义能力。因此,自动化并未消灭专家,反而创造了更多需要专家介入的场景,例如工程师需要审查AI生成的代码,编辑需要打磨AI起草的文稿。 文章进一步指出,基准测试(如高级工程师编码测试)衡量的只是模型在特定人类设定的“框架”内的表现。模型可以快速攻克一个框架,但人类会不断将问题推进到更复杂的新框架中。AI可以高效执行目标,但缺乏真正的主体性——它回应人类设定的问题,而非自主产生目标。知识工作的未来在于人类持续扮演“框定者”的角色。 因此,AI让“执行”变便宜,却让“判断什么值得做、为何做、做到何种程度”变得更为珍贵。自动化没有消除人类工作的价值,而是使其变得更前沿、更依赖人类的独特判断。

marsbit05/24 07:06

自动化的悖论:AI越强,人类越忙

marsbit05/24 07:06

活动图片