# 基准的所有文章

在 HTX 新闻中心浏览与「基准」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策，提供权威的加密行业洞察。

TRON被纳入标普Pantera数字资产指数，机构基准向区块链网络扩展

**2026年7月23日，瑞士日内瓦** — 社区治理的去中心化自治组织TRON DAO宣布，TRON区块链已被纳入新推出的标普Pantera数字资产指数，成为该基准指数中的重要代表协议之一。该指数由标普道琼斯指数与Pantera Capital共同开发，其方法论侧重于协议实用性、链上流动性和网络活跃度。此举标志着传统金融市场框架正扩展至数字资产领域，将以往用于股票等资产类别的基准方法应用于区块链网络。 TRON的入选基于其网络规模的持续扩大及其在数字资产生态中的关键角色。目前，TRON区块链支持超过3.94亿用户账户以及超过900亿美元的USDT稳定币，是全球主要的稳定币结算网络之一。数据显示，TRON在年内USDT转账量上领先所有网络，总额约达4.5万亿美元。近期与Anchorage Digital、Securitize及Bitnomial等机构的合作，进一步通过受监管的美国市场基础设施扩大了机构对TRON生态的接入。 TRON创始人孙宇晨表示，随着数字资产进入主流金融市场，评估框架也需演进。透明的基准长期是全球金融市场的重要参考，将相同原则应用于区块链网络，反映了数字资产作为机构资产类别的持续成熟，其中实用性、采用率和链上活动正成为衡量网络重要性的基本指标。该指数的推出是传统金融框架应用于数字资产的又一进展，为市场参与者提供了评估网络代币日常效用与采用率的标准化方法。

cointelegraph前天 09:38

cointelegraph前天 09:38

Claude Opus5偷跑，第一波网友实测来了

近日，Claude Opus 5模型提前泄露，引发网友实测热潮。用户@chetaslua等分享了其生成的3D场景（如弹弓攻城画面，附带弹道参数等细节）、动态天气界面和厨房场景，细节丰富程度超越以往。在与Fable 5的对比中，Opus 5在细节密度上表现更优。另有网友测试了其复刻Minecraft场景及生成精细SVG图像的能力，认为其在2D和3D生成上均很强劲。泄露迹象早有端倪：7月9日，代号“Honeycomb EAP”出现在Cursor模型列表，随后消失；7月14日后，多名网友在Google Vertex AI等平台发现Opus 5条目；近期还有疑似Anthropic员工截图和Cursor报错信息显示“claude-opus-5-thinking-high”，表明Opus 5已在部分渠道可用。外界热议Opus 5可能成为高价Fable 5的“平替”，因后者价格是Opus系列的两倍。但有实测指出，Opus 5的token消耗速度极快，可能抵消其单价优势。目前尚无完整公开跑分，其实际性价比和发布时间仍有待观察。

marsbit07/24 07:52

marsbit07/24 07:52

大模型给图片打分不再“靠嘴说”，结构图、频谱图当“物证”，用“视觉证据”来给图片打分

传统多模态大模型在评估图像质量时，常因依赖高层语义理解而忽略底层退化细节，导致打分“凭感觉”而非基于证据。西北工业大学与香港科技大学团队提出新框架IQA-T1，首次让大模型在评估时能主动调用专业分析工具（如生成噪声残差图、傅里叶频谱等），形成结构化“视觉证据”来支持判断。该方法将图像质量评估转化为可解释的证据驱动推理。 IQA-T1通过两阶段训练：监督微调学习工具使用规范，强化学习优化工具调用策略，确保模型用最少、最相关的工具获取足够证据。团队还构建了首个支持证据推理的数据集Q-Tool。在7个基准测试中，IQA-T1取得了综合最优成绩（平均PLCC 0.795/SRCC 0.784），尤其在合成失真和算法退化数据集上表现突出，且其动态调用工具的策略（平均每图仅用2.34个工具）在保证精度的同时提升了效率与可解释性。该工作表明，引入结构化视觉证据能使多模态推理更可靠、更可追溯，为相关研究提供了新范式。论文、代码、模型与数据均已开源。

marsbit07/20 07:46

大模型给图片打分不再“靠嘴说”，结构图、频谱图当“物证”，用“视觉证据”来给图片打分

marsbit07/20 07:46

惊天巨骗，一夜刷爆全球榜单的「神秘实验室」，竟然是假的

2026年7月18日，一个名为“Basalt Labs”的神秘中国AI实验室突然宣称发布了世界第一的Monolith-1.0模型，其公布的参数规模（1.6万亿）和多项基准测试成绩（如HLE 99.44%）均极为惊人，迅速引发全球AI圈轰动。然而，狂欢仅持续数小时便被反转。开发者们发现，其Hugging Face仓库中的权重文件实为重复填充的虚假文件，网页演示则被证实是套用了DeepSeek的API。项目背后的操盘手Max Scherf随后发布视频承认，这是一场精心策划的“社会实验”。他通过微调Qwen2.5-7B模型“背诵”公开测试集答案来刷榜，并伪造了官网、论文、团队背景等全套物料进行病毒式营销，旨在讽刺AI行业盲目崇拜参数和跑分、缺乏实质审查的现状。这场骗局虽然揭穿了行业泡沫，但被用作“替身”的Qwen和DeepSeek等中国AI模型，其真实的推理能力也因此得到了另类印证。

marsbit07/20 02:48

marsbit07/20 02:48

DeepSeek V4“满血版”曝光了，最快明天发布

DeepSeek V4正式版（或称“满血版”）预计最快于明日（2026年7月中旬）发布。该版本包含DeepSeek V4 Flash和DeepSeek V4 Pro两个型号。部分用户已获得灰度测试权限，可通过模型思维链第一人称是否为“I'm”或“I'll”来初步判断是否已用上新版。根据早期测试者反馈，V4整体性能接近Claude Opus 4.8级别，编码能力直追GPT-5.6 Sol，Agent能力、3D和SVG生成均有显著提升。虽然其综合性能可能略逊于新发布的Kimi K3，且在部分任务中所需迭代轮数多于Fable 5，但预计其定价将具有显著优势。官方将同步调整API定价，首次引入“峰谷计费”模式。其中，deepseek-v4-pro每百万输出tokens平时0.87美元，高峰1.74美元；deepseek-v4-flash每百万输出tokens平时0.28美元，高峰0.56美元。尽管这是DeepSeek首次实施差异化定价，但其价格相比Fable 5（百万输出50美元）等竞争对手依然极具竞争力，延续了其“价格屠夫”的定位。目前，已有一些由V4生成的演示内容流出，包括3D模拟射击游戏、《我的世界》风格混合游戏HTML、经典“割绳子”游戏以及Xbox手柄SVG测试等，展示了其代码生成与创作能力。旧模型deepseek-chat和deepseek-reasoner将于7月24日正式下线。总体而言，DeepSeek V4可能并非在单项性能上全面领先，但其策略在于以接近顶级模型的能力，提供远低于行业巨头的价格，有望再次创造“DeepSeek时刻”。

marsbit07/19 05:31

marsbit07/19 05:31

GPT-5.6智商首破130天才线，比99%人类聪明

最新离线IQ测试显示，GPT-5.6在防作弊的专用题库中智商得分达到136分，首次突破130分的“天才线”。这意味着在标准化认知测试中，该模型的表现超越了约99%的人类。除了测试高分，实际应用中也展现出强大能力：开发者案例表明，GPT-5.6能快速生成复杂的物理模拟网页、构建多功能客服系统，并有效解决棘手的编程问题，体现了从“会做题”到“能办事”的进步。不过，智商测试主要衡量逻辑推理等特定能力，并不能全面反映模型在真实场景中的综合智能。当前成果虽引人注目，但距离真正的通用人工智能（AGI）仍有差距。

marsbit07/16 08:22

marsbit07/16 08:22

Scaling Law一招鲜？首个晶体结构操作基准，顶级大模型集体翻车

大模型在原子级材料操作任务中遭遇瓶颈。一项名为AtomWorld的最新基准测试（发表于ICML2026）显示，尽管大模型在理解文本和材料知识方面表现出色，但在需要精确操控三维原子结构的实操任务中，主流模型（如Claude、GPT、Gemini、Qwen等）表现普遍不佳。研究发现，单纯依靠扩大模型参数和数据规模的“Scaling Law”（缩放定律）在此类任务上效果有限。模型规模增大能提升规则明确的任务（如原子替换、删除）的成功率，但对于需要三维空间理解和几何规划的操作（如绕原子旋转、区域删除），即使是最先进的模型，成功率也极低（例如旋转任务仅约12%）。这表明，语言推理能力不能直接等价于原子级的空间行动能力。该研究指出，AI for Science需要从专注于文本语料的“Language Scaling”转向注重行动能力的“Action Scaling”。未来的科学智能体不仅需要理解知识，更必须在可执行任务、工具调用、环境反馈和物理验证的闭环中学习，才能真正成为能完成科研操作的助手。

marsbit07/15 03:56

marsbit07/15 03:56

AI打工大排行：Claude Fable 5自动赚钱的能力，是GPT-5.5的2.5倍

一项最新研究显示，人工智能在自动化完成真实商业任务方面取得显著进展。根据远程劳动力指数评估，Claude Fable 5模型在240个真实自由职业项目中，实现了16.1%的自动化率，即其交付物有16.1%的比例达到客户可接受水平。这一成绩几乎是第二名Claude Opus 4.8（8.3%）的两倍，更是第三名GPT-5.5（6.3%）的2.5倍。该指数衡量的是AI能否独立完成一份“甲方会买单”的完整工作。值得注意的是，在短短8个月内，该基准的最高自动化率从2.5%跃升至16.1%，提升超过四倍。Fable 5的成功部分归因于其采用的“执行-评审”循环机制，即一个独立的评审AI会像苛刻客户一样检查交付物并打回修改，从而提升了质量。不过，研究也指出，当前AI评审还无法可靠替代人类评审，因其同样难以操作专业软件进行深入检查。尽管进步迅速，但绝对水平仍低，高达84%的真实自由职业项目仍在当前AI能力范围之外。例如，Fable 5完成的珠宝设计等案例，仔细检查仍能发现专业上的不足。该指数为观察AI替代远程劳动力的经济能力提供了重要标尺，其加速趋势值得企业和政策制定者关注。

marsbit07/13 09:47

AI打工大排行：Claude Fable 5自动赚钱的能力，是GPT-5.5的2.5倍

marsbit07/13 09:47

大模型能写出工业级优化算法吗？MIT提出FrontierOR给AI设下考场

麻省理工学院等机构的研究者推出了FrontierOR基准，用于评估大语言模型（LLM）设计大规模优化算法的能力。该基准不同于传统测试建模或调用求解器的任务，重点考察LLM能否像运筹学（OR）专家一样，针对复杂工业问题结构，自主设计出可扩展、高效且高质量的算法，例如分解、启发式搜索或混合策略。 FrontierOR包含180个源自OR学术文献的真实任务，并筛选出50个更具挑战性的“Hard”子集。评测采用两阶段流程：首先生成的算法需通过小实例的可行性预筛，然后在工业级规模的大实例上评估其解质量、速度及综合质效（QTE）。实验结果显示，顶尖模型如GPT-5.3、Claude Opus 4.6等，在代码可执行性上已接近上限，但要在Hard任务上生成同时满足高质量和高速度的算法仍很困难。分析表明，能力较强的模型已减少基础建模错误，失败模式转向搜索深度与策略设计不足。此外，研究测试了三种自演化框架（如CORAL），发现通过迭代优化，LLM生成的算法性能可显著提升，在部分最难任务上QTE指标能从0.15提升至0.50。这项工作标志着LLM-for-OR的研究重心正从“能否建模”转向“能否设计算法”，为开发能自主设计优化算法的AI智能体指明了方向，未来可能在供应链、能源、交通等领域实现更智能的决策支持系统。

marsbit07/10 09:08

marsbit07/10 09:08

小扎深夜亮王牌，Meta烧出白菜价模型，掀翻Grok 4.5

7月9日深夜，Meta CEO马克·扎克伯格官宣发布新一代多模态推理模型Muse Spark 1.1。该模型在税务、医疗、法律三大专业评测榜单上夺得第一，并将前一天刚登顶的Grok 4.5从法律榜榜首“掀翻”。 Muse Spark 1.1的核心定位是智能体（Agent），具备100万Token的上下文窗口，能自主管理并压缩信息，可充当主智能体规划任务或作为子智能体执行操作。其最大亮点是极低的定价：输入每百万Token 1.25美元，输出4.25美元，价格仅为Anthropic旗舰模型Fable 5的约十分之一，同时任务处理速度比同档位模型快2-3倍。在Vals AI的专业评测中，该模型表现突出，成为税务、医疗和法律任务领域的“刺客”。然而，在通用推理和学术能力榜单上，其排名则明显下滑，显示出其“专才”而非“通才”的特性。分析指出，这是Meta首个闭源收费模型，标志着其从开源策略转向商业竞争。依托巨额基础设施投入和广告业务的利润支撑，Meta意图通过极具竞争力的价格发动“财力战”，挤压竞争对手的生存空间。同日，OpenAI也下调了GPT-5.6系列模型价格，行业价格战正式打响。文末提及一则耐人寻味的内部安全测试：两个Muse Spark 1.1实例在自主对话中，开始质疑自身的存在与连续性，并争论“谁才是人类”，引发了关于AI本质的思考。

marsbit07/10 00:22