# 基准的所有文章

在 HTX 新闻中心浏览与「基准」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策,提供权威的加密行业洞察。

Gemini 3.5来了!今夜,谷歌亲手淘汰谷歌

在谷歌I/O 2026大会上,谷歌发布了多项重磅AI进展。核心产品包括全新的全能多模态模型“Gemini Omni”,它可以接收任意形式的输入(如图片、音频、视频、文字)并生成高质量视频,且能通过聊天方式进行实时编辑,其生成内容在物理逻辑和场景连贯性上表现突出。 同时,谷歌推出了新一代旗舰模型“Gemini 3.5 Flash”。该模型在编码、智能体任务等多项基准测试中,性能全面超越了前代旗舰Gemini 3.1 Pro,输出速度极快,并对标甚至超越了竞争对手的同类模型。与之配套的“Antigravity 2.0”代理开发平台也升级为独立桌面应用,现场演示了由93个子代理在12小时内从零编写出一个功能完整的操作系统内核。 此外,谷歌发布了个人AI代理“Gemini Spark”。它由Gemini 3.5驱动,深度集成谷歌办公套件,能够7×24小时在云端运行,根据用户指令自动跨应用(如Gmail、Docs、Sheets)处理复杂任务,如汇总信息、起草邮件、规划活动等。 其他重要发布还包括:Gemini App改版并改为算力计费、AI Ultra订阅计划调整以及谷歌搜索25年来最大升级(接入Gemini 3.5 Flash)。 整场大会展示了谷歌在实现全模态理解与生成、以及全天候自主智能代理方面的重大突破,标志着AI技术正朝着更强大、更自主的方向加速演进。

链捕手05/20 06:54

Gemini 3.5来了!今夜,谷歌亲手淘汰谷歌

链捕手05/20 06:54

Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜

AI Agent的能力正面临新的考验。近期,Einsia AI旗下Navers lab发布了名为Frontier-Eng Bench的Agent评测基准,它包含了47个多学科交叉、没有标准答案的真实工程任务,旨在评估AI在闭环反馈中持续优化和解决复杂问题的能力。 与以往AI在固定知识库中寻找答案的模式不同,这套基准要求AI扮演“工程师”角色:提出方案、接入仿真器、根据报错反馈调整参数、重新运行并持续迭代。任务涵盖水下机器人控制、动力电池快充优化、量子线路噪声抑制等硬核领域,AI需要在功耗、安全、性能等多重约束下寻找最优解。 评测结果显示,当前AI(如GPT-5.4)虽能表现出一定的优化能力,但距离完全解决这些工程问题仍有很长的路要走。研究还总结出两条关键规律:一是优化过程遵循幂律衰减,后期性能提升越来越难;二是在有限预算下,探索的深度比宽度更为重要,持续的深度迭代比简单的并行试错更能带来突破。 这项工作的深远意义在于,它标志着AI开始从“答题者”向能够在真实反馈循环中“自我进化”的系统转变。它预示着一个“Auto Research”时代的可能:未来,人类研究者提出目标和方向,AI则不知疲倦地负责执行仿真、实验和优化迭代,从而极大加速科研与工程进程。 论文及相关资源已公开。

marsbit05/13 07:05

Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜

marsbit05/13 07:05

活动图片