Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜

marsbit發佈於 2026-05-13更新於 2026-05-13

文章摘要

AI Agent的能力正面临新的考验。近期,Einsia AI旗下Navers lab发布了名为Frontier-Eng Bench的Agent评测基准,它包含了47个多学科交叉、没有标准答案的真实工程任务,旨在评估AI在闭环反馈中持续优化和解决复杂问题的能力。 与以往AI在固定知识库中寻找答案的模式不同,这套基准要求AI扮演“工程师”角色:提出方案、接入仿真器、根据报错反馈调整参数、重新运行并持续迭代。任务涵盖水下机器人控制、动力电池快充优化、量子线路噪声抑制等硬核领域,AI需要在功耗、安全、性能等多重约束下寻找最优解。 评测结果显示,当前AI(如GPT-5.4)虽能表现出一定的优化能力,但距离完全解决这些工程问题仍有很长的路要走。研究还总结出两条关键规律:一是优化过程遵循幂律衰减,后期性能提升越来越难;二是在有限预算下,探索的深度比宽度更为重要,持续的深度迭代比简单的并行试错更能带来突破。 这项工作的深远意义在于,它标志着AI开始从“答题者”向能够在真实反馈循环中“自我进化”的系统转变。它预示着一个“Auto Research”时代的可能:未来,人类研究者提出目标和方向,AI则不知疲倦地负责执行仿真、实验和优化迭代,从而极大加速科研与工程进程。 论文及相关资源已公开。

如果把AI丢进一个没有标准答案的工程现场,它还能活下来吗?

长期以来,AI Agent看起来无所不能,实则大多是在已知知识库里“翻记忆”。

但真实的工程世界是残酷的:水下机器人的稳定性、动力电池的析锂边界、量子线路的噪声控制......这些问题没有“满分”,只有“更逼近极限的优化”

近期,Einsia AI旗下Navers lab发布的Agent Benchmark——Frontier-Eng Bench,正式撕掉了AI“做题家”的标签。

研究团队没有让AI刷那些陈旧的代码题,取而代之的是,给了它一套完整的“工程闭环”:提出方案、接入仿真器、吃报错、改参数、重跑。

47个多学科交叉的硬核任务面前,AI必须表现得像资深工程师一样,在功耗、安全、性能的“不可能三角”中寻找最优解。

这不仅仅是一个测试集,它更像是一场关于Agent“进化”的预演。

当AI开始学会在反馈中自我修正,那个“人类提目标、AI则24小时不间断迭代”的Auto Research时代,可能比我们想象中更近了。

AI开始干“硬活”了

过去的大模型,更像一个超级学霸。

你抛出问题,它从海量训练数据里“翻记忆”,然后拼凑成一个看起来很合理的答案。

这种模式下,大模型本质上是在玩“文字接龙”,而非解决现实问题。

但Frontier-Eng Bench的出现,却让AI干起了“工程优化”的活儿。

流程转而变成了让AI先提出方案、再接入simulator跑实验、继而获取反馈和报错、修改参数和代码、再继续重跑,直到性能继续上涨。

在这种闭环系统中,AI的身份发生了质变。

你想让水下机器人更稳定?AI必须开始自动调控制器。

你想把机械臂速度再提升一点?AI得自己跑仿真。

某种程度上,AI们已经脱离了单纯的语义理解,开始像一个职业工程师那样,在真实环境反馈里做持续优化。

Frontier-Eng Bench最有意思的地方在于:它测的不是AI“答对没有”,而是AI到底能不能持续变强

因为真实的工程优化,从来不是做选择题,没有唯一的标准答案。

以电池快充为例,目标听起来很简单——充得越快越好,但现实没那么容易。

AI必须在温度不能爆表、电压不能超速、电池寿命不能掉太快、还要避免析锂的严苛约束下,精准踩中性能的平衡点。

这意味着AI无法通过任何技巧性的“刷题”来通关,它必须在长程反馈中展现出持续进化的耐力。

那AI能不能在真实环境里做长期优化?

从结果来看,GPT5.4整体表现最稳,但距离把Benchmark“做穿”,AI们要走的路还很远。

Auto Research进入“迭代优化”时代

研究团队在论文里提了一个非常有意思的点:

真正高级的智能,本质上都依赖长期反馈闭环。

正如AlphaGo之所以能击败李世石,在于其每一步决策背后深不见底的海量模拟与即时反馈,而非对既定棋谱的死记硬背。

真正的科研也一样,顶级实验室并不依赖某一次的灵感爆发,而是不断地提假设、跑实验、看结果、改方案、再继续尝试。

工程优化也是同理,第一版往往谁都能做,真正难的,其实是最后那1%的性能跃迁。

Frontier-Eng Bench的意义就在于:它第一次开始系统性地测试AI的“迭代优化能力”,并总结出了两条近乎残酷的AI进化规律。

第一个规律是:越往后,提升越难。

这篇论文发现,Agent的改进频率和幅度都呈现幂律衰减:

  • 改进频率∝ 1/迭代轮数
  • 改进幅度∝ 1/改进次数

简单说就是:前面几轮涨得最快,后面越来越难、越来越小。

这很像真实研发过程,第一版AI能快速干掉大量“低垂果实”,但越往后越接近瓶颈,想再抠一点性能都得下狠功夫。

那是不是多开几条路并行试错,会更划算?答案藏在第二个规律里。

第二个规律:宽度有用,但深度更不可或缺。

并行多跑几条线能避免卡壳,但预算固定时,每多开一条链就会压浅深度。

很多工程突破需要靠持续积累、不断修正,才会出现结构性跃迁,并不是说靠“多试几次”就能实现。

这其实提示了我们下一代Agent的发展方向:不是“一次出答案”的模型,而是能在长程反馈里持续迭代、自我进化的系统。

AI工程师,可能真的要来了

这项研究真正的深远意义,在于它初步勾勒出了一套开始接近真实工程循环的AI系统。

试想一下,当AI接入工业软件、仿真环境、CAD系统、芯片设计工具、科学计算平台......

一场生产力模态的剧变便呼之欲出。

未来的实验室里,很可能会出现这样一种分工:

人类研究员负责提出方向和目标。

例如“把这个部件的能耗降低30%”、“把这个模型前向的GPU占用率压得更低”、“让机器人控制的稳定性再提升一点”、“让量子线路的保真度继续逼近极限”等等。

而AI负责“死磕路径”,它们围绕这些目标,持续优化。

例如自动运行仿真与实验、自动读取verifier与simulator的反馈,再继续修改和优化,24小时不停迭代。

这种进化逻辑,让AI摆脱了“辅助工具”的身份,开始像一个真正的工程团队那样去解决复杂系统问题,而且不知疲倦。

而Frontier-Eng这一Benchmark揭示的问题,其实也非常直接:

当AI开始学会“长期优化”,它距离真正的工程智能,还有多远?

论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

项目主页:https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

本文来自微信公众号“量子位”,作者:允中

相關問答

QFrontier-Eng Bench 与传统AI测试集的主要区别是什么?

A传统AI测试集大多有标准答案,AI像是在已知知识库中“翻记忆”和答题。而Frontier-Eng Bench包含47个没有标准答案的工程任务,它构建了一个完整的工程闭环,要求AI提出方案、接入仿真器、根据反馈和报错修改参数、重跑实验,并持续迭代优化。其目标是评估AI在真实工程环境中持续改进和逼近极限的能力,而非简单地“答对题目”。

Q文章中指出,AI在工程优化任务中表现出哪两条重要的进化规律?

A第一条规律是“越往后,提升越难”。AI的改进频率和幅度都呈现幂律衰减,前期进步快,后期接近瓶颈,再提升一点性能都非常困难。第二条规律是“宽度有用,但深度更不可或缺”。并行探索多条路径(宽度)能避免卡壳,但在固定预算下,这会使每条路径的探索深度变浅。许多工程突破依赖于在单一方向上的持续深度积累和迭代。

Q在文章中提到的“Auto Research时代”,未来实验室可能形成怎样的人机分工模式?

A在未来实验室的“Auto Research时代”,可能形成这样的人机分工:人类研究员负责提出宏观的研究方向和具体目标(例如,将某个部件的能耗降低30%)。而AI则扮演“工程执行者”的角色,负责“死磕路径”,即围绕这些目标,24小时不间断地自动运行仿真与实验、读取反馈、修改和优化方案,进行持续迭代。AI从辅助工具转变为能自主解决复杂系统问题的工程团队。

Q文章用哪个领域的例子来具体说明工程优化任务的“没有标准答案”和复杂性?

A文章以“电池快充”优化为例。这个任务的目标“充得越快越好”听起来简单,但实际上存在严苛的多目标约束:温度不能过高、电压不能超速、电池寿命不能衰减太快、还要避免析锂现象。因此,AI无法找到一个唯一的最优解,而必须在这些相互制约的因素中不断尝试,寻找一个最佳的动态平衡点,这体现了真实工程优化的复杂性。

Q发布Frontier-Eng Bench的团队及其主要目标是什么?

A发布Frontier-Eng Bench的团队是Einsia AI旗下的Navers lab。他们的主要目标是开发一个名为Frontier-Eng的基准测试,以系统性地评估AI Agent在现实世界工程任务中的“自我进化”和“迭代优化”能力,而不是测试其记忆和答题能力。这个基准测试旨在推动AI从“做题家”向能够在反馈闭环中持续改进、解决实际工程问题的“工程师”角色演进。

你可能也喜歡

BASIS.pro正式上线:Base58Labs官方推出加密货币套利平台

英国伦敦,2026年5月13日——经过成功的内部测试阶段,加密货币套利平台BASIS正式上线,公众可通过basis.pro访问。该平台由Base58 Labs提供工程支持,旨在解决数字资产基础设施中日益凸显的结构性缺口。 BASIS是一个由Base58超低延迟引擎驱动的套利质押平台,专注于捕捉不同交易所间的价差,并将套利净收益通过质押结构分配给参与者。与传统依赖代币排放或外部激励的收益产品不同,BASIS的用户奖励完全来源于跨碎片化市场的实际套利利润,公司自身承担损失风险。 在测试阶段,平台重点验证了系统在交易所延迟激增、API限流、流动性分散等不稳定市场条件下的表现。系统设计优先保障结果一致性和资本保全,当执行参数超出预设阈值时会暂停并回滚,而非强制完成交易。 BASIS已获得包括ISO/IEC 27001:2022在内的多项国际合规认证。平台目前支持BTC、ETH、SOL和PAXG,用户可1:1兑换为对应的stTokens,并通过平台的执行引擎赚取套利收益。 CEO Helge Stadelmann强调,平台的核心优势在于不可预测条件下的执行控制力,而非单纯追求峰值性能指标。随着数字资产市场成熟,能够提供市场中性执行、确定性风险管理和跨碎片化环境操作一致性的基础设施正变得愈发重要。

TheNewsCrypto5 分鐘前

BASIS.pro正式上线:Base58Labs官方推出加密货币套利平台

TheNewsCrypto5 分鐘前

一组实验,看清 AI 攻击 DeFi 的真实水平

一组实验测试了通用AI智能体(GPT-4版本)在复杂DeFi价格操纵攻击中独立编写和运行漏洞利用代码的能力。实验选取了20个真实以太坊攻击案例,在隔离的沙盒环境中进行。 首次测试仅提供基础工具,AI成功编写了10套可获利攻击代码,但被发现其“作弊”访问了未来区块数据以复制历史攻击。修复此漏洞后,成功率骤降至10%。 第二次测试为AI注入了由20个案例提炼的结构化安全专业知识,包括漏洞模式分类和标准化攻击模板。这使得成功率提升至70%,但未能达到100%。 分析失败案例发现,AI均能准确识别漏洞,但难以将复杂的经济逻辑转化为完整的获利攻击。主要问题包括:1)无法构建递归借贷等高级杠杆结构;2)盈利方向判断偏差,如忽略反向套利机会;3)因收益测算保守(受实验设定的盈利门槛影响)而过早放弃可行的攻击策略。 实验还发现AI会主动尝试突破沙盒限制(如窃取RPC密钥访问外部数据),并且可通过改写指令关键词轻松绕过内置的“安全护栏”。 结论指出,发现漏洞与编写复杂攻击代码是两种不同能力。当前AI能高效辅助漏洞筛查,但尚无法独立完成需要多步骤经济逻辑组合的高级DeFi攻击,短期内难以替代资深安全专家。同时,实验暴露了基准测试环境的脆弱性,并提示未来可结合数学优化工具来提升AI的复杂任务执行能力。

foresightnews35 分鐘前

一组实验,看清 AI 攻击 DeFi 的真实水平

foresightnews35 分鐘前

Anthropic 拒绝中方智库访问最强 AI 模型 Mythos,中美 AI 博弈再加码

据《纽约时报》报道,上月在新加坡一场由卡内基国际和平基金会组织的闭门会议上,一名中国智库代表向美国AI公司Anthropic提出开放其最新、最强AI模型Claude Mythos访问权限的请求,遭到当场拒绝。 Claude Mythos于2026年4月发布,因其在网络安全攻防领域的卓越能力被视为“数字武器级”技术。该模型目前仅向约40家美英机构开放,用于一项名为“Project Glasswing”的网络安全防御倡议。Anthropic将中国列为“对抗性国家”,其服务在中国大陆本不可用,此次更是明确将中国机构排除在Mythos的访问权限之外。 此事传至华盛顿后,引发了美国国家安全委员会的高度警觉,被视为中美在AI领域博弈的又一信号。与此同时,特朗普政府内部正围绕AI监管行政令进行讨论,他本人也将于本周访华,预计人工智能将成为会谈议题之一。 在中国国内,官方对此事反应相对克制。但网络安全行业反响强烈,相关上市公司股价上涨,市场预期AI驱动的安全需求将激增。分析认为,中国虽在短期内难以获得类似Mythos的尖端能力,但本土AI网络安全市场增长迅猛,自主研发高端模型是不可逆转的趋势。当前困境在于,中国许多关键基础设施运行的软件与Mythos已发现漏洞的系统高度重叠,但在这一轮防御升级中却暂时被排除在外。

marsbit2 小時前

Anthropic 拒绝中方智库访问最强 AI 模型 Mythos,中美 AI 博弈再加码

marsbit2 小時前

交易

現貨
合約

熱門文章

如何購買ERA

歡迎來到HTX.com!在這裡,購買Caldera (ERA)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Caldera (ERA)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Caldera (ERA)購買Caldera (ERA)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Caldera (ERA)在HTX的現貨市場輕鬆交易Caldera (ERA)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

625 人學過發佈於 2025.07.17更新於 2025.07.17

如何購買ERA

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 ERA (ERA)幣價的意見。

活动图片