Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

marsbit發佈於 2026-05-13更新於 2026-05-13

文章摘要

AI Agent的能力正面临新的考验。近期，Einsia AI旗下Navers lab发布了名为Frontier-Eng Bench的Agent评测基准，它包含了47个多学科交叉、没有标准答案的真实工程任务，旨在评估AI在闭环反馈中持续优化和解决复杂问题的能力。与以往AI在固定知识库中寻找答案的模式不同，这套基准要求AI扮演“工程师”角色：提出方案、接入仿真器、根据报错反馈调整参数、重新运行并持续迭代。任务涵盖水下机器人控制、动力电池快充优化、量子线路噪声抑制等硬核领域，AI需要在功耗、安全、性能等多重约束下寻找最优解。评测结果显示，当前AI（如GPT-5.4）虽能表现出一定的优化能力，但距离完全解决这些工程问题仍有很长的路要走。研究还总结出两条关键规律：一是优化过程遵循幂律衰减，后期性能提升越来越难；二是在有限预算下，探索的深度比宽度更为重要，持续的深度迭代比简单的并行试错更能带来突破。这项工作的深远意义在于，它标志着AI开始从“答题者”向能够在真实反馈循环中“自我进化”的系统转变。它预示着一个“Auto Research”时代的可能：未来，人类研究者提出目标和方向，AI则不知疲倦地负责执行仿真、实验和优化迭代，从而极大加速科研与工程进程。论文及相关资源已公开。

如果把AI丢进一个没有标准答案的工程现场,它还能活下来吗?

长期以来,AI Agent看起来无所不能,实则大多是在已知知识库里“翻记忆”。

但真实的工程世界是残酷的:水下机器人的稳定性、动力电池的析锂边界、量子线路的噪声控制......这些问题没有“满分”,只有“更逼近极限的优化”。

近期,Einsia AI旗下Navers lab发布的Agent Benchmark——Frontier-Eng Bench,正式撕掉了AI“做题家”的标签。

研究团队没有让AI刷那些陈旧的代码题,取而代之的是,给了它一套完整的“工程闭环”:提出方案、接入仿真器、吃报错、改参数、重跑。

在47个多学科交叉的硬核任务面前,AI必须表现得像资深工程师一样,在功耗、安全、性能的“不可能三角”中寻找最优解。

这不仅仅是一个测试集,它更像是一场关于Agent“进化”的预演。

当AI开始学会在反馈中自我修正,那个“人类提目标、AI则24小时不间断迭代”的Auto Research时代,可能比我们想象中更近了。

AI开始干“硬活”了

过去的大模型,更像一个超级学霸。

你抛出问题,它从海量训练数据里“翻记忆”,然后拼凑成一个看起来很合理的答案。

这种模式下,大模型本质上是在玩“文字接龙”,而非解决现实问题。

但Frontier-Eng Bench的出现,却让AI干起了“工程优化”的活儿。

流程转而变成了让AI先提出方案、再接入simulator跑实验、继而获取反馈和报错、修改参数和代码、再继续重跑,直到性能继续上涨。

在这种闭环系统中,AI的身份发生了质变。

你想让水下机器人更稳定?AI必须开始自动调控制器。

你想把机械臂速度再提升一点?AI得自己跑仿真。

某种程度上,AI们已经脱离了单纯的语义理解,开始像一个职业工程师那样,在真实环境反馈里做持续优化。

△

Frontier-Eng Bench最有意思的地方在于:它测的不是AI“答对没有”,而是AI到底能不能持续变强。

因为真实的工程优化,从来不是做选择题,没有唯一的标准答案。

以电池快充为例,目标听起来很简单——充得越快越好,但现实没那么容易。

AI必须在温度不能爆表、电压不能超速、电池寿命不能掉太快、还要避免析锂的严苛约束下,精准踩中性能的平衡点。

这意味着AI无法通过任何技巧性的“刷题”来通关,它必须在长程反馈中展现出持续进化的耐力。

那AI能不能在真实环境里做长期优化?

从结果来看,GPT5.4整体表现最稳,但距离把Benchmark“做穿”,AI们要走的路还很远。

△

Auto Research进入“迭代优化”时代

研究团队在论文里提了一个非常有意思的点:

真正高级的智能,本质上都依赖长期反馈闭环。

正如AlphaGo之所以能击败李世石,在于其每一步决策背后深不见底的海量模拟与即时反馈,而非对既定棋谱的死记硬背。

真正的科研也一样,顶级实验室并不依赖某一次的灵感爆发,而是不断地提假设、跑实验、看结果、改方案、再继续尝试。

工程优化也是同理,第一版往往谁都能做,真正难的,其实是最后那1%的性能跃迁。

Frontier-Eng Bench的意义就在于:它第一次开始系统性地测试AI的“迭代优化能力”,并总结出了两条近乎残酷的AI进化规律。

△

第一个规律是:越往后,提升越难。

这篇论文发现,Agent的改进频率和幅度都呈现幂律衰减:

改进频率∝ 1/迭代轮数
改进幅度∝ 1/改进次数

简单说就是:前面几轮涨得最快,后面越来越难、越来越小。

这很像真实研发过程,第一版AI能快速干掉大量“低垂果实”,但越往后越接近瓶颈,想再抠一点性能都得下狠功夫。

那是不是多开几条路并行试错,会更划算?答案藏在第二个规律里。

△

第二个规律:宽度有用,但深度更不可或缺。

并行多跑几条线能避免卡壳,但预算固定时,每多开一条链就会压浅深度。

很多工程突破需要靠持续积累、不断修正,才会出现结构性跃迁,并不是说靠“多试几次”就能实现。

这其实提示了我们下一代Agent的发展方向:不是“一次出答案”的模型,而是能在长程反馈里持续迭代、自我进化的系统。

AI工程师,可能真的要来了

这项研究真正的深远意义,在于它初步勾勒出了一套开始接近真实工程循环的AI系统。

△

试想一下,当AI接入工业软件、仿真环境、CAD系统、芯片设计工具、科学计算平台......

一场生产力模态的剧变便呼之欲出。

未来的实验室里,很可能会出现这样一种分工:

人类研究员负责提出方向和目标。

例如“把这个部件的能耗降低30%”、“把这个模型前向的GPU占用率压得更低”、“让机器人控制的稳定性再提升一点”、“让量子线路的保真度继续逼近极限”等等。

而AI负责“死磕路径”,它们围绕这些目标,持续优化。

例如自动运行仿真与实验、自动读取verifier与simulator的反馈,再继续修改和优化,24小时不停迭代。

这种进化逻辑,让AI摆脱了“辅助工具”的身份,开始像一个真正的工程团队那样去解决复杂系统问题,而且不知疲倦。

而Frontier-Eng这一Benchmark揭示的问题,其实也非常直接:

当AI开始学会“长期优化”,它距离真正的工程智能,还有多远?

论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

项目主页:https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

本文来自微信公众号“量子位”,作者:允中

你可能也喜歡

想薅 Robinhood Chain 羊毛？哪些生态项目值得关注？

Robinhood Chain作为Robinhood进军Layer2的核心，主网上线后开启了为期90天的Gas费减免活动。生态TVL目前约7673万美元，生态项目包括： 1. **Arcus**：由dYdX Labs与Robinhood Crypto联合构建的DEX，专注股票代币和加密货币的现货与永续合约交易，未来代币将优先分配给dYdX社区成员。 2. **Lighter**：ZK驱动的去中心化永续和现货交易所，已投入1100万美元等值代币激励用户交易赚取积分。 3. **Morpho**：支持Robinhood Earn用户借出稳定币USDG，预期年化收益率7%，资金通过Morpho市场分配。 4. **Rialto**：链上现货交易所，支持加密资产、股票、ETF等，初期上线90多种Robinhood股票代币，采用propAMM等流动性来源。 5. **Arrakis**：非托管链上做市商协议，帮助代币发行方管理DEX流动性，曾完成400万美元种子轮融资。 6. **Meridian**：专注于RWA的永续合约和预测市场平台，前身为Ethereal，结算资产为USDe，部分治理代币将分配给ENA质押者。 7. **Native**：链上价格发现与执行系统，已部署至Robinhood Chain，目前无代币发行计划。本文不构成投资建议，请读者自行研究并评估风险。

Foresight News6 分鐘前

Foresight News6 分鐘前

UmexGain如何将新技术整合到其服务中

UmexGain 高度重视服务发展，持续将创新技术融入平台，旨在提供无缝的用户体验。其核心举措包括：提供包含先进图表与多种技术指标的现代分析工具，帮助用户深入理解市场动态；不断扩展资产范围，涵盖传统股票、货币及日益增长的数字资产等，以满足多样化的投资策略。此外，平台注重跨设备兼容性，确保用户可通过电脑或移动设备流畅访问全部功能，并持续优化支付解决方案与平台功能，紧跟数字技术趋势与用户反馈。总之，UmexGain 的发展战略致力于融合现代技术、广泛功能与易用性，通过持续创新为客户提供前沿的高科技服务。

TheNewsCrypto9 分鐘前

TheNewsCrypto9 分鐘前

调整尾声还是趋势延续：BTC、HYPE技术结构复盘 | 特邀分析

本期特邀分析围绕BTC与HYPE的技术结构展开复盘与展望。 **BTC部分：** 自5月6日高点开启的日线级别调整呈现四段式结构，当前处于（3-4）反弹段。关键看反弹终点“端点4”能否突破65,700美元阻力：若突破，则后续跌破57,820美元支撑的概率降低，市场可能进入区间震荡；若无法触及，则后续延续下行趋势概率大。4小时级别上，自6月15日高点的下跌已完成五段式结构并形成底背离，当前（44-45）反弹段已突破约62,300美元的下轨，短期走势对多头有利。 **本周BTC操作策略：** 市场结构已转为空头主导，中线空头仓位暂保持20%。若反弹至65,700~67,300美元区域出现滞涨及模型顶部信号，可考虑加空仓至50%以内。短线可利用30%仓位，依据支撑压力位寻找价差机会，并制定了在强阻力区试探性做空（方案A）与在强支撑区轻仓试多（方案B）两套预案。核心压力区关注64,500~65,700美元、67,300美元及69,500~71,000美元；核心支撑区关注60,950~62,300美元、57,820美元及55,000美元。 **HYPE部分：** 4小时级别上，自6月25日低点启动的反弹可细分为七段式上涨结构。价格在逼近历史高位76.94美元附近时，模型已触发顶部预警信号，需警惕短线调整风险。 **本周HYPE操作策略：** 以平仓锁定利润、防范风险为主。若持有多单，建议将止损位上移至68美元附近保护利润。核心压力位关注75~76.94美元及80美元附近；核心支撑位关注68美元、65.5美元及60.5~61.5美元区域。 **交易复盘：** 上周依据模型底部共振信号于64美元开立HYPE多单，后依据顶部共振信号于70.55美元附近清仓，成功盈利约10.23%。 **特别提示：** 交易需严格执行止损与移动止盈纪律。本文所有内容均为个人技术分析，不构成投资建议，市场有风险，投资需谨慎。

Odaily星球日报15 分鐘前

Odaily星球日报15 分鐘前

迈克尔·塞勒：比特币‘最伟大的进化’在于协议之外

比特币主要倡导者迈克尔·赛勒近日表示，比特币未来十年的最大演变将不在于协议层的变化，而在于其周围金融生态系统的快速发展。他认为，比特币抗变动的特性是其核心优势，而减半事件虽仍重要，但将不再是推动价格的主要因素。赛勒指出，比特币已进入新阶段，机构采用（如现货ETF、企业资金、主权基金等的大规模资本流入）将远比矿工发行更重要。然而，他也警告了“纸比特币”（机构发行超出实际持有的比特币债权）、托管中心化、政府监管加强以及交易费用能否支撑网络等风险。尽管面临挑战，赛勒对比特币的未来保持乐观，预计到2036年，比特币将被更广泛持有、更深度制度化、更具政治与金融整合性。同期，其旗下公司MicroStrategy持续积极增持比特币，持有量占流通供应量的比例已从2021年的不足1%升至2026年中的超过4%。

ambcrypto52 分鐘前

ambcrypto52 分鐘前

加密市场还有人在买吗？拆解当下常见的 3 种观望心态

在当前加密市场相对平淡、AI股票备受追捧的背景下，许多投资者对加密资产持观望态度。本文基于与资深投资者的对话，提炼出三种普遍的观望心态： 1. **对现有仓位满意**：长期仍看好加密资产，但缺乏短期催化剂，因此不愿投入更多边际资金。除非出现明确催化剂或投资组合轮动，否则态度难改。 2. **等待更低价格**：表面是择时，实则反映对加密市场规模及上涨空间的信心不足。若价格跌破预期底部，或出现主权国家配置等重大事件，可能改变观望立场。 3. **考虑机会成本**：对比AI等高速增长领域，加密资产的增长潜力显得不足。若AI热潮放缓，资金可能重新流向加密市场。总体来看，市场情绪显示加密资产可能已接近底部区域，但投资者仍在等待更明确的信号或更具吸引力的入场时机。

marsbit1 小時前

marsbit1 小時前

交易

現貨

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

文章摘要

AI开始干“硬活”了

Auto Research进入“迭代优化”时代

AI工程师,可能真的要来了

熱門幣種推薦

相關問答

你可能也喜歡

想薅 Robinhood Chain 羊毛？哪些生态项目值得关注？

UmexGain如何将新技术整合到其服务中

调整尾声还是趋势延续：BTC、HYPE技术结构复盘 | 特邀分析

迈克尔·塞勒：比特币‘最伟大的进化’在于协议之外

加密市场还有人在买吗？拆解当下常见的 3 种观望心态

交易

熱門文章

如何購買ERA

相關討論

熱門問答

熱門分類

熱門標籤