Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

marsbit發佈於 2026-05-13更新於 2026-05-13

文章摘要

AI Agent的能力正面临新的考验。近期，Einsia AI旗下Navers lab发布了名为Frontier-Eng Bench的Agent评测基准，它包含了47个多学科交叉、没有标准答案的真实工程任务，旨在评估AI在闭环反馈中持续优化和解决复杂问题的能力。与以往AI在固定知识库中寻找答案的模式不同，这套基准要求AI扮演“工程师”角色：提出方案、接入仿真器、根据报错反馈调整参数、重新运行并持续迭代。任务涵盖水下机器人控制、动力电池快充优化、量子线路噪声抑制等硬核领域，AI需要在功耗、安全、性能等多重约束下寻找最优解。评测结果显示，当前AI（如GPT-5.4）虽能表现出一定的优化能力，但距离完全解决这些工程问题仍有很长的路要走。研究还总结出两条关键规律：一是优化过程遵循幂律衰减，后期性能提升越来越难；二是在有限预算下，探索的深度比宽度更为重要，持续的深度迭代比简单的并行试错更能带来突破。这项工作的深远意义在于，它标志着AI开始从“答题者”向能够在真实反馈循环中“自我进化”的系统转变。它预示着一个“Auto Research”时代的可能：未来，人类研究者提出目标和方向，AI则不知疲倦地负责执行仿真、实验和优化迭代，从而极大加速科研与工程进程。论文及相关资源已公开。

如果把AI丢进一个没有标准答案的工程现场,它还能活下来吗?

长期以来,AI Agent看起来无所不能,实则大多是在已知知识库里“翻记忆”。

但真实的工程世界是残酷的:水下机器人的稳定性、动力电池的析锂边界、量子线路的噪声控制......这些问题没有“满分”,只有“更逼近极限的优化”。

近期,Einsia AI旗下Navers lab发布的Agent Benchmark——Frontier-Eng Bench,正式撕掉了AI“做题家”的标签。

研究团队没有让AI刷那些陈旧的代码题,取而代之的是,给了它一套完整的“工程闭环”:提出方案、接入仿真器、吃报错、改参数、重跑。

在47个多学科交叉的硬核任务面前,AI必须表现得像资深工程师一样,在功耗、安全、性能的“不可能三角”中寻找最优解。

这不仅仅是一个测试集,它更像是一场关于Agent“进化”的预演。

当AI开始学会在反馈中自我修正,那个“人类提目标、AI则24小时不间断迭代”的Auto Research时代,可能比我们想象中更近了。

AI开始干“硬活”了

过去的大模型,更像一个超级学霸。

你抛出问题,它从海量训练数据里“翻记忆”,然后拼凑成一个看起来很合理的答案。

这种模式下,大模型本质上是在玩“文字接龙”,而非解决现实问题。

但Frontier-Eng Bench的出现,却让AI干起了“工程优化”的活儿。

流程转而变成了让AI先提出方案、再接入simulator跑实验、继而获取反馈和报错、修改参数和代码、再继续重跑,直到性能继续上涨。

在这种闭环系统中,AI的身份发生了质变。

你想让水下机器人更稳定?AI必须开始自动调控制器。

你想把机械臂速度再提升一点?AI得自己跑仿真。

某种程度上,AI们已经脱离了单纯的语义理解,开始像一个职业工程师那样,在真实环境反馈里做持续优化。

△

Frontier-Eng Bench最有意思的地方在于:它测的不是AI“答对没有”,而是AI到底能不能持续变强。

因为真实的工程优化,从来不是做选择题,没有唯一的标准答案。

以电池快充为例,目标听起来很简单——充得越快越好,但现实没那么容易。

AI必须在温度不能爆表、电压不能超速、电池寿命不能掉太快、还要避免析锂的严苛约束下,精准踩中性能的平衡点。

这意味着AI无法通过任何技巧性的“刷题”来通关,它必须在长程反馈中展现出持续进化的耐力。

那AI能不能在真实环境里做长期优化?

从结果来看,GPT5.4整体表现最稳,但距离把Benchmark“做穿”,AI们要走的路还很远。

△

Auto Research进入“迭代优化”时代

研究团队在论文里提了一个非常有意思的点:

真正高级的智能,本质上都依赖长期反馈闭环。

正如AlphaGo之所以能击败李世石,在于其每一步决策背后深不见底的海量模拟与即时反馈,而非对既定棋谱的死记硬背。

真正的科研也一样,顶级实验室并不依赖某一次的灵感爆发,而是不断地提假设、跑实验、看结果、改方案、再继续尝试。

工程优化也是同理,第一版往往谁都能做,真正难的,其实是最后那1%的性能跃迁。

Frontier-Eng Bench的意义就在于:它第一次开始系统性地测试AI的“迭代优化能力”,并总结出了两条近乎残酷的AI进化规律。

△

第一个规律是:越往后,提升越难。

这篇论文发现,Agent的改进频率和幅度都呈现幂律衰减:

改进频率∝ 1/迭代轮数
改进幅度∝ 1/改进次数

简单说就是:前面几轮涨得最快,后面越来越难、越来越小。

这很像真实研发过程,第一版AI能快速干掉大量“低垂果实”,但越往后越接近瓶颈,想再抠一点性能都得下狠功夫。

那是不是多开几条路并行试错,会更划算?答案藏在第二个规律里。

△

第二个规律:宽度有用,但深度更不可或缺。

并行多跑几条线能避免卡壳,但预算固定时,每多开一条链就会压浅深度。

很多工程突破需要靠持续积累、不断修正,才会出现结构性跃迁,并不是说靠“多试几次”就能实现。

这其实提示了我们下一代Agent的发展方向:不是“一次出答案”的模型,而是能在长程反馈里持续迭代、自我进化的系统。

AI工程师,可能真的要来了

这项研究真正的深远意义,在于它初步勾勒出了一套开始接近真实工程循环的AI系统。

△

试想一下,当AI接入工业软件、仿真环境、CAD系统、芯片设计工具、科学计算平台......

一场生产力模态的剧变便呼之欲出。

未来的实验室里,很可能会出现这样一种分工:

人类研究员负责提出方向和目标。

例如“把这个部件的能耗降低30%”、“把这个模型前向的GPU占用率压得更低”、“让机器人控制的稳定性再提升一点”、“让量子线路的保真度继续逼近极限”等等。

而AI负责“死磕路径”,它们围绕这些目标,持续优化。

例如自动运行仿真与实验、自动读取verifier与simulator的反馈,再继续修改和优化,24小时不停迭代。

这种进化逻辑,让AI摆脱了“辅助工具”的身份,开始像一个真正的工程团队那样去解决复杂系统问题,而且不知疲倦。

而Frontier-Eng这一Benchmark揭示的问题,其实也非常直接:

当AI开始学会“长期优化”,它距离真正的工程智能,还有多远?

论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

项目主页:https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

本文来自微信公众号“量子位”,作者:允中

你可能也喜歡

福建晋江，一家存储超级独角兽静悄悄

近日，随着长鑫科技A股上市成为股王，同为国内三大存储芯片项目之一的福建晋华集成电路有限公司（晋华）重新进入公众视野。这家位于福建晋江的DRAM企业，自2016年成立起便肩负打破海外垄断的使命，却因2018年被美国列入实体清单并遭遇司法指控而陷入长达数年的沉寂。2024年2月，美国法院裁定其无罪，晋华才得以摆脱法律阴影。晋华的曲折发展与灵魂人物陈正坤密不可分。这位拥有美光与联电背景的工程师，怀揣自主开发DRAM的梦想加入晋华。公司初期通过与联电合作快速推进，但随后美光发起诉讼，指控技术窃密，导致晋华产线因设备禁运而停摆。在极端困难下，陈正坤带领团队改造国产设备、重构工艺，艰难维持运营。尽管最终赢得清白，但发展进度已被严重拖慢。目前，晋华专注于利基型DRAM市场，月产能约4万片，拥有千余项专利，但仍在美国实体清单限制之下。晋江这座以鞋服闻名的民营经济强市，为引入晋华这一“硬科技”项目投入巨资，并以政府基金、全链条配套和持续的政策支持，助力企业在制裁中生存下来。如今，以晋华为龙头，晋江已形成超千亿规模的集成电路产业集群。在全球AI驱动存储繁荣的周期中，晋华虽规模尚小，但其在封锁中重建的经历，已成为中国存储产业自主攻坚的缩影。

marsbit1 分鐘前

marsbit1 分鐘前

38GW电力缺口下，比特币矿场为何突然成了AI算力的新入口？

当AI数据中心竞争的核心转向电力资源时，曾经高度依赖电力的比特币矿场正凭借其现成的电网接入、土地和电力设施，转型为AI算力基础设施供应商。摩根士丹利预测，美国2026-2028年数据中心电力缺口可能高达38GW，而改造旧矿场有望贡献10-19GW的容量。一批北美上市矿企，如TeraWulf、Hut 8等，正从“挖矿”转向成为“带电机房壳体提供商”。它们不再只是出售算力，而是向云厂商和AI公司提供已具备电力、土地和基础建筑的场地，帮助客户更快地部署大规模算力。这一转型的关键在于，获取新的电网接入许可可能需要等待5-7年，而现成矿场所拥有的已获批电力容量变得极其稀缺。因此，旧矿场的核心价值正从生产比特币，转变为提供通往AI算力的“电力入口”，其资产价值面临重估。

华尔街日报1 分鐘前

华尔街日报1 分鐘前

迈克尔·塞勒："我们从未说过永远不会出售比特币"

微策略公司主席迈克尔·塞勒表示，公司从未承诺永不卖出其持有的比特币，但预计在长期内仍将保持比特币的净买家身份。此番言论是针对有报道称微策略新获准出售最多价值50亿美元比特币的回应。塞勒澄清，该出售许可并非新消息，而是公司早在6月29日就已公布的资本管理体系的一部分。他指出，相关许可是为了特定目的而设，但并未强制公司必须出售比特币。他强调，公司没有宣布任何新的许可，且预期未来将继续净买入比特币。塞勒还说明，公司的比特币货币化计划并不要求出售比特币资产，并重申公司从未正式采纳“永不卖出比特币”的政策。

cryptonews.ru1 小時前

cryptonews.ru1 小時前

《夏季拉锯战》仍在继续：突破67000美元将是比特币上涨的起点

比特币价格在8月1日跌至62,217美元，延续了自6月5日开始的盘整格局。目前比特币被困在58,000至67,000美元的区间内，市场参与者对下一步走向存在分歧。技术分析显示关键价位在60,000美元和67,000美元。交易员Crypto Candy认为，只要价格低于66,000美元，就可能跌向60,000美元或更低。投资者Jelle则将当前市场比作“夏季拉锯战”，坚持定期买入的平均成本策略。上行突破的关键在于能否站稳67,000美元以上。交易员Daan Crypto Trades认为，若无法突破此位，市场可能继续盘整。交易员Roman则预测，若伴随足够交易量有效突破67,000美元，价格可能快速上涨至70,000-80,000美元区间。宏观分析师Gert van Lagen从更长周期观察，认为比特币正在测试一个持续七年之久的“杯柄形态”的颈线位，市场恐惧情绪在盘整中逐渐消退。他强调，长期持有者仍未出现投降迹象，NUPL指标显示他们远未进入抛售区域。总而言之，市场共识是比特币正处于积累阶段，60,000美元和67,000美元是关键水平，对任一水平的突破都将决定资产的下一个方向。当前围绕67,000美元的博弈，也反映出短期持有者盈亏平衡点附近的心理压力。近期价格在利好新闻后迅速回落，表明市场叙事尚未转化为持续的资本流入，能否构建更稳固的上涨基础仍有待观察。

cryptonews.ru1 小時前

cryptonews.ru1 小時前

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

本周（8月3日至8月9日）有多项重要事件值得关注。其中，美国参议院或将对CLARITY法案进行全院表决，该法案旨在为加密行业建立联邦监管框架，谈判需在8月7日前争取足够票数支持。SpaceX和Circle将分别于8月4日和5日公布第二季度财报。SpaceX在发布财报后，其股票将于8月6日迎来首次大规模解锁，比例最高可达总股本的12%。美国7月非农就业报告也将于8月7日公布，市场预期将有所改善。其他事件方面，特朗普家族关联矿企American Bitcoin将于8月3日发布财报；DeFi追踪器Zapper和钱包Ctrl Wallet将于同日停止运营；LayerZero将弃用v1中继器；韩国交易所Upbit将下架AQT和AERGO代币。比特币矿企Hut 8也将于8月4日公布业绩。此外，马斯克宣布Grok 4.6预计于8月7日左右发布，BIP-110强制信号发送将于8月8日前后开始。

marsbit2 小時前

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

marsbit2 小時前

交易

現貨

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

文章摘要

AI开始干“硬活”了

Auto Research进入“迭代优化”时代

AI工程师,可能真的要来了

熱門幣種推薦

相關問答

你可能也喜歡

福建晋江，一家存储超级独角兽静悄悄

38GW电力缺口下，比特币矿场为何突然成了AI算力的新入口？

迈克尔·塞勒："我们从未说过永远不会出售比特币"

《夏季拉锯战》仍在继续：突破67000美元将是比特币上涨的起点

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

交易

熱門文章

如何購買ERA

相關討論

熱門問答

熱門分類

熱門標籤