Auto Research Era: 47 Tasks Without Standard Answers Become the Must-Test Leaderboard for Agent Capabilities

marsbitXuất bản vào 2026-05-13Cập nhật gần nhất vào 2026-05-13

Tóm tắt

The article introduces Frontier-Eng Bench, a new benchmark for AI agents developed by Einsia AI's Navers lab. Unlike traditional tests with clear answers, this benchmark presents 47 complex, real-world engineering tasks—such as optimizing underwater robot stability, battery fast-charging protocols, or quantum circuit noise control—where there is no single correct solution, only continuous optimization towards a limit. It shifts AI evaluation from static knowledge retrieval to a dynamic "engineering closed-loop": the AI must propose solutions, run simulations, interpret errors, adjust parameters, and re-run experiments to iteratively improve performance. This process tests an agent's ability to learn and evolve through long-term feedback, much like a human engineer tackling trade-offs between power, safety, and performance. Key findings from the benchmark reveal two patterns: 1) Improvements follow a power-law decay, becoming harder and smaller as optimization progresses, and 2) While exploring multiple solution paths (breadth) helps, sustained depth in a single path is crucial for breakthrough innovations. The research suggests this marks a step toward "Auto Research," where AI systems can autonomously conduct continuous, tireless optimization in scientific and engineering domains. Humans would set high-level goals, while AI agents handle the iterative experimentation and refinement. This could fundamentally change research and development workflows.

If we throw AI into an engineering site with no standard answers, can it still survive?

For a long time, AI Agents have appeared omnipotent, but in reality, most are just 'flipping through memories' within known knowledge bases.

Yet the real engineering world is harsh: the stability of underwater robots, the lithium plating boundary of power batteries, the noise control of quantum circuits... These problems have no 'perfect score', only 'optimizations that inch closer to the limit'.

Recently, the Agent Benchmark released by Navers lab under Einsia AIFrontier-Eng Bench—officially tore off the label of AI being an 'exam-crammer'.

The research team didn't have AI grind through outdated coding problems. Instead, they gave it a complete 'engineering closed loop': propose a solution, connect to the simulator, digest errors, adjust parameters, and re-run.

Faced with 47 hardcore tasks spanning multiple disciplines, AI must behave like a senior engineer, seeking the optimal solution within the 'impossible triangle' of power consumption, safety, and performance.

This is not just a test suite; it's more like a rehearsal for Agent 'evolution'.

When AI begins to learn self-correction from feedback, the Auto Research era, where 'humans set goals and AI iterates non-stop 24/7', might be closer than we imagine.

AI Starts Tackling 'Hard Work'

Past large language models were more like super straight-A students.

You pose a question, it 'flips through memory' from massive training data, then pieces together an answer that seems plausible.

In this mode, the large model is essentially playing 'word chain', not solving real-world problems.

But the emergence of Frontier-Eng Bench has AI doing the work of 'engineering optimization'.

The process has shifted to letting AI first propose a solution, then connect to a simulator to run experiments, subsequently obtain feedback and errors, modify parameters and code, and continue re-running until performance improves further.

In this closed-loop system, AI's identity undergoes a qualitative change.

Want to make the underwater robot more stable? AI must start automatically tuning the controller.

Want to increase the speed of the robotic arm a bit more? AI has to run simulations itself.

To some extent, AIs have shed their purely semantic understanding role and begun to act like professional engineers, continuously optimizing based on real-world environmental feedback.

The most interesting aspect of Frontier-Eng Bench is: it doesn't test whether AI 'answered correctly', but rather whether AI can continuously become stronger.

Because real engineering optimization is never about multiple-choice questions; there is no single standard answer.

Take fast-charging batteries as an example: the goal sounds simple—charge as fast as possible, but reality isn't so easy.

Under strict constraints like temperature mustn't spike, voltage can't overspeed, battery life can't drop too fast, and lithium plating must be avoided, AI must precisely hit the balance point of performance.

This means AI cannot pass through by any clever 'test-cramming' tricks; it must demonstrate endurance for continuous evolution through long-term feedback.

Can AI perform long-term optimization in real environments?

Looking at the results, GPT5.4 showed the most stable overall performance, but AIs still have a long way to go before 'solving' the Benchmark.

Auto Research Enters the 'Iterative Optimization' Era

The research team raised a very interesting point in their paper:

Truly advanced intelligence essentially relies on long-term feedback loops.

Just as AlphaGo could defeat Lee Sedol, it lay in the vast number of simulations and immediate feedback behind each decision, not the rote memorization of established game records.

True scientific research is the same: top labs don't rely on a single burst of inspiration, but continuously propose hypotheses, run experiments, examine results, modify plans, and try again.

Engineering optimization follows the same principle: anyone can create the first version; what's truly difficult is that final 1% performance leap.

The significance of Frontier-Eng Bench lies here: For the first time, it systematically begins testing AI's 'iterative optimization capability', and has summarized two nearly brutal laws of AI evolution.

The first law is: The further you go, the harder the improvement.

This paper found that the frequency and magnitude of Agent improvements follow a power-law decay:

  • Improvement frequency ∝ 1 / iteration count
  • Improvement magnitude ∝ 1 / improvement count

Simply put: the fastest gains come in the first few rounds, and it gets progressively harder and smaller later on.

This closely resembles the real R&D process: the first version of AI can quickly eliminate many 'low-hanging fruits', but the closer it gets to the bottleneck, the more effort is required to squeeze out even a bit more performance.

Would it be more cost-effective to explore multiple paths in parallel for trial and error? The answer lies in the second law.

The second law: Breadth is useful, but depth is even more indispensable.

Running multiple parallel paths can avoid getting stuck, but with a fixed budget, each additional chain opened shallows the depth of exploration.

Many engineering breakthroughs require continuous accumulation and constant correction before structural leaps emerge; they can't be achieved simply by 'trying a few more times'.

This actually points towards the development direction of next-generation Agents: not models that 'output an answer once', but systems that can continuously iterate and self-evolve within long-term feedback loops.

AI Engineers Might Really Be Coming

The true far-reaching significance of this research lies in its preliminary outline of an AI system beginning to approach the real engineering cycle.

Imagine when AI connects to industrial software, simulation environments, CAD systems, chip design tools, scientific computing platforms...

A dramatic transformation in the modality of productivity is on the verge of emerging.

In future labs, a division of labor like this might appear:

Human researchers are responsible for proposing directions and goals.

For example, 'reduce this component's energy consumption by 30%', 'compress this model's forward pass GPU usage even lower', 'increase the stability of robot control a bit more', 'push the fidelity of this quantum circuit closer to the limit', etc.

And AI is responsible for 'grinding the path'. They focus on these goals, continuously optimizing.

For example, automatically running simulations and experiments, automatically reading feedback from verifiers and simulators, then continuing to modify and optimize, iterating non-stop 24/7.

This evolutionary logic frees AI from the identity of an 'assistive tool', allowing it to begin solving complex system problems like a real engineering team—and tirelessly at that.

And the issues revealed by the Frontier-Eng Benchmark are actually very direct:

When AI begins to learn 'long-term optimization', how far is it from true engineering intelligence?

Paper Title: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Project Homepage: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

This article is from the WeChat public account "Quantum Bit", author: Yun Zhong

Câu hỏi Liên quan

QWhat is the main purpose of the Frontier-Eng Benchmark released by Einsteina AI's Navers lab?

AThe main purpose of the Frontier-Eng Benchmark is to move beyond testing AI's ability to recall known information. It systematically tests AI agents' capability for 'iterative optimization' on 47 real-world, open-ended engineering tasks without standard answers, evaluating if they can continuously improve performance through a feedback loop involving simulation, error analysis, and parameter adjustment.

QHow does the AI's role change in the Frontier-Eng Benchmark testing process compared to traditional language models?

AIn the Frontier-Eng Benchmark, the AI transitions from acting as a 'super student' that retrieves and assembles answers from training data to performing 'engineering optimization.' Its role becomes akin to a professional engineer: it proposes solutions, runs simulations, analyzes feedback and errors, modifies parameters/code, and reruns experiments in a continuous loop to seek optimal performance under complex constraints.

QWhat are the two key 'AI evolution laws' discovered through the Frontier-Eng Benchmark regarding iterative optimization?

AThe two key laws are: 1) Improvements become progressively harder and smaller (showing a power-law decay: Improvement frequency ∝ 1/iteration count, Improvement magnitude ∝ 1/improvement count). 2) While exploring multiple parallel paths (breadth) is useful, sustained depth in a single optimization path is more critical for achieving structural breakthroughs, as fixed budgets force a trade-off between breadth and depth.

QWhat future work paradigm does the article suggest might emerge from the development of self-evolving AI agents?

AThe article suggests a future 'Auto Research' paradigm where human researchers define the goals and direction (e.g., 'reduce component energy consumption by 30%'), and AI agents take on the role of 'grinding the path.' They would work autonomously and tirelessly—running simulations, interpreting feedback from verifiers and simulators, and iteratively optimizing—24/7 to approach performance limits.

QAccording to the article, what fundamental shift in AI capability does the Frontier-Eng Benchmark represent?

AThe Frontier-Eng Benchmark represents a fundamental shift from evaluating AI's ability to find predetermined 'correct answers' to testing its capacity for 'self-evolution' through long-term feedback loops. It moves the focus to whether AI can demonstrate sustained learning and improvement in complex, real-world scenarios with no single correct answer, pushing AI closer to genuine engineering intelligence.

Nội dung Liên quan

Từ Tài Chính Song Song Đến Tài Chính Chủ Lưu, Thời Đại Chứng Khoán Trên Chuỗi Mở Ra Cơ Hội Lịch Sử

Tác giả: Climber, CryptoPulse Labs Trong hơn một thập kỷ qua, ngành công nghiệp tiền mã hóa đã phát triển như một thí nghiệm tài chính độc lập với thế giới thực, xây dựng hệ sinh thái riêng biệt với tiền tệ, thị trường và tài sản của mình. Tuy nhiên, một bức tường ngăn cách giữa thế giới crypto và hệ thống tài chính truyền thống vẫn tồn tại. Hiện nay, bức tường đó đang bị phá bỏ, mở ra kỷ nguyên mới cho các công ty môi giới chứng khoán mã hóa gốc (native crypto securities brokerage), hội tụ hệ thống tài chính toàn cầu. Giai đoạn đầu của crypto tập trung vào sự tiến hóa nội bộ: ICO giải quyết vấn đề gọi vốn, DeFi tái cấu trúc cơ sở hạ tầng dịch vụ tài chính, cuộc chiến giữa các blockchain và sự bùng nổ của NFT, meme coin. Tuy nhiên, tất cả chủ yếu diễn ra trong một hệ sinh thái khép kín, với vốn và người dùng luân chuyển nội bộ. Ngay cả khi ETF Bitcoin thu hút vốn từ Phố Wall, nó chỉ mới là kênh để vốn truyền thống mua tài sản crypto, chưa đưa tài sản thế giới thực lên blockchain. Câu chuyện lớn hơn ETF chính là sự kiện tài sản chứng khoán bắt đầu được token hóa. Cổ phiếu, trái phiếu, quỹ... có thể được số hóa và tồn tại trên chain. Điều này hứa hẹn cách mạng hóa cơ sở hạ tầng tài chính: các quy trình phức tạp như giao dịch, thanh toán bù trừ, lưu ký có thể được tự động hóa và hoàn tất trong vài giây bằng hợp đồng thông minh. Các công ty môi giới chứng khoán mã hóa gốc sẽ trở thành cổng vào tài chính mới, kết hợp chức năng của sàn giao dịch, công ty môi giới, ngân hàng và ví. Trận chiến tiếp theo không còn là cuộc chiến giữa các blockchain về TPS hay phí gas, mà là cuộc cạnh tranh để thu hút tài sản chất lượng và thanh khoản toàn cầu. Khi người dùng có thể mua cổ phiếu toàn cầu, trái phiếu hay thậm chí cổ phần của các công ty công nghệ đỉnh cao như SpaceX trên blockchain, ranh giới giữa hai thế giới sẽ biến mất. Quy mô thị trường chứng khoán và trái phiếu toàn cầu (hàng trăm nghìn tỷ USD) lớn hơn rất nhiều so với thị trường crypto hiện tại, mở ra câu chuyện tăng trưởng hoàn toàn mới. Tóm lại, nếu như mười năm qua ngành công nghiệp crypto cố gắng tạo ra một thế giới mới, thì mười năm tới đây, nó sẽ kết nối và hòa nhập trực tiếp với thế giới tài chính truyền thống. Sự hội tụ thực sự này mới chính là câu chuyện tăng trưởng lớn nhất sắp tới.

marsbit14 phút trước

Từ Tài Chính Song Song Đến Tài Chính Chủ Lưu, Thời Đại Chứng Khoán Trên Chuỗi Mở Ra Cơ Hội Lịch Sử

marsbit14 phút trước

Vương Xuyên: Khi ông lão hàng xóm kiếm được ba mươi lần lợi nhuận từ cổ phiếu bộ nhớ, làm thế nào để không còn lo lắng (Sáu) - Cái bẫy của hàng hóa đồng nhất

Tác giả Vương Xuyên tiếp tục loạt bài về đầu tư, cảnh báo nguy cơ của cổ phiếu lưu trữ - một ngành hàng hóa đồng nhất. Bài viết lấy ví dụ về công ty Iomega (chuyên ổ đĩa Zip) những năm 1990, cổ phiếu tăng 160 lần rồi sụp đổ 97%, và ngành DRAM với chu kỳ giá cả khắc nghiệt, nhiều công ty phá sản. Bản chất ngành lưu trữ là nhu cầu co giãn (elastic demand) đối mặt với nguồn cung cứng nhắc, nặng vốn và chu kỳ dài (rigid supply). Khi nhu cầu AI (đặc biệt cho HBM) bùng nổ gần đây, nguồn cung hạn chế đẩy giá và lợi nhuận biên của các hãng như Sandisk, Micron tăng vọt (lợi nhuận gộp từ ~22% lên ~78%). Tuy nhiên, lợi nhuận cao này sẽ tự hủy diệt chính nó vì: 1. Kích thích đầu tư mở rộng công suất mới (hàng trăm tỷ USD từ 2026), dự kiến ra mắt từ cuối 2027. 2. Giá cao sẽ làm giảm nhu cầu cận biên và thúc đẩy đổi mới công nghệ để tiết kiệm bộ nhớ. 3. Các thỏa thuận dài hạn (LTA) trong ngành thường mong manh, có thể bị phá vỡ khi thị trường thay đổi. Tác giả chỉ ra nghịch lý: ở đỉnh chu kỳ, cổ phiếu lưu trữ thường có P/E thấp (có vẻ rẻ), nhưng đó lại là thời điểm rủi ro nhất vì lợi nhuận có thể biến mất nhanh chóng khi giá hàng hóa giảm. Rủi ro hiện tại là bất cân xứng: khả năng giá giảm cao hơn nhiều so với khả năng tiếp tục tăng. Các yếu tố rủi ro bao gồm suy thoái kinh tế, cắt giảm chi tiêu AI của nhà cung cấp đám mây, công suất mới (đặc biệt từ Trung Quốc) tăng nhanh, và đột phá công nghệ giảm nhu cầu bộ nhớ.

marsbit23 phút trước

Vương Xuyên: Khi ông lão hàng xóm kiếm được ba mươi lần lợi nhuận từ cổ phiếu bộ nhớ, làm thế nào để không còn lo lắng (Sáu) - Cái bẫy của hàng hóa đồng nhất

marsbit23 phút trước

AI PC đã tới, chạy mô hình lớn 120B ngay trên máy! NVIDIA định nghĩa lại nền tảng 'Máy tính Cá nhân AI' với RTX Spark

Trong hai năm qua, các nhà sản xuất PC thường xuyên nhắc đến thông số "TOPS của NPU" khi quảng bá "AI PC", nhưng những con số này vẫn ở mức tương đối khiêm tốn, chỉ phù hợp cho các tác vụ AI nhẹ. Tại GTC 2026, NVIDIA đã giới thiệu siêu chip RTX Spark với hiệu năng AI lên tới 1 petaflop (1000 TOPS), vượt trội hơn hẳn một bậc so với các giải pháp NPU trước đây. RTX Spark tích hợp GPU kiến trúc Blackwell, CPU Arm Grace 20 nhân do MediaTek đồng thiết kế và sử dụng bộ nhớ thống nhất lên đến 128GB, cho phép CPU và GPU chia sẻ chung một nhóm bộ nhớ. Sự thay đổi kiến trúc này giúp thiết bị có khả năng chạy mô hình lớn (LLM) 120B tham số ngay tại本地 (on-device) với cửa sổ ngữ cảnh lên tới triệu token. Ngoài ra, nó còn hỗ trợ chỉnh sửa video 12K, render cảnh 3D và chơi game ray-tracing ở mức khung hình cao. NVIDIA cũng công bố hợp tác với Microsoft để tăng cường bảo mật cho Windows, tích hợp thời gian chạy sandbox mã nguồn mở OpenShell để cô lập và quản lý hành vi của AI agent, giúp các doanh nghiệp triển khai thiết bị này một cách an toàn. Về phía phần mềm, Adobe tuyên bố sẽ tái cấu trúc Photoshop và Premiere từ gốc để tối ưu hóa cho kiến trúc bộ nhớ thống nhất của RTX Spark, hứa hẹn tăng hiệu suất lên gấp đôi. Sáu OEM hàng đầu bao gồm ASUS, Dell, HP, Lenovo, Microsoft Surface và MSI sẽ ra mắt máy tính xách tay mỏng nhẹ và máy tính để bàn nhỏ gọn tích hợp RTX Spark vào mùa thu năm nay, Acer và Gigabyte sẽ theo sau. Tuy nhiên, các câu hỏi về giá cả, khả năng tản nhiệt, hiệu suất thực tế và thời lượng pin vẫn cần được làm rõ khi sản phẩm chính thức ra mắt. Sự xuất hiện của RTX Spark đánh dấu sự dịch chuyển quyền lực trong ngành công nghiệp PC, từ mô hình truyền thống lấy CPU x86 làm trung tâm sang mô hình nền tảng SoC mới lấy GPU làm chủ đạo.

marsbit54 phút trước

AI PC đã tới, chạy mô hình lớn 120B ngay trên máy! NVIDIA định nghĩa lại nền tảng 'Máy tính Cá nhân AI' với RTX Spark

marsbit54 phút trước

Jensen Huang: Vera Rubin Đã Được Sản Xuất Hàng Loạt, AI Agent Là Hướng Đi Trọng Tâm, Thách Thức Intel Và Nhắm Đến Cổng Vào AI PC Thế Hệ Tiếp Theo

Ngày 1/6, CEO NVIDIA Jensen Huang đã có bài phát biểu quan trọng tại GTC Đài Bắc 2026, công bố hàng loạt sản phẩm và định hướng mới. Kiến trúc Vera Rubin đã chính thức được sản xuất hàng loạt, với khách hàng đầu tiên là OpenAI, Anthropic và SpaceX. NVIDIA tập trung mạnh vào phát triển AI Agent, đồng thời giới thiệu CPU Vera dành riêng cho các tác nhân AI. Một điểm nhấn lớn là tham vọng của NVIDIA trong thị trường AI PC thế hệ tiếp theo. Họ sẽ hợp tác với MediaTek phát triển chip RTX SPARK cho máy tính Windows, do TSMC sản xuất, dự kiến ra mắt vào mùa thu năm nay. Động thái này được xem như một thách thức trực tiếp đối với Intel và hướng tới việc cung cấp nền tảng tính toán hoàn chỉnh cho toàn bộ hệ sinh thái Windows. NVIDIA cũng công bố mô hình AI mới Nemotron 3 Ultra và nền tảng DSX - một "hướng dẫn hành động" hoàn chỉnh để xây dựng các nhà máy AI. Trong lĩnh vực ô tô tự hành, nền tảng DRIVE Hyperion đã được nhiều hãng xe Trung Quốc như BYD, Geely, Zeekr, Xiaomi và Pony.ai áp dụng. NVIDIA còn giới thiệu mô hình suy luận mở Alpamayo 2 cho taxi tự lái. Về robot hình người, NVIDIA hợp tác toàn cầu, bao gồm công ty Trung Quốc Unitree, và giới thiệu nền tảng tham chiếu Isaac GR00T cùng bộ công cụ phát triển mã nguồn mở, nhằm xây dựng hệ sinh thái cho kỷ nguyên robot.

marsbit1 giờ trước

Jensen Huang: Vera Rubin Đã Được Sản Xuất Hàng Loạt, AI Agent Là Hướng Đi Trọng Tâm, Thách Thức Intel Và Nhắm Đến Cổng Vào AI PC Thế Hệ Tiếp Theo

marsbit1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua ERA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Caldera (ERA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Caldera (ERA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Caldera (ERA) của BạnSau khi mua Caldera (ERA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Caldera (ERA)Giao dịch Caldera (ERA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 516Xuất bản vào 2025.07.17Cập nhật vào 2025.07.17

Làm thế nào để Mua ERA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của ERA (ERA) được trình bày dưới đây.

活动图片