Auto Research Era: 47 Tasks Without Standard Answers Become the Must-Test Leaderboard for Agent Capabilities

marsbitXuất bản vào 2026-05-13Cập nhật gần nhất vào 2026-05-13

Tóm tắt

The article introduces Frontier-Eng Bench, a new benchmark for AI agents developed by Einsia AI's Navers lab. Unlike traditional tests with clear answers, this benchmark presents 47 complex, real-world engineering tasks—such as optimizing underwater robot stability, battery fast-charging protocols, or quantum circuit noise control—where there is no single correct solution, only continuous optimization towards a limit. It shifts AI evaluation from static knowledge retrieval to a dynamic "engineering closed-loop": the AI must propose solutions, run simulations, interpret errors, adjust parameters, and re-run experiments to iteratively improve performance. This process tests an agent's ability to learn and evolve through long-term feedback, much like a human engineer tackling trade-offs between power, safety, and performance. Key findings from the benchmark reveal two patterns: 1) Improvements follow a power-law decay, becoming harder and smaller as optimization progresses, and 2) While exploring multiple solution paths (breadth) helps, sustained depth in a single path is crucial for breakthrough innovations. The research suggests this marks a step toward "Auto Research," where AI systems can autonomously conduct continuous, tireless optimization in scientific and engineering domains. Humans would set high-level goals, while AI agents handle the iterative experimentation and refinement. This could fundamentally change research and development workflows.

If we throw AI into an engineering site with no standard answers, can it still survive?

For a long time, AI Agents have appeared omnipotent, but in reality, most are just 'flipping through memories' within known knowledge bases.

Yet the real engineering world is harsh: the stability of underwater robots, the lithium plating boundary of power batteries, the noise control of quantum circuits... These problems have no 'perfect score', only 'optimizations that inch closer to the limit'.

Recently, the Agent Benchmark released by Navers lab under Einsia AIFrontier-Eng Bench—officially tore off the label of AI being an 'exam-crammer'.

The research team didn't have AI grind through outdated coding problems. Instead, they gave it a complete 'engineering closed loop': propose a solution, connect to the simulator, digest errors, adjust parameters, and re-run.

Faced with 47 hardcore tasks spanning multiple disciplines, AI must behave like a senior engineer, seeking the optimal solution within the 'impossible triangle' of power consumption, safety, and performance.

This is not just a test suite; it's more like a rehearsal for Agent 'evolution'.

When AI begins to learn self-correction from feedback, the Auto Research era, where 'humans set goals and AI iterates non-stop 24/7', might be closer than we imagine.

AI Starts Tackling 'Hard Work'

Past large language models were more like super straight-A students.

You pose a question, it 'flips through memory' from massive training data, then pieces together an answer that seems plausible.

In this mode, the large model is essentially playing 'word chain', not solving real-world problems.

But the emergence of Frontier-Eng Bench has AI doing the work of 'engineering optimization'.

The process has shifted to letting AI first propose a solution, then connect to a simulator to run experiments, subsequently obtain feedback and errors, modify parameters and code, and continue re-running until performance improves further.

In this closed-loop system, AI's identity undergoes a qualitative change.

Want to make the underwater robot more stable? AI must start automatically tuning the controller.

Want to increase the speed of the robotic arm a bit more? AI has to run simulations itself.

To some extent, AIs have shed their purely semantic understanding role and begun to act like professional engineers, continuously optimizing based on real-world environmental feedback.

The most interesting aspect of Frontier-Eng Bench is: it doesn't test whether AI 'answered correctly', but rather whether AI can continuously become stronger.

Because real engineering optimization is never about multiple-choice questions; there is no single standard answer.

Take fast-charging batteries as an example: the goal sounds simple—charge as fast as possible, but reality isn't so easy.

Under strict constraints like temperature mustn't spike, voltage can't overspeed, battery life can't drop too fast, and lithium plating must be avoided, AI must precisely hit the balance point of performance.

This means AI cannot pass through by any clever 'test-cramming' tricks; it must demonstrate endurance for continuous evolution through long-term feedback.

Can AI perform long-term optimization in real environments?

Looking at the results, GPT5.4 showed the most stable overall performance, but AIs still have a long way to go before 'solving' the Benchmark.

Auto Research Enters the 'Iterative Optimization' Era

The research team raised a very interesting point in their paper:

Truly advanced intelligence essentially relies on long-term feedback loops.

Just as AlphaGo could defeat Lee Sedol, it lay in the vast number of simulations and immediate feedback behind each decision, not the rote memorization of established game records.

True scientific research is the same: top labs don't rely on a single burst of inspiration, but continuously propose hypotheses, run experiments, examine results, modify plans, and try again.

Engineering optimization follows the same principle: anyone can create the first version; what's truly difficult is that final 1% performance leap.

The significance of Frontier-Eng Bench lies here: For the first time, it systematically begins testing AI's 'iterative optimization capability', and has summarized two nearly brutal laws of AI evolution.

The first law is: The further you go, the harder the improvement.

This paper found that the frequency and magnitude of Agent improvements follow a power-law decay:

  • Improvement frequency ∝ 1 / iteration count
  • Improvement magnitude ∝ 1 / improvement count

Simply put: the fastest gains come in the first few rounds, and it gets progressively harder and smaller later on.

This closely resembles the real R&D process: the first version of AI can quickly eliminate many 'low-hanging fruits', but the closer it gets to the bottleneck, the more effort is required to squeeze out even a bit more performance.

Would it be more cost-effective to explore multiple paths in parallel for trial and error? The answer lies in the second law.

The second law: Breadth is useful, but depth is even more indispensable.

Running multiple parallel paths can avoid getting stuck, but with a fixed budget, each additional chain opened shallows the depth of exploration.

Many engineering breakthroughs require continuous accumulation and constant correction before structural leaps emerge; they can't be achieved simply by 'trying a few more times'.

This actually points towards the development direction of next-generation Agents: not models that 'output an answer once', but systems that can continuously iterate and self-evolve within long-term feedback loops.

AI Engineers Might Really Be Coming

The true far-reaching significance of this research lies in its preliminary outline of an AI system beginning to approach the real engineering cycle.

Imagine when AI connects to industrial software, simulation environments, CAD systems, chip design tools, scientific computing platforms...

A dramatic transformation in the modality of productivity is on the verge of emerging.

In future labs, a division of labor like this might appear:

Human researchers are responsible for proposing directions and goals.

For example, 'reduce this component's energy consumption by 30%', 'compress this model's forward pass GPU usage even lower', 'increase the stability of robot control a bit more', 'push the fidelity of this quantum circuit closer to the limit', etc.

And AI is responsible for 'grinding the path'. They focus on these goals, continuously optimizing.

For example, automatically running simulations and experiments, automatically reading feedback from verifiers and simulators, then continuing to modify and optimize, iterating non-stop 24/7.

This evolutionary logic frees AI from the identity of an 'assistive tool', allowing it to begin solving complex system problems like a real engineering team—and tirelessly at that.

And the issues revealed by the Frontier-Eng Benchmark are actually very direct:

When AI begins to learn 'long-term optimization', how far is it from true engineering intelligence?

Paper Title: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Project Homepage: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

This article is from the WeChat public account "Quantum Bit", author: Yun Zhong

Câu hỏi Liên quan

QWhat is the main purpose of the Frontier-Eng Benchmark released by Einsteina AI's Navers lab?

AThe main purpose of the Frontier-Eng Benchmark is to move beyond testing AI's ability to recall known information. It systematically tests AI agents' capability for 'iterative optimization' on 47 real-world, open-ended engineering tasks without standard answers, evaluating if they can continuously improve performance through a feedback loop involving simulation, error analysis, and parameter adjustment.

QHow does the AI's role change in the Frontier-Eng Benchmark testing process compared to traditional language models?

AIn the Frontier-Eng Benchmark, the AI transitions from acting as a 'super student' that retrieves and assembles answers from training data to performing 'engineering optimization.' Its role becomes akin to a professional engineer: it proposes solutions, runs simulations, analyzes feedback and errors, modifies parameters/code, and reruns experiments in a continuous loop to seek optimal performance under complex constraints.

QWhat are the two key 'AI evolution laws' discovered through the Frontier-Eng Benchmark regarding iterative optimization?

AThe two key laws are: 1) Improvements become progressively harder and smaller (showing a power-law decay: Improvement frequency ∝ 1/iteration count, Improvement magnitude ∝ 1/improvement count). 2) While exploring multiple parallel paths (breadth) is useful, sustained depth in a single optimization path is more critical for achieving structural breakthroughs, as fixed budgets force a trade-off between breadth and depth.

QWhat future work paradigm does the article suggest might emerge from the development of self-evolving AI agents?

AThe article suggests a future 'Auto Research' paradigm where human researchers define the goals and direction (e.g., 'reduce component energy consumption by 30%'), and AI agents take on the role of 'grinding the path.' They would work autonomously and tirelessly—running simulations, interpreting feedback from verifiers and simulators, and iteratively optimizing—24/7 to approach performance limits.

QAccording to the article, what fundamental shift in AI capability does the Frontier-Eng Benchmark represent?

AThe Frontier-Eng Benchmark represents a fundamental shift from evaluating AI's ability to find predetermined 'correct answers' to testing its capacity for 'self-evolution' through long-term feedback loops. It moves the focus to whether AI can demonstrate sustained learning and improvement in complex, real-world scenarios with no single correct answer, pushing AI closer to genuine engineering intelligence.

Nội dung Liên quan

SpaceX, OpenAI, Anthropic: Ba Gã Khổng Lồ AI Đồng Loạt Chạy Đà Lên Sàn, Nên Đặt Cược Vào Ai?

**Tóm tắt Podcast: SpaceX, OpenAI, Anthropic Đua Nhau IPO - Cơn Khát Vốn AI** Trong tập podcast này, hai host Josh Kale và Ejaaz Ahamadeen thảo luận về làn sóng IPO chưa từng có từ ba gã khổng lồ AI: SpaceX, OpenAI và Anthropic. Tổng số vốn huy động dự kiến lên tới 1800 tỷ USD, lớn hơn cả tổng vốn thời bong bóng dot-com. Lý do chính là nhu cầu chi tiêu vốn (capex) cho cơ sở hạ tầng AI (như chip, trung tâm dữ liệu, điện năng) đang vượt quá khả năng tài chính từ dòng tiền tự do của chính các công ty. **Điểm nổi bật:** * **SpaceX:** IPO của họ có thể thay đổi luật lệ thị trường, với các quỹ chỉ số (index fund) và quỹ hưu trí 401(k) phải mua vào cổ phiếu một cách thụ động chỉ sau vài ngày niêm yết. Tuy nhiên, mô hình kinh doanh trung tâm dữ liệu trong vũ trụ vẫn chưa được chứng minh. * **Anthropic:** Là công ty có tốc độ tăng trưởng doanh thu ấn tượng nhất, đạt 450 tỷ USD doanh thu thường niên hóa (ARR) nhờ Claude Code và các hợp đồng doanh nghiệp. Họ dự kiến sớm có lãi và có độ phủ rộng trong nhóm Fortune 10. * **OpenAI & Google:** OpenAI cần vốn để xây dựng thêm trung tâm dữ liục phục vụ việc đào tạo mô hình. Trong khi đó, Google - một công ty đã niêm yết - cũng huy động 800 tỷ USD bên ngoài để đổ vào cuộc đua AI, phản ánh sự cấp thiết và quy mô chi tiêu khổng lồ. **Quan điểm chính:** Dù có lo ngại về rủi ro bong bóng, các host nhìn chung lạc quan. Họ cho rằng đây không phải là hiện tượng đầu cơ rỗng mà là việc xây dựng nền tảng công nghệ thiết yếu cho tương lai. Nhu cầu về sức mạnh tính toán (compute) hiện vượt xa nguồn cung, bị giới hạn bởi các ràng buộc vật lý như tốc độ sản xuất chip và xây dựng cơ sở hạ tầng. Cuộc chạy đua vốn này có thể dẫn đến một sự tái công nghiệp hóa quan trọng tại Mỹ.

marsbit14 phút trước

SpaceX, OpenAI, Anthropic: Ba Gã Khổng Lồ AI Đồng Loạt Chạy Đà Lên Sàn, Nên Đặt Cược Vào Ai?

marsbit14 phút trước

“Cổ Phiếu Lão Làng” Biến Thành “Quý Tộc Mới”: Từ Dell Đến Nokia, AI Đang Định Giá Lại Cơ Sở Hạ Tầng Cũ Như Thế Nào?

Cách đây một năm, những công ty công nghệ lâu đời như Dell, Nokia, Cisco, Corning, Western Digital thường bị gắn mác "tăng trưởng chậm" và "câu chuyện cũ" trong cơn sốt AI. Tuy nhiên, gần đây, họ lại trở thành những mã chứng khoán được quan tâm trở lại. Sự thay đổi này bắt nguồn từ việc AI đang chuyển từ giai đoạn phát triển mô hình sang giai đoạn triển khai hạ tầng thực tế. Khi các trung tâm dữ liệu AI được xây dựng hàng loạt, thị trường bắt đầu tìm kiếm những công ty có năng lực triển khai, tích hợp hệ thống và cung cấp hạ tầng vật lý. Đây chính là lợi thế của các "cựu binh" với nhiều thập kỷ kinh nghiệm về chuỗi cung ứng, kênh phân phối và dịch vụ khách hàng. Các công ty này được định giá lại chủ yếu theo ba mạch chính trong chuỗi hạ tầng AI: 1. **Máy chủ & Tích hợp hệ thống:** Dell và HPE không sản xuất GPU, nhưng họ đóng vai trò như "nhà thầu chính" lắp ráp, tích hợp hệ thống máy chủ AI hoàn chỉnh (bao gồm làm mát, nguồn điện) và giao hàng cho khách hàng. Doanh thu máy chủ AI tăng mạnh là minh chứng rõ ràng. 2. **Mạng & Kết nối:** AI quy mô lớn đòi hỏi mạng lưới truyền dữ liệu cực nhanh và ổn định. Corning (cáp quang), Nokia (mạng không dây AI-RAN, 6G) và Cisco (thiết bị chuyển mạch trung tâm dữ liệu) trở nên quan trọng khi nhu cầu kết nối tăng vọt. 3. **Lưu trữ:** Nhu cầu lưu trữ khối lượng dữ liệu khổng lồ cho đào tạo mô hình, nhật ký, dữ liệu lạnh... khiến ổ cứng dung lượng cao (HDD) của Western Digital và Seagate trở lại là mặt hàng thiết yếu. Tuy nhiên, không phải công ty cũ nào cũng được hưởng lợi. Một sự định giá lại thực sự cần dựa trên ba tiêu chí: (1) Có đơn hàng và doanh thu AI thực tế; (2) Được điều chỉnh tăng kỳ vọng tăng trưởng; (3) Chất lượng lợi nhuận được cải thiện. Tóm lại, AI không khiến tất cả các công ty cũ trở thành cổ phiếu tăng trưởng, mà chỉ định giá lại những ai đang nắm giữ các mắt xích hạ tầng then chốt và có khả năng biến nhu cầu AI thành lợi nhuận bền vững.

marsbit23 phút trước

“Cổ Phiếu Lão Làng” Biến Thành “Quý Tộc Mới”: Từ Dell Đến Nokia, AI Đang Định Giá Lại Cơ Sở Hạ Tầng Cũ Như Thế Nào?

marsbit23 phút trước

Codex và ChatGPT hợp nhất, cuộc đại phân định công cụ lập trình bắt đầu

OpenAI đang chuyển trọng tâm từ ChatGPT sang Codex, thông báo hợp nhất ba sản phẩm Codex, ChatGPT và Atlas thành một siêu ứng dụng desktop trong vài tuần tới. Động thái này phản ánh nhận thức nội bộ rằng Codex, ban đầu là công cụ lập trình, mới đại diện cho hình thái AI thế hệ tiếp theo. Lý do là trong khi ChatGPT trả lời câu hỏi, Codex giải quyết công việc thực tế. Điều này mang lại giá trị hơn cho doanh nghiệp. Codex đã phát triển từ công cụ bổ sung code thành "đại lý AI" có khả năng gọi công cụ và xử lý tác vụ phức tạp, với người dùng hoạt động hàng tuần tăng lên hơn 5 triệu. Đáng chú ý, 40% người dùng mới gần đây không phải là nhà phát triển, mà là các nhà phân tích, quản lý đầu tư, người làm marketing, quản lý sản phẩm... Điều này cho thấy Codex đang trở thành nền tảng cho lao động tri thức. OpenAI cũng giới thiệu sáu plugin phục vụ các vai trò nghề nghiệp khác nhau, nhắm mục tiêu tái cấu trúc cách thức làm việc của công việc văn phòng. Tham vọng lớn hơn của OpenAI là định hình lại phần mềm tương lai. Với tính năng mới "Sites", Codex có thể tạo website tương tác từ tài liệu, biến các báo cáo hay mô hình phân tích thành trang web tự động cập nhật. Mô hình đang chuyển dịch từ việc người dùng học phần mềm sang việc AI hiểu công việc và tự động gọi các công cụ cần thiết để hoàn thành mục tiêu, biến Codex thành một "nhân viên kỹ thuật số".

marsbit32 phút trước

Codex và ChatGPT hợp nhất, cuộc đại phân định công cụ lập trình bắt đầu

marsbit32 phút trước

Giải Mã Cơ Hội Đầu Tư Thời Đại Thám Hiểm Hàng Hải Mới, Quỹ Invesco Great Wall Công Bố Báo Cáo Doanh Nghiệp Trung Quốc Ra Biển Khơi 2026

Tác giả: Lan Kinh Tân Văn Trong bối cảnh tái cấu trúc chuỗi cung ứng toàn cầu, "xuất khẩu" đang trở thành động lực tăng trưởng mới và là chủ đề đầu tư trọng tâm cho các doanh nghiệp Trung Quốc. Công ty Quản lý Quỹ Jingshun Great Wall đã phát hành báo cáo "Thời đại Hải trình Vĩ đại của Doanh nghiệp Trung Quốc - Triển vọng Xu hướng Mới và Cơ hội Đầu tư Xuất khẩu Năm 2026". Báo cáo chỉ ra rằng xuất khẩu đã phát triển từ phiên bản 1.0 (bố trí năng lực sản xuất để đối phó với ma sát thương mại) sang phiên bản 2.0 hiện tại, không chỉ xuất khẩu sản phẩm mà còn mở rộng năng lực vận hành, năng lực sản xuất và thậm chí cả dịch vụ ra toàn cầu. Các lợi thế cốt lõi như lợi thế kỹ sữ, cơ sở hạ tầng hoàn thiện và hiệu ứng cụm ngành công nghiệp hoàn chỉnh tạo nền tảng vững chắc cho sức cạnh tranh toàn cầu của doanh nghiệp Trung Quốc. Báo cáo nêu bật nhiều cơ hội đầu tư trong làn sóng xuất khẩu: 1. **Hàng tiêu dùng & Dịch vụ:** Chuyển từ ưu thế chi phí sang xây dựng sức mạnh thương hiệu. Xuất khẩu dịch vụ như BD dược phẩm đổi mới và Token mô hình lớn đang tăng tốc. 2. **Hàng vốn (Máy móc, Thiết bị):** Đóng vai trò "người bán xẻng", hưởng lợi từ nhu cầu toàn cầu về xây dựng cơ sở hạ tầng AI, khai thác tài nguyên và nâng cấp lưới điện. Các lĩnh vực như thiết bị điện, máy xây dựng, máy biến áp và dự án lưu trữ năng lượng có triển vọng cao. 3. **Công nghệ cao:** Xe năng lượng mới, mô-đun quang học và ứng dụng AI là những lĩnh vực xuất khẩu then chốt. Các công ty Trung Quốc đã nhúng sâu vào chuỗi cung ứng cốt lõi của các gã khổng lồ công nghệ toàn cầu. 4. **Dược phẩm Đổi mới:** Lợi thế về tốc độ thử nghiệm lâm sàng và chi phí thấp tạo ra cơ hội đầu tư tiềm năng lớn, đặc biệt trong các lĩnh vực như ung thư và giảm cân. Các chuyên gia quỹ tin rằng xu hướng xuất khẩu không phải là nhất thời mà sẽ là một chủ đề dài hạn, mang lại không gian tăng trưởng rộng mở và mức định giá cao hơn cho các doanh nghiệp có tỷ lệ doanh thu nước ngoài cao. Tuy nhiên, các thách thức như chính trị địa lý, rào cản văn hóa và tuân thủ quy định địa phương đòi hỏi doanh nghiệp phải có chiến lược bản địa hóa vững chắc để thành công lâu dài.

marsbit43 phút trước

Giải Mã Cơ Hội Đầu Tư Thời Đại Thám Hiểm Hàng Hải Mới, Quỹ Invesco Great Wall Công Bố Báo Cáo Doanh Nghiệp Trung Quốc Ra Biển Khơi 2026

marsbit43 phút trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua ERA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Caldera (ERA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Caldera (ERA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Caldera (ERA) của BạnSau khi mua Caldera (ERA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Caldera (ERA)Giao dịch Caldera (ERA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 518Xuất bản vào 2025.07.17Cập nhật vào 2026.06.02

Làm thế nào để Mua ERA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của ERA (ERA) được trình bày dưới đây.

活动图片