OpenAI Post-Training Engineer Weng Jiayi Proposes a New Paradigm Hypothesis for Agentic AI

marsbitPublicado em 2026-05-11Última atualização em 2026-05-11

Resumo

OpenAI engineer Weng Jiayi's "Heuristic Learning" experiments propose a new paradigm for Agentic AI, suggesting that intelligent agents can improve not just by training neural networks, but also by autonomously writing and refining code based on environmental feedback. In the experiment, a coding agent (powered by Codex) was tasked with developing and maintaining a programmatic strategy for the Atari game Breakout. Starting from a basic prompt, the agent iteratively wrote code, ran the game, analyzed logs and video replays to identify failures, and then modified the code. Through this engineering loop of "code-run-debug-update," it evolved a pure Python heuristic strategy that achieved a perfect score of 864 in Breakout and performed competitively with deep reinforcement learning (RL) algorithms in MuJoCo control tasks like Ant and HalfCheetah. This approach, termed Heuristic Learning (HL), contrasts with Deep RL. In HL, experience is captured in readable, modifiable code, tests, logs, and configurations—a software system—rather than being encoded solely into opaque neural network weights. This offers potential advantages in explainability, auditability for safety-critical applications, easier integration of regression tests to combat catastrophic forgetting, and more efficient sample use in early learning stages, as demonstrated in broader tests on 57 Atari games. However, the blog acknowledges clear limitations. Programmatic strategies struggle with tasks requiring long-...

Over the past decade, the advancement of AI has primarily relied on one path: feeding more data and computing power into larger models, allowing experience to accumulate within neural network parameters. This path has led to the leap in large models after ChatGPT, but it has also left behind a persistent challenge: as models become increasingly powerful, the reasons behind their successes and failures often remain difficult to explain and correct.

Recent experiments by OpenAI engineer Weng Jiayi suggest another possibility: within a clear objective, a runnable environment, and a feedback loop, AI can improve not only by training models but also by "autonomously modifying code."

On May 8, 2026, Weng Jiayi systematically documented this set of experiments in his personal blog "Learning Beyond Gradients" and simultaneously made the code repository, CSV experiment logs, and video replays public. He has long focused on reinforcement learning and post-training infrastructure, participated in the initial launch of ChatGPT, and contributed to projects like GPT-4, GPT-4 Turbo, GPT-4o, o-series, and GPT-5. Before joining OpenAI, he earned his bachelor's degree from the Department of Computer Science at Tsinghua University and his master's degree from Carnegie Mellon University. He is also a main author of the open-source reinforcement learning library Tianshou and the high-performance parallel environment engine EnvPool.

Image generated by AI

He had Codex repeatedly write policy code, run environments, read logs, review replays, locate failures, then modify code, add tests, and continue evaluation. After multiple iterations, Codex "cultivated" a set of pure Python programmatic strategies: it achieved a theoretical perfect score of 864 points in Atari Breakout and also produced results in robot control simulation environments like MuJoCo Ant and HalfCheetah that were close to those of common deep reinforcement learning algorithms.

The truly significant aspect of these experiments lies in a core question: When the coding agent is sufficiently capable, must learning necessarily occur within neural network weights?

In this experimental setup, experience is written into code, tests, logs, and replays, becoming a software system that can be read, modified, reviewed, and audited. If this direction continues to hold, the next step for Agentic AI might not only be training larger models but also enabling models to participate in maintaining a continuously evolving engineering system.

01

From 387 Points to a Perfect Score: An Engineering Loop

Weng Jiayi wrote in his blog that the starting point for this experiment was actually an engineering need. While maintaining EnvPool in his spare time, he required a cheaper method than "running a neural network every time" to test whether the game environment was functioning correctly, as placing neural networks in CI was too expensive. The original question was: Could he write cheap, reproducible, heuristic rules that were clearly better than a random policy, to drive the environment to information-rich states?

He used Codex (base model gpt-5.4) to attempt writing a completely rule-based version. The initial prompt was very direct: "Write a strategy that can solve Breakout." The result was unsatisfactory. A low score itself provided no information—the action semantics could be wrong, state detection could be wrong, the evaluation process could be wrong, or the policy structure itself could be too weak.

Subsequently, Weng Jiayi changed the task format. He no longer asked Codex to simply deliver a policy.py file; instead, he required it to maintain a complete loop: probe actions and observations, write state detectors, write the policy, run complete episodes, record trials.jsonl and summary.csv, generate videos or curves, inspect failure modes, modify the policy, simplify code, and run regressions.

The experimental log for Breakout clearly recorded this process. In the first round, Codex confirmed the action space and observation shape, identified the colors of the ball, paddle, and bricks from the RGB frames, and then used image labels to scan the 128-byte Atari RAM. The initial baseline scored only 99 points. After adding tunnel offset logic, the score increased to 387 points.

387 points was a deceptively high local optimum. The strategy could stably hit the ball, but the ball path was trapped in a periodic loop: no lives were lost, but no new bricks could be broken, and the score was stuck. If a human were writing the code, they might continue fine-tuning the "accuracy of hitting the ball." Codex watched the video and the last few dozen steps of the trajectory, and identified the problem as a lack of disturbance in the ball's path.

Image: Atari Breakout gameplay. The player controls the bottom paddle to bounce a ball, breaking layers of colored bricks above. Codex achieved the theoretical perfect score of 864 points in this game.

Codex then added a mechanism to "break the cycle": if no reward was received for a long time, periodically add an offset to the landing point prediction to knock the ball out of the local loop. The score jumped from 387 to 507. During further iterations, a new problem emerged: for fast low balls, conventional interception would cause the paddle to "over-lead" and drift away. Codex added a `fast_low_ball_lead_steps=3` parameter, and the score jumped from 507 to 839. The final improvement from 839 to 864 resembled maintaining an already complex system: trying deadband, serve offset, stuck offset, brick balance bias, lookahead steps; many directions were ineffective. The final useful change was a late-stage condition: "After the first wall of bricks is cleared, enable the stuck offset only when the ball is far from the paddle, and gradually release it when the ball is close."

The final RAM default configuration stably output 864 / 864 / 864 points across three episodes, reaching the theoretical limit of Breakout. Codex then migrated the same geometric controller to a pure vision input version—without reading RAM, relying solely on RGB segmentation to identify the paddle, ball, and brick balance. The vision version initially scored 310 points, then 428 points, and reached 864 points after the seventh local episode, corresponding to 14,504 local policy environment steps.

Image: Sample efficiency curve of Codex on Breakout. The blue line is the version that reads game memory (RAM), and the red line is the vision-only version (Vision). The RAM version experienced several jumps: 99 → 387 → 507 → 839 → 864, finally reaching the perfect score for the first time at episode 81, with a cumulative 1.5 million environment steps; the Vision version, migrating the mature structure from the RAM version, reached 864 points with only 7 episodes and approximately 14,500 environment steps.

Weng Jiayi specifically noted that this should not be understood as "the vision input started from scratch and reached a perfect score using only 14.5K steps." The actual process was that Codex first discovered the geometric controller, cycle-breaking mechanism, and late-stage offset release in the RAM version. Once the structure was stable, the state reading layer was switched from RAM to RGB. The 14.5K steps represent the migration budget for the vision version.

02

Defining Heuristic Learning

Finding a name for this evolving "software policy" was more difficult than writing the first version of the policy. Weng Jiayi ultimately named this process Heuristic Learning (HL) and termed the object it maintains as a Heuristic System (HS).

According to his blog definition, HL is composed of program code. Like today's common deep reinforcement learning, it has a loop of state, action, feedback, and update. The difference is that the object being updated is the software structure, not neural network parameters; its feedback, digested by the coding agent, can come from environmental rewards, test cases, logs, videos, replays, or human feedback; its update does not use backpropagation, but rather the coding agent directly edits the policy, state detectors, tests, configurations, or memories.

It should be added that the concept of "using programs rather than neural networks as policies" is not Weng Jiayi's original creation. Academic discussions on Programmatic RL have been ongoing for years: the PROPEL framework proposed by Rice University and Caltech in 2019 researched reinforcement learning methods representing policies as short programs in a symbolic language; the 2021 LEAPS work further learned program embedding spaces, combining differentiable program policies with RL training; the HPRL (Hierarchical Programmatic Reinforcement Learning) presented at ICML 2023 allows a meta-policy to combine multiple programs; the LLM-GS framework from National Taiwan University and Microsoft in 2024 uses LLM's programming ability and commonsense reasoning to guide the search for programmatic RL policies.

The consensus from this research is that, compared to neural policies, programmatic policies possess better interpretability, formal verifiability, and generalization ability to unseen scenarios.

Weng Jiayi's substantive contribution this time lies in treating the coding agent as the engineering channel for maintaining the heuristic system. In the past, doing programmatic RL either relied on manually designed domain-specific languages or search algorithms within restricted program spaces; Weng Jiayi, however, uses Codex to integrate code, logs, tests, video replays, and parameter adjustments into the same agent workflow, drastically reducing the iteration cost of program policies at once. In other words, he is arguing for a new engineering path: when the coding agent is sufficiently capable, those heuristic strategies once deemed "too expensive to maintain" might become cost-effective again.

Weng Jiayi provided a comparison table in his blog to clearly illustrate the differences between HL and Deep RL: in terms of policy form, the former consists of rules, state machines, controllers, model predictive control (MPC), and macro actions composed into code, while the latter consists of neural network parameters; in terms of state form, the former uses explicit variables, detectors, and caches, while the latter uses network-readable observation vectors; in terms of feedback form, the former treats tests, logs, and replays as valid signals, while the latter primarily relies on fixed reward functions; in terms of memory form, the former can explicitly store trials, summaries, failure reasons, and version diffs, while the latter has essentially none in on-policy algorithms and relies on replay buffers in off-policy algorithms.

This comparison demonstrates that HL possesses some engineering attributes: the policy is interpretable and can be translated into natural language; sample efficiency is measured in units of "one effective code change," not slow gradient updates; old capabilities can become regression tests, fixed-seed replays, or golden cases; overfitting to training seeds or test loopholes can be constrained through simplification, regression checks, and multi-seed evaluation; old capabilities don't have to reside solely in weights but can also reside in rule sets and tests, which partly addresses the catastrophic forgetting problem that neural networks have long struggled to solve.

03

Bulk Validation on Atari57: Boundaries and Shortcomings

If focusing only on Breakout, the story could easily be simplified to "AI wrote a perfect strategy." But Weng Jiayi didn't stop at Breakout; he scaled this Codex workflow in bulk to Atari57, running 57 games, two observation modes, and three repetitions each, totaling 342 "unattended" search trajectories.

The experimental design was quite rigorous. Each game was tested with two input methods: one directly reading game memory, and the other viewing only the screen. Each method was independently repeated three times. This produced a total of 342 "unattended" experimental trajectories: each Codex agent received the same prompt template, explored actions on its own, wrote code on its own, ran experiments on its own, and recorded results on its own, with no human providing hints. Constraints were strictly enforced: no training neural networks, no reading game source code, no exploiting any hidden information. All steps used for debugging and trial-and-error had to be counted in the total cost. This was to prevent Codex from cheating in any "peeking at the answers" way.

When measuring results, a metric called HNS (Human-Normalized Score) is commonly used—simply put, it standardizes the score of each game relative to "average human player performance = 1" for easy cross-game comparison.

Image: Sample efficiency comparison on the full Atari57 suite. The x-axis is environment steps (log scale), and the y-axis is HNS (Human-Normalized Score, where 1.0 indicates reaching average human player level). Codex's vision input version (red line) significantly outperforms the PPO baseline (blue/gray dashed lines) in early-stage efficiency, reaching 0.81 at 9.7 million steps, comparable to PPO's level around 10 million steps; Codex's memory input version (purple line) converges at 0.59.

Measured by this standard, Codex's early-stage efficiency appears quite impressive. With only 1 million environment steps consumed, Codex's median HNS for vision input had already reached 0.32, and for memory input, 0.26, significantly higher than that of classical reinforcement learning algorithms like PPO at the same stage. By 9.7 million steps, Codex's vision version reached 0.81, already close to PPO's level of approximately 0.88 to 0.92 at 10 million steps. If allowed to aggregate by selecting the better-performing input method for each game, Codex's median HNS was 0.83, OpenAI Baselines PPO2 was 0.80, and CleanRL EnvPool PPO was 0.98—essentially a tie.

However, Weng Jiayi himself calmly drew a boundary: this is only a comparison of environment interaction efficiency, without accounting for the costs of Codex reading logs, writing code, and watching videos. "Running fast" does not equal "low total cost," and the latter remains a black box for now.

More noteworthy is that Codex's performance across the 57 games was not uniform. In games with clear geometric structures like Breakout, Boxing, and Krull, both heuristic strategies and deep reinforcement learning could significantly surpass human levels; in games with clear rules like Asterix, Jamesbond, and Tennis, heuristic strategies were even stronger; but in fast-paced, complex-pattern games like Atlantis, VideoPinball, RoadRunner, and StarGunner, PPO still dominated.

The most cautionary counterexample is Montezuma's Revenge. This is a notorious "hard nut to crack" in reinforcement learning, where the protagonist needs to find keys, avoid enemies, and open doors in a complex underground labyrinth, with extremely sparse reward signals—a classic "long-term planning + failure recovery" challenge. Codex did score 400 points in this game, but examining the policy file it generated reveals that it's not a true "strategy" but a hardcoded sequence of 86 actions corresponding to 1,769 environment steps: more like memorizing a fixed route than learning to navigate a maze. Weng Jiayi specifically noted: "This is a boundary case and should not be understood as a generic Montezuma strategy."

Montezuma exposes the expressive limits of Heuristic Learning. Ordinary programmatic strategies are essentially reactive logic of "do this action when you see that state," struggling with tasks requiring strict action sequences, resuming plans from intermediate states, and long-horizon planning. Such tasks require not just more if-else statements but program structures closer to "macro-action combination + recoverable search state + long-term memory." This tells us one thing: even if the coding agent becomes very powerful, some problems cannot be contained by ordinary code.

04

If the Paradigm Holds, What Are the Industrial Implications?

Zooming out to an industrial perspective. If the Heuristic Learning path truly holds—meaning "coding agents can stably maintain programmatic strategies surpassing handcrafted rules and approaching RL baselines"—where does its practical significance lie?

The first application point is robot control, especially in structurally stable scenarios. The framework Weng Jiayi outlined in his blog involves hierarchical division of labor: joint-level HL, limb-level HL, full-body balance HL, and task-level HL. Lower levels handle safety and low-latency control, middle levels handle gait and contact, and higher levels handle tasks and long-term memory; the coding agent doesn't need to "understand walking"—it's more like an update channel inserted into the system, sending failure videos, sensor streams, and simulation results back to the system, and rewriting feedback into code, parameters, protection rules, and memories.

Scenarios like warehouse AGVs, inspection robots, factory robotic arms, and standardized sorting, where the environment structure is relatively fixed and safety boundaries are clear—if core control strategies can be solidified into lightweight code, robots wouldn't need to run a large policy network for every action step. Deployment-end reliance on high-power GPU inference cards would decrease, with more load handled by traditional controllers and local program logic.

This doesn't mean robots don't need GPUs; perception, localization, mapping, and semantic understanding still rely on neural networks. What changes is the role of the GPU, shifting from "burning compute for end-to-end action decisions every second" to "playing a periodic role in perception, offline simulation, policy generation, and anomaly analysis."

The second application point is the auditability of safety-critical scenarios. The most troublesome engineering problem with neural policies is the inability to locate the cause after a failure. When a robotic arm suddenly fails at a certain angle, a vehicle misjudges in an edge case, or a medical robot acts abnormally in a rare posture, engineers cannot answer "which weight caused this error." Ultimately, they can only add data, retrain, run regression tests, and bet that the new model hasn't introduced new problems.

If the policy exists in code form, state variables, conditional branches, failure logs, and regression tests are all visible; a dangerous action can be hardcoded to be prohibited, a corner case can be written as a test, and an erroneous state transition can be individually patched. This doesn't make the system inherently safer, but it allows safety issues to enter normal software engineering workflows for the first time—they can be code-reviewed, intercepted by CI, and responded to by SRE on-call. In fields requiring regulation and liability division, like autonomous driving, industrial robotic arms, and medical robots, this auditability itself is of commercial value.

The third application point is the engineering of continual learning and online learning. Weng Jiayi presented this as the main argument of the entire blog post. Catastrophic forgetting in neural networks is a structural problem: learning new things washes away old capabilities. HL also experiences forgetting, but in a more engineering form: a new rule fixes one failure mode but breaks an old scenario; a new memory repeatedly leads the agent in the wrong direction; a test range is too narrow, and the policy learns to exploit it; a patch modifies a shared interface, and old calling paths silently fail.

These problems don't disappear automatically, but they are issues that software engineering has dealt with for decades, with existing toolchains—regression testing, version diffs, fixed-seed replays, golden traces, and explicitly recorded failure directions.

A healthy HS must perform two operations simultaneously: absorbing new feedback and compressing historical patches. An HS that only grows without reduction will eventually become a "code ball of mud" no one dares to touch. In other words, HL transforms the mathematical problem of "how to update parameters" into the engineering problem of "how to maintain a software system that continuously absorbs feedback."

The latter is not necessarily easier, but it is closer to the existing boundaries of human capability.

The fourth application point is capability accumulation in Agent products. What current Agent products lack most are stable tool invocation, reliable execution chains, reusable failure experiences, and auditable task records. If HL's logic holds, an Agent's memories during execution would precipitate into code assets that can be reused across sessions, users, and tasks. It can directly interface with existing DevOps processes and also means that Agents from different companies and teams can share heuristics without needing to share models—something the neural network approach cannot achieve.

However, it must be emphasized: all four application points depend on further validation of the HL path on more complex tasks. Breakout and Ant are relatively clean environments. Real robots face changes in ground friction, lighting variations, actuator delays, and sensor noise—none of which have been systematically evaluated in public materials. The Montezuma counterexample has already shown that long-horizon tasks require program forms beyond ordinary if-else. How far this vision can go depends on the next phase of experiments.

05

Technical Debt Shifts from Weights to Code

Weng Jiayi's assessment in his blog is measured. He wrote that HL cannot accomplish everything neural networks can do; it is limited by what code can express, especially in complex perception and long-horizon generalization. With today's understanding, he cannot imagine an agent using pure Python code without any neural networks to solve ImageNet. The truly worthwhile question is how to combine neural networks with HL to jointly address Online Learning and Continual Learning.

The division of labor he proposes borrows from the System 1 / System 2 framework: specialized shallow neural networks take on part of System 1, responsible for fast perception, classification, and object state estimation; HL also takes on part of System 1, responsible for processing fresh data, rules, tests, replays, memories, safety boundaries, and local recovery; the LLM agent acts as System 2, providing feedback and improvement data to HL, and periodically extracting information from data generated by HL to update itself.

If deep learning over the past decade has proven that "experience can be compressed into weights," then the hypothesis Weng Jiayi proposes this time is another proposition: in the era of coding agents, experience might once again become readable, modifiable, testable software.

This article is from the WeChat public account "Tencent Technology," author: Xiao Jing, editor: Xu Qingyang

Perguntas relacionadas

QWhat is Heuristic Learning (HL) as proposed by Weng Jiayi, and how does it differ from traditional deep reinforcement learning?

AHeuristic Learning (HL) is a paradigm proposed by OpenAI engineer Weng Jiayi where an AI agent, like Codex, learns by iteratively writing, running, and modifying programmatic code for a policy within an explicit goal, runnable environment, and feedback loop. The core difference from traditional deep reinforcement learning (Deep RL) is that in HL, experience and improvements are encoded directly into readable, editable software components like code, tests, logs, and configurations. This is updated via direct code edits by the AI, rather than being learned through gradient descent and embedded as inscrutable weights in a neural network. This approach aims for better interpretability, auditability, and sample efficiency in terms of 'effective code changes'.

QWhat was the specific process and final result of the Atari Breakout experiment conducted by Weng Jiayi?

AIn the Atari Breakout experiment, Weng Jiayi tasked Codex not just with writing a policy, but with maintaining a full engineering loop: probing the environment, writing state detectors, running episodes, recording logs and videos, analyzing failures, and modifying the code. Starting from a baseline score of 99, the agent iteratively improved its strategy. Key breakthroughs included adding a mechanism to break cyclical ball patterns (raising the score from 387 to 507) and adjusting parameters for intercepting fast low balls (jumping from 507 to 839). The final policy, refined with late-stage conditionals, achieved a perfect score of 864 across three episodes, which is the theoretical maximum for the game. This was achieved using both game RAM data and later migrated to a vision-only (RGB) input version.

QWhat were the key findings and limitations when scaling the Heuristic Learning approach to the full Atari57 benchmark?

AWhen scaled to the Atari57 benchmark, the Heuristic Learning approach showed promising early sample efficiency, with a median Human-Normalized Score (HNS) of 0.32 at 1 million steps for the vision-based version, outperforming PPO baselines at that stage. By 9.7 million steps, its performance (HNS ~0.81) was competitive with PPO. However, performance was uneven. It excelled in geometrically clear games (e.g., Breakout, Boxing) but struggled in fast-paced, complex games (e.g., Atlantis, RoadRunner). A key limitation was exposed in Montezuma's Revenge, where the agent merely memorized a fixed action sequence instead of learning a generalizable policy, highlighting the expressivity limits of simple programmatic strategies for tasks requiring long-term planning and state recovery.

QWhat are the potential industry applications and implications if the Heuristic Learning paradigm proves viable?

AIf proven viable, Heuristic Learning could have significant industry implications: 1) **Robotics Control**: For structured environments (e.g., warehouse AGVs, industrial arms), core control logic could be lightweight, auditable code, reducing reliance on heavy GPU inference for every action. 2) **Safety-Critical Systems**: The interpretability of code allows for auditing, debugging, and embedding safety rules directly, which is crucial for autonomous vehicles and medical robots. 3) **Continual Learning Engineering**: It transforms the 'catastrophic forgetting' problem into a software maintenance challenge, solvable with regression tests and version control. 4) **Agentic AI Products**: Agent experiences could be codified into reusable, sharable software assets integrated into DevOps workflows, enabling capability沉淀 without sharing model weights.

QAccording to Weng Jiayi, how might Neural Networks and Heuristic Learning be combined in a future AI system architecture?

AWeng Jiayi suggests a potential hybrid architecture借鉴 the System 1 / System 2 framework. Specialized, shallow neural networks would act as part of System 1, handling fast perception and state estimation. The Heuristic Learning system would also be part of System 1, responsible for rules, tests, memory, safety boundaries, and local recovery based on fresh data. A large language model (LLM) agent would serve as System 2, providing high-level feedback and improvement directions to the HL system, and periodically updating itself from the structured data and experiences generated by the HL process. This combines the perceptual strength of neural networks with the interpretability and engineering manageability of programmatic systems.

Leituras Relacionadas

380,000 Apps Exposed, 2,000+ Apps Leaked Secrets: AI Programming Turns 'Intranet' into Public Internet

Israeli cybersecurity firm RedAccess uncovered a severe data exposure trend linked to "vibe coding" or AI-powered software development tools. Their research found approximately 38,000 publicly accessible web applications built with platforms like Lovable, Base44, Netlify, and Replit. Of these, an estimated 2,000 apps exposed sensitive corporate and personal data, including medical records, financial information, internal strategic documents, and customer chat logs. In some cases, access even granted administrative privileges. The core issue stems from default privacy settings that make applications public by default, combined with a lack of built-in security controls (like authentication) in the AI-generated code. This allows employees without security expertise—"citizen developers"—to easily create and deploy applications that bypass standard corporate security reviews. The exposed apps, often indexed by search engines, are trivially discoverable. While some platform providers (Replit, Lovable, Wix/Base44) argue that security configuration is the user's responsibility and question the validity of some findings, security researchers confirm the widespread reality of such exposures. This pattern, also noted in prior studies, highlights a critical security gap as AI democratizes app creation, potentially leading to massive, unintentional data leaks.

marsbitHá 38m

380,000 Apps Exposed, 2,000+ Apps Leaked Secrets: AI Programming Turns 'Intranet' into Public Internet

marsbitHá 38m

Attracting Global Capital, Asia's New 'Super Cycle' Is Unfolding

Investors are turning to Asia as the next frontier for global equity growth, with a new "super cycle" unfolding across the region. Driven by the AI revolution, Asian markets, particularly South Korea, have seen significant rallies. According to Morgan Stanley analysis, the underlying drivers of Asia's industrial cycle are shifting from traditional sectors like real estate and manufacturing to massive investments in AI infrastructure, energy security and transition, and supply chain resilience. Fixed asset investment in Asia is projected to grow from around $11 trillion in 2025 to $16 trillion by 2030, with a 7% annual growth rate from 2026-2030. The AI wave is a primary catalyst, driving immense capital expenditure for chips, servers, data centers, and power systems. Asia is central to this hardware supply chain. In China, AI investment is focused on building a full-system domestic capability, with the local AI chip market potentially reaching $86 billion by 2030. Beyond AI, China's export story is expanding from EVs and batteries to robotics. The country already captures about half of new global industrial robot demand and over 90% of humanoid robot shipments. This growth phase mirrors the early stages of China's EV export boom. Simultaneously, energy security investments, spurred by AI's massive power needs, are rising, with China benefiting from its leadership in solar, batteries, and EVs. Regional defense spending is also increasing structurally, supporting demand for advanced manufacturing. The main beneficiaries are China, South Korea, and Japan, positioned in core supply chain areas. However, risks remain, including potential overcapacity, profit margin pressures from competition, persistent technological restrictions, geopolitical friction, and workforce displacement due to AI-driven automation. Market volatility is also expected to increase as investor expectations diverge on the realization of these capital investment and export themes.

marsbitHá 39m

Attracting Global Capital, Asia's New 'Super Cycle' Is Unfolding

marsbitHá 39m

Funding Weekly Report | 14 Public Funding Events, Kalshi Completes $10B New Funding Round at $220B Valuation Led by Coatue Management

Weekly Funding Roundup: 14 Deals and $10.49B+ in Total Funding, Led by Kalshi's $1B Round Last week (5.4-5.10) saw 14 notable funding events in the global blockchain ecosystem, raising over $10.49 billion in total. Key highlights include Kalshi, a prediction market platform, securing a $1 billion round led by Coatue Management, reaching a $22 billion valuation. The platform now boasts ~2 million MAUs and $178B in annualized trading volume. In DeFi, regulated on-chain reinsurer OnRe raised $5 million in Series A funding, and Bitcoin-backed credit protocol Saturn Credit completed a $2 million seed round. For Infrastructure & Tools, OpenTrade raised $17 million to expand its stablecoin yield infrastructure, and RWA platform Balcony secured $12.7 million to deploy its property settlement service in the US. Centralized Finance saw one deal: AI-driven trading platform Stockcoin.ai completed a seed round led by Amber Group. In the prediction market sector alongside Kalshi, AI-powered platform Elastics raised $2 million. Other notable deals include SC Ventures' strategic investment in crypto market maker GSR and Centrifuge securing a "seven-figure" investment from Coinbase to become a core RWA partner for Base. On the investor side, Haun Ventures raised a new $1 billion fund targeting crypto and AI, and Multi Investment raised ~$616 million to focus on blockchain and Web3 investments.

marsbitHá 1h

Funding Weekly Report | 14 Public Funding Events, Kalshi Completes $10B New Funding Round at $220B Valuation Led by Coatue Management

marsbitHá 1h

Trading

Spot
Futuros

Artigos em Destaque

O que é GROK AI

Grok AI: Revolucionar a Tecnologia Conversacional na Era Web3 Introdução No panorama em rápida evolução da inteligência artificial, a Grok AI destaca-se como um projeto notável que liga os domínios da tecnologia avançada e da interação com o utilizador. Desenvolvida pela xAI, uma empresa liderada pelo renomado empreendedor Elon Musk, a Grok AI procura redefinir a forma como interagimos com a inteligência artificial. À medida que o movimento Web3 continua a florescer, a Grok AI visa aproveitar o poder da IA conversacional para responder a consultas complexas, proporcionando aos utilizadores uma experiência que é não apenas informativa, mas também divertida. O que é a Grok AI? A Grok AI é um sofisticado chatbot de IA conversacional projetado para interagir com os utilizadores de forma dinâmica. Ao contrário de muitos sistemas de IA tradicionais, a Grok AI abraça uma gama mais ampla de perguntas, incluindo aquelas tipicamente consideradas inadequadas ou fora das respostas padrão. Os principais objetivos do projeto incluem: Raciocínio Fiável: A Grok AI enfatiza o raciocínio de senso comum para fornecer respostas lógicas com base na compreensão contextual. Supervisão Escalável: A integração de assistência de ferramentas garante que as interações dos utilizadores sejam monitorizadas e otimizadas para qualidade. Verificação Formal: A segurança é primordial; a Grok AI incorpora métodos de verificação formal para aumentar a fiabilidade das suas saídas. Compreensão de Longo Contexto: O modelo de IA destaca-se na retenção e recordação de um extenso histórico de conversas, facilitando discussões significativas e contextualizadas. Robustez Adversarial: Ao focar na melhoria das suas defesas contra entradas manipuladas ou maliciosas, a Grok AI visa manter a integridade das interações dos utilizadores. Em essência, a Grok AI não é apenas um dispositivo de recuperação de informações; é um parceiro conversacional imersivo que incentiva um diálogo dinâmico. Criador da Grok AI A mente por trás da Grok AI não é outra senão Elon Musk, um indivíduo sinónimo de inovação em vários campos, incluindo automóvel, viagens espaciais e tecnologia. Sob a égide da xAI, uma empresa focada em avançar a tecnologia de IA de maneiras benéficas, a visão de Musk visa reformular a compreensão das interações com a IA. A liderança e a ética fundacional são profundamente influenciadas pelo compromisso de Musk em ultrapassar os limites tecnológicos. Investidores da Grok AI Embora os detalhes específicos sobre os investidores que apoiam a Grok AI permaneçam limitados, é reconhecido publicamente que a xAI, a incubadora do projeto, é fundada e apoiada principalmente pelo próprio Elon Musk. As anteriores empreitadas e participações de Musk fornecem um forte apoio, reforçando ainda mais a credibilidade e o potencial de crescimento da Grok AI. No entanto, até agora, informações sobre fundações ou organizações de investimento adicionais que apoiam a Grok AI não estão prontamente acessíveis, marcando uma área para exploração futura potencial. Como Funciona a Grok AI? A mecânica operacional da Grok AI é tão inovadora quanto a sua estrutura conceptual. O projeto integra várias tecnologias de ponta que facilitam as suas funcionalidades únicas: Infraestrutura Robusta: A Grok AI é construída utilizando Kubernetes para orquestração de contêineres, Rust para desempenho e segurança, e JAX para computação numérica de alto desempenho. Este trio assegura que o chatbot opere de forma eficiente, escale eficazmente e sirva os utilizadores prontamente. Acesso a Conhecimento em Tempo Real: Uma das características distintivas da Grok AI é a sua capacidade de aceder a dados em tempo real através da plataforma X—anteriormente conhecida como Twitter. Esta capacidade concede à IA acesso às informações mais recentes, permitindo-lhe fornecer respostas e recomendações oportunas que outros modelos de IA poderiam perder. Dois Modos de Interação: A Grok AI oferece aos utilizadores a escolha entre “Modo Divertido” e “Modo Regular”. O Modo Divertido permite um estilo de interação mais lúdico e humorístico, enquanto o Modo Regular foca em fornecer respostas precisas e exatas. Esta versatilidade assegura uma experiência adaptada que atende a várias preferências dos utilizadores. Em essência, a Grok AI combina desempenho com envolvimento, criando uma experiência que é tanto enriquecedora quanto divertida. Cronologia da Grok AI A jornada da Grok AI é marcada por marcos fundamentais que refletem as suas fases de desenvolvimento e implementação: Desenvolvimento Inicial: A fase fundamental da Grok AI ocorreu ao longo de aproximadamente dois meses, durante os quais o treinamento inicial e o ajuste do modelo foram realizados. Lançamento Beta do Grok-2: Numa evolução significativa, o beta do Grok-2 foi anunciado. Este lançamento introduziu duas versões do chatbot—Grok-2 e Grok-2 mini—cada uma equipada com capacidades para conversar, programar e raciocinar. Acesso Público: Após o seu desenvolvimento beta, a Grok AI tornou-se disponível para os utilizadores da plataforma X. Aqueles com contas verificadas por um número de telefone e ativas há pelo menos sete dias podem aceder a uma versão limitada, tornando a tecnologia disponível para um público mais amplo. Esta cronologia encapsula o crescimento sistemático da Grok AI desde a sua concepção até ao envolvimento público, enfatizando o seu compromisso com a melhoria contínua e a interação com o utilizador. Principais Características da Grok AI A Grok AI abrange várias características principais que contribuem para a sua identidade inovadora: Integração de Conhecimento em Tempo Real: O acesso a informações atuais e relevantes diferencia a Grok AI de muitos modelos estáticos, permitindo uma experiência de utilizador envolvente e precisa. Estilos de Interação Versáteis: Ao oferecer modos de interação distintos, a Grok AI atende a várias preferências dos utilizadores, convidando à criatividade e personalização na conversa com a IA. Base Tecnológica Avançada: A utilização de Kubernetes, Rust e JAX fornece ao projeto uma estrutura sólida para garantir fiabilidade e desempenho ótimo. Consideração de Discurso Ético: A inclusão de uma função de geração de imagens demonstra o espírito inovador do projeto. No entanto, também levanta considerações éticas em torno dos direitos autorais e da representação respeitosa de figuras reconhecíveis—uma discussão em curso dentro da comunidade de IA. Conclusão Como uma entidade pioneira no domínio da IA conversacional, a Grok AI encapsula o potencial para experiências transformadoras do utilizador na era digital. Desenvolvida pela xAI e impulsionada pela abordagem visionária de Elon Musk, a Grok AI integra conhecimento em tempo real com capacidades avançadas de interação. Esforça-se por ultrapassar os limites do que a inteligência artificial pode alcançar, mantendo um foco nas considerações éticas e na segurança do utilizador. A Grok AI não apenas incorpora o avanço tecnológico, mas também representa um novo paradigma de conversas no panorama Web3, prometendo envolver os utilizadores com conhecimento hábil e interação lúdica. À medida que o projeto continua a evoluir, ele permanece como um testemunho do que a interseção da tecnologia, criatividade e interação humana pode alcançar.

425 Visualizações TotaisPublicado em {updateTime}Atualizado em 2024.12.26

O que é GROK AI

O que é ERC AI

Euruka Tech: Uma Visão Geral do $erc ai e as suas Ambições no Web3 Introdução No panorama em rápida evolução da tecnologia blockchain e das aplicações descentralizadas, novos projetos surgem frequentemente, cada um com objetivos e metodologias únicas. Um desses projetos é a Euruka Tech, que opera no vasto domínio das criptomoedas e do Web3. O foco principal da Euruka Tech, particularmente do seu token $erc ai, é apresentar soluções inovadoras concebidas para aproveitar as capacidades crescentes da tecnologia descentralizada. Este artigo tem como objetivo fornecer uma visão abrangente da Euruka Tech, uma exploração das suas metas, funcionalidade, a identidade do seu criador, potenciais investidores e a sua importância no contexto mais amplo do Web3. O que é a Euruka Tech, $erc ai? A Euruka Tech é caracterizada como um projeto que aproveita as ferramentas e funcionalidades oferecidas pelo ambiente Web3, focando na integração da inteligência artificial nas suas operações. Embora os detalhes específicos sobre a estrutura do projeto sejam um tanto elusivos, ele é concebido para melhorar o envolvimento dos utilizadores e automatizar processos no espaço cripto. O projeto visa criar um ecossistema descentralizado que não só facilita transações, mas também incorpora funcionalidades preditivas através da inteligência artificial, daí a designação do seu token, $erc ai. O objetivo é fornecer uma plataforma intuitiva que facilite interações mais inteligentes e um processamento eficiente de transações dentro da crescente esfera do Web3. Quem é o Criador da Euruka Tech, $erc ai? Neste momento, a informação sobre o criador ou a equipa fundadora da Euruka Tech permanece não especificada e algo opaca. Esta ausência de dados levanta preocupações, uma vez que o conhecimento sobre o histórico da equipa é frequentemente essencial para estabelecer credibilidade no setor blockchain. Portanto, categorizamos esta informação como desconhecida até que detalhes concretos sejam disponibilizados no domínio público. Quem são os Investidores da Euruka Tech, $erc ai? De forma semelhante, a identificação de investidores ou organizações de apoio para o projeto Euruka Tech não é prontamente fornecida através da pesquisa disponível. Um aspeto que é crucial para potenciais partes interessadas ou utilizadores que consideram envolver-se com a Euruka Tech é a garantia que vem de parcerias financeiras estabelecidas ou apoio de empresas de investimento respeitáveis. Sem divulgações sobre afiliações de investimento, é difícil tirar conclusões abrangentes sobre a segurança financeira ou a longevidade do projeto. Em linha com a informação encontrada, esta seção também se encontra no estado de desconhecido. Como funciona a Euruka Tech, $erc ai? Apesar da falta de especificações técnicas detalhadas para a Euruka Tech, é essencial considerar as suas ambições inovadoras. O projeto procura aproveitar o poder computacional da inteligência artificial para automatizar e melhorar a experiência do utilizador no ambiente das criptomoedas. Ao integrar IA com tecnologia blockchain, a Euruka Tech visa fornecer funcionalidades como negociações automatizadas, avaliações de risco e interfaces de utilizador personalizadas. A essência inovadora da Euruka Tech reside no seu objetivo de criar uma conexão fluida entre os utilizadores e as vastas possibilidades apresentadas pelas redes descentralizadas. Através da utilização de algoritmos de aprendizagem automática e IA, visa minimizar os desafios enfrentados por utilizadores de primeira viagem e agilizar as experiências transacionais dentro do quadro do Web3. Esta simbiose entre IA e blockchain sublinha a importância do token $erc ai, que se apresenta como uma ponte entre interfaces de utilizador tradicionais e as capacidades avançadas das tecnologias descentralizadas. Cronologia da Euruka Tech, $erc ai Infelizmente, devido à informação limitada disponível sobre a Euruka Tech, não conseguimos apresentar uma cronologia detalhada dos principais desenvolvimentos ou marcos na jornada do projeto. Esta cronologia, tipicamente inestimável para traçar a evolução de um projeto e compreender a sua trajetória de crescimento, não está atualmente disponível. À medida que informações sobre eventos notáveis, parcerias ou adições funcionais se tornem evidentes, atualizações certamente aumentarão a visibilidade da Euruka Tech na esfera cripto. Esclarecimento sobre Outros Projetos “Eureka” É importante abordar que múltiplos projetos e empresas partilham uma nomenclatura semelhante com “Eureka.” A pesquisa identificou iniciativas como um agente de IA da NVIDIA Research, que se concentra em ensinar robôs a realizar tarefas complexas utilizando métodos generativos, bem como a Eureka Labs e a Eureka AI, que melhoram a experiência do utilizador na educação e na análise de serviços ao cliente, respetivamente. No entanto, estes projetos são distintos da Euruka Tech e não devem ser confundidos com os seus objetivos ou funcionalidades. Conclusão A Euruka Tech, juntamente com o seu token $erc ai, representa um jogador promissor, mas atualmente obscuro, dentro do panorama do Web3. Embora os detalhes sobre o seu criador e investidores permaneçam não divulgados, a ambição central de combinar inteligência artificial com tecnologia blockchain destaca-se como um ponto focal de interesse. As abordagens únicas do projeto em promover o envolvimento do utilizador através da automação avançada podem diferenciá-lo à medida que o ecossistema Web3 avança. À medida que o mercado cripto continua a evoluir, as partes interessadas devem manter um olhar atento sobre os avanços em torno da Euruka Tech, uma vez que o desenvolvimento de inovações documentadas, parcerias ou um roteiro definido pode apresentar oportunidades significativas no futuro próximo. Neste momento, aguardamos por insights mais substanciais que possam desvendar o potencial da Euruka Tech e a sua posição no competitivo panorama cripto.

463 Visualizações TotaisPublicado em {updateTime}Atualizado em 2025.01.02

O que é ERC AI

O que é DUOLINGO AI

DUOLINGO AI: Integrar a Aprendizagem de Línguas com Inovação Web3 e IA Numa era em que a tecnologia transforma a educação, a integração da inteligência artificial (IA) e das redes blockchain anuncia uma nova fronteira para a aprendizagem de línguas. Apresentamos DUOLINGO AI e a sua criptomoeda associada, $DUOLINGO AI. Este projeto aspira a unir o poder educativo das principais plataformas de aprendizagem de línguas com os benefícios da tecnologia descentralizada Web3. Este artigo explora os principais aspectos do DUOLINGO AI, analisando os seus objetivos, estrutura tecnológica, desenvolvimento histórico e potencial futuro, mantendo a clareza entre o recurso educativo original e esta iniciativa independente de criptomoeda. Visão Geral do DUOLINGO AI No seu cerne, DUOLINGO AI procura estabelecer um ambiente descentralizado onde os alunos podem ganhar recompensas criptográficas por alcançar marcos educativos em proficiência linguística. Ao aplicar contratos inteligentes, o projeto visa automatizar processos de verificação de habilidades e alocação de tokens, aderindo aos princípios do Web3 que enfatizam a transparência e a propriedade do utilizador. O modelo diverge das abordagens tradicionais de aquisição de línguas ao apoiar-se fortemente numa estrutura de governança orientada pela comunidade, permitindo que os detentores de tokens sugiram melhorias ao conteúdo dos cursos e à distribuição de recompensas. Alguns dos objetivos notáveis do DUOLINGO AI incluem: Aprendizagem Gamificada: O projeto integra conquistas em blockchain e tokens não fungíveis (NFTs) para representar níveis de proficiência linguística, promovendo a motivação através de recompensas digitais envolventes. Criação de Conteúdo Descentralizada: Abre caminhos para educadores e entusiastas de línguas contribuírem com os seus cursos, facilitando um modelo de partilha de receitas que beneficia todos os colaboradores. Personalização Através de IA: Ao empregar modelos avançados de aprendizagem de máquina, o DUOLINGO AI personaliza as lições para se adaptar ao progresso de aprendizagem individual, semelhante às características adaptativas encontradas em plataformas estabelecidas. Criadores do Projeto e Governança A partir de abril de 2025, a equipa por trás do $DUOLINGO AI permanece pseudónima, uma prática frequente no panorama descentralizado das criptomoedas. Esta anonimidade visa promover o crescimento coletivo e o envolvimento das partes interessadas, em vez de se concentrar em desenvolvedores individuais. O contrato inteligente implementado na blockchain Solana indica o endereço da carteira do desenvolvedor, o que significa o compromisso com a transparência em relação às transações, apesar da identidade dos criadores ser desconhecida. De acordo com o seu roteiro, o DUOLINGO AI pretende evoluir para uma Organização Autónoma Descentralizada (DAO). Esta estrutura de governança permite que os detentores de tokens votem em questões críticas, como implementações de funcionalidades e alocação de tesouraria. Este modelo alinha-se com a ética de empoderamento comunitário encontrada em várias aplicações descentralizadas, enfatizando a importância da tomada de decisão coletiva. Investidores e Parcerias Estratégicas Atualmente, não existem investidores institucionais ou capitalistas de risco publicamente identificáveis ligados ao $DUOLINGO AI. Em vez disso, a liquidez do projeto origina-se principalmente de trocas descentralizadas (DEXs), marcando um contraste acentuado com as estratégias de financiamento das empresas tradicionais de tecnologia educacional. Este modelo de base indica uma abordagem orientada pela comunidade, refletindo o compromisso do projeto com a descentralização. No seu whitepaper, o DUOLINGO AI menciona a formação de colaborações com “plataformas de educação blockchain” não especificadas, com o objetivo de enriquecer a sua oferta de cursos. Embora parcerias específicas ainda não tenham sido divulgadas, estes esforços colaborativos sugerem uma estratégia para misturar inovação em blockchain com iniciativas educativas, expandindo o acesso e o envolvimento dos utilizadores em diversas vias de aprendizagem. Arquitetura Tecnológica Integração de IA O DUOLINGO AI incorpora dois componentes principais impulsionados por IA para melhorar as suas ofertas educativas: Motor de Aprendizagem Adaptativa: Este motor sofisticado aprende a partir das interações dos utilizadores, semelhante a modelos proprietários de grandes plataformas educativas. Ele ajusta dinamicamente a dificuldade das lições para abordar desafios específicos dos alunos, reforçando áreas fracas através de exercícios direcionados. Agentes Conversacionais: Ao empregar chatbots alimentados por GPT-4, o DUOLINGO AI oferece uma plataforma para os utilizadores se envolverem em conversas simuladas, promovendo uma experiência de aprendizagem de línguas mais interativa e prática. Infraestrutura Blockchain Construído na blockchain Solana, o $DUOLINGO AI utiliza uma estrutura tecnológica abrangente que inclui: Contratos Inteligentes de Verificação de Habilidades: Esta funcionalidade atribui automaticamente tokens aos utilizadores que passam com sucesso em testes de proficiência, reforçando a estrutura de incentivos para resultados de aprendizagem genuínos. Emblemas NFT: Estes tokens digitais significam vários marcos que os alunos alcançam, como completar uma seção do seu curso ou dominar habilidades específicas, permitindo-lhes negociar ou exibir as suas conquistas digitalmente. Governança DAO: Membros da comunidade com tokens podem participar na governança votando em propostas-chave, facilitando uma cultura participativa que incentiva a inovação nas ofertas de cursos e funcionalidades da plataforma. Cronologia Histórica 2022–2023: Conceituação O trabalho preliminar para o DUOLINGO AI começa com a criação de um whitepaper, destacando a sinergia entre os avanços em IA na aprendizagem de línguas e o potencial descentralizado da tecnologia blockchain. 2024: Lançamento Beta Um lançamento beta limitado introduz ofertas em línguas populares, recompensando os primeiros utilizadores com incentivos em tokens como parte da estratégia de envolvimento comunitário do projeto. 2025: Transição para DAO Em abril, ocorre um lançamento completo da mainnet com a circulação de tokens, promovendo discussões comunitárias sobre possíveis expansões para línguas asiáticas e outros desenvolvimentos de cursos. Desafios e Direções Futuras Obstáculos Técnicos Apesar dos seus objetivos ambiciosos, o DUOLINGO AI enfrenta desafios significativos. A escalabilidade continua a ser uma preocupação constante, particularmente no equilíbrio dos custos associados ao processamento de IA e à manutenção de uma rede descentralizada responsiva. Além disso, garantir a criação e moderação de conteúdo de qualidade num ambiente descentralizado apresenta complexidades na manutenção dos padrões educativos. Oportunidades Estratégicas Olhando para o futuro, o DUOLINGO AI tem o potencial de aproveitar parcerias de micro-certificação com instituições académicas, proporcionando validações verificadas em blockchain das habilidades linguísticas. Além disso, a expansão cross-chain poderia permitir que o projeto acedesse a bases de utilizadores mais amplas e a ecossistemas de blockchain adicionais, melhorando a sua interoperabilidade e alcance. Conclusão DUOLINGO AI representa uma fusão inovadora de inteligência artificial e tecnologia blockchain, apresentando uma alternativa focada na comunidade aos sistemas tradicionais de aprendizagem de línguas. Embora o seu desenvolvimento pseudónimo e o modelo económico emergente tragam certos riscos, o compromisso do projeto com a aprendizagem gamificada, educação personalizada e governança descentralizada ilumina um caminho a seguir para a tecnologia educativa no domínio do Web3. À medida que a IA continua a avançar e o ecossistema blockchain evolui, iniciativas como o DUOLINGO AI poderão redefinir a forma como os utilizadores interagem com a educação linguística, empoderando comunidades e recompensando o envolvimento através de mecanismos de aprendizagem inovadores.

399 Visualizações TotaisPublicado em {updateTime}Atualizado em 2025.04.11

O que é DUOLINGO AI

Discussões

Bem-vindo à Comunidade HTX. Aqui, pode manter-se informado sobre os mais recentes desenvolvimentos da plataforma e obter acesso a análises profissionais de mercado. As opiniões dos utilizadores sobre o preço de AI (AI) são apresentadas abaixo.

活动图片