New AMD Paper Overturns Conventional Wisdom: FP4 Training Instability's Cause Is Not Insufficient Randomness

marsbitPublicado em 2026-05-27Última atualização em 2026-05-27

Resumo

AMD's new research challenges the conventional understanding of FP4 training instability. While reducing precision from FP8 to FP4 promises doubled computational throughput and is supported by new hardware like NVIDIA Blackwell and AMD MI350 series, training large language models natively with FP4 has been notoriously unstable, often attributed to insufficient stochasticity. The paper "Pretraining large language models with MXFP4 on Native FP4 Hardware" demonstrates successful end-to-end FP4 pre-training of Llama 3.1-8B on AMD MI355X GPUs using the MXFP4 format, achieving a 9-10% overall speedup over FP8. Crucially, it identifies the root cause of instability: not randomness, but the accumulation of *structural micro-scaling errors* along the sensitive weight gradient (Wgrad) path. Through controlled experiments, researchers found that quantizing the Wgrad operation to FP4 caused significant convergence degradation. Counterintuitively, common stochasticity-based mitigation techniques like stochastic rounding and randomized Hadamard transforms worsened performance. In contrast, applying a *deterministic* Hadamard transform successfully stabilized training by ensuring consistent error patterns, reducing the extra token cost from 26-27% to just 8-9%. This work has significant implications: 1) It provides a clear diagnostic for low-precision training instability, steering focus towards structural errors. 2) It pushes FP4 from a primarily inference-focused format into the realm...

As is well known, training large models is extremely costly.

However, it's also widely understood that reducing training precision can significantly lower training costs. DeepSeek-V3's use of FP8 training brought the cost down to $5.6 million, already capturing the attention of the entire industry.

Following the success of FP8, the industry continues to explore the boundaries of lower precision: from FP8 down to FP4, how much more can training costs be reduced?

Theoretically, FP4 computational throughput could be twice that of FP8. Both NVIDIA's Blackwell and AMD's MI350 series have already natively supported FP4 operations at the hardware level, with the former claiming FP4 performance up to 4500 TOPS (sparse) on the B200. The hardware is ready, but the software and algorithm side has been stuck on one problem:

Training large models from scratch with FP4 is highly unstable.

Over the past two years, works like LLM-FP4 and NVFP4 pre-training have attempted this path, but few solutions have cleanly and efficiently executed full pipeline pre-training at 4-bit precision while maintaining convergence quality close to FP8.

More troublesome is that the cause of the collapse has been unclear. Analysis suggested the instability in FP4 training was likely due to insufficient randomness.

But recently, AMD, in collaboration with Pennsylvania State University, published a paper that overturns this traditional understanding, offering a new and clear diagnosis for native FP4 training.

  • Paper Title: Pretraining large language models with MXFP4 on Native FP4 Hardware
  • Paper Link: https://arxiv.org/abs/2605.09825

This paper successfully completed the full-pipeline pre-training of Llama 3.1-8B using the MXFP4 format on AMD Instinct MI355X GPUs, achieving 9-10% faster end-to-end training speed compared to the FP8 baseline, with only an 8-9% additional token cost. This is the first complete experiment to finish large model pre-training on native FP4 hardware (not software simulation).

More importantly, the paper reveals the core issue: The source of FP4 training instability is not insufficient randomness, but the cumulative amplification of structural microscaling errors along sensitive gradient paths.

What is MXFP4

Before dissecting the paper, it's necessary to understand the MXFP4 data format.

Traditional integer quantization typically uses a single scaling factor for an entire tensor. The core design of MXFP4 is called "Micro-scaling": splitting a tensor into small blocks (e.g., groups of 32 elements), assigning a shared exponent (E8M0 format) to each block, where each element within the block is represented by a 4-bit floating-point number. The reconstruction formula can be written as:

Where E_shared is the maximum exponent within the block, and Q_FP4 is the value rounded to the nearest representable 4-bit floating-point value.

The benefit of micro-scaling is that each small block has its own dynamic range and won't be "held hostage" by global outliers. This significantly improves the representational quality of 4-bit floating-point numbers compared to naive global quantization.

However, even with micro-scaling, FP4 training remains unstable.

Troubleshooting Experiments: The Root of Instability

The research team first designed a step-by-step controlled troubleshooting experiment.

A complete Transformer linear layer computation involves three general matrix multiplication operations:

Fprop (Forward Propagation): Computes Y = XW^T, producing activation values.

Dgrad (Activation Gradient): Computes ∇X = ∇Y · W, propagating gradients back to the input.

Wgrad (Weight Gradient): Computes ∇W = (∇Y)^T · X, producing the gradient used to update the weights.

Keeping all other factors constant, the research team gradually replaced these three operations from FP8 to MXFP4, observing the impact of each step on convergence. All experiments were executed using native FP4 tensor cores on AMD Instinct MI355X, without relying on software simulation.

The training task followed the MLPerf standard setup, pre-training Llama 3.1-8B on the C4 dataset, with a convergence target of achieving a validation perplexity of 3.3.

The first two steps only incurred a modest additional token cost. However, once Wgrad was also switched to MXFP4, the cost directly jumped to 26-27%.

Wgrad is the bottleneck for FP4 training. Forward propagation and activation gradient have considerable tolerance for FP4 quantization, but once the weight gradient is quantized to 4 bits, convergence quality degrades significantly.

The industry's prevailing intuition was that FP4 quantization error is essentially a noise problem, which could be "smoothed" by injecting randomness. Two common strategies are:

Stochastic Rounding: Introduces randomness during quantization to make the expected value of rounding error zero.

Randomized Hadamard Rotation: Uses a Hadamard transform with random sign flips to scatter the data distribution before quantization.

When Wgrad is quantized, both randomness strategies not only failed to stabilize training but directly caused non-convergence. Randomness didn't help; instead, it introduced more effective quantization error on the critical gradient path.

In contrast, deterministic Hadamard rotation dramatically reduced the full-pipeline token cost from 26-27% back to 8-9%, with the training trajectory closely tracking the FP8 baseline.

This is a highly diagnostic result. Both random and deterministic Hadamard rotations are orthogonal transformations that can scatter outlier energy distribution; theoretically, their effects on mitigating quantization error should be similar. Yet, their performance in the Wgrad scenario is completely opposite, revealing the nature of the problem:

FP4 training instability is driven by structural errors generated by MXFP4 micro-scaling on sensitive gradient paths. Randomness strategies failed because they introduced varying error patterns at each step, and these changing patterns accumulated along the gradient path, amplifying instability. Deterministic rotation was effective precisely because it applied the same transformation at every step, keeping the error pattern consistent and preventing error accumulation.

End-to-End Efficiency: Training Step Throughput +20%, Comprehensive Speedup 9-10%

After applying deterministic Hadamard rotation to the full-pipeline MXFP4, the efficiency data is as follows:

Training step throughput increased by 20%. After accounting for the additional 8-9% token cost, the end-to-end comprehensive speedup remains 9-10%.

Considering this directly halves precision from 8 bits to 4 bits, this convergence quality and speedup magnitude are quite significant.

Left: Curve showing the validation perplexity of Llama 3.1–8B versus training token count during MLPerf pre-training on the C4 dataset. Results show MXFP4 + deterministic Hadamard performs very close to FP8, while unstabilized full-pipeline MXFP4 converges slower and is less stable. Right: Zoomed-in view of the later training stage. The MLPerf target perplexity is 3.3. Compared to the unstabilized MXFP4 run, deterministic Hadamard (H16) maintains much tighter alignment with the FP8 baseline.

Notably, the authors explicitly emphasize an important limitation in the paper: The effectiveness of this FP4 training scheme (MLPerf C4 dataset + Llama 3.1-8B) has been verified, but it cannot be assumed to seamlessly transfer to all models, all datasets, and all training methods. FP4 training behavior might be highly setting-dependent, and specific stabilization strategies need re-validation per scenario.

Conclusion

Placing this paper within the broader industry context reveals at least three layers of significance.

First layer: It answers a fundamental "why". Previous FP4 training work mostly focused on "how to make it not crash." This paper provides the first clear causal diagnosis: collapse stems from structural microscaling errors on the Wgrad path, not insufficient randomness. This diagnosis itself holds methodological value, telling subsequent researchers that when encountering instability in low-precision training, they should prioritize investigating structural error sources rather than blindly adding randomness.

Second layer: It pushes FP4 from "inference-only" towards "usable for training". Previously, the industry consensus was that FP4 was only suitable for inference quantization, with FP8 being the minimum for training. NVIDIA's emphasis on FP4 inference rather than training on Blackwell also reflects this judgment. This paper successfully ran full-pipeline pre-training on native FP4 hardware, meaning that the FP4 compute power prepared for inference on MI355X and Blackwell could theoretically also be used for training. If FP4 training proves viable on larger models and more scenarios, it effectively doubles the usable training compute of existing hardware.

Third layer: It utilizes the OCP open standard. MXFP4 is part of the OCP Microscaling format standard, jointly supported by seven companies: AMD, NVIDIA, Intel, Meta, Microsoft, Arm, and Qualcomm. Basing on an open standard means this method has portability across different vendors' hardware and won't be locked into a single ecosystem.

From FP16 to FP8, DeepSeek-V3 has already proven that halving precision can dramatically reduce training costs. From FP8 to FP4, this paper takes the critical first step. With each slash in precision, the entire economics of large model training are shifting.

This article is from the WeChat public account "Machine Heart" (ID: almosthuman2014), edited by Leng Mao.

Perguntas relacionadas

QAccording to AMD's new research, what is the root cause of training instability when using FP4 precision for large language models, and why do common randomization strategies fail to address it?

AAccording to the AMD and Penn State University paper, the root cause of instability in native FP4 training is not insufficient randomness, but rather the amplification of structural microscaling error accumulation along the sensitive gradient path, specifically the weight gradient (Wgrad) path. Common randomization strategies like stochastic rounding and randomized Hadamard transforms fail because they introduce varying error patterns at each step. When these inconsistent patterns accumulate along the gradient path, they amplify instability instead of mitigating it. In contrast, a deterministic Hadamard transform is effective because it applies the same consistent transformation at every step, preventing the accumulation of divergent error patterns.

QWhat is MXFP4, and how does its 'micro-scaling' design differ from traditional quantization methods?

AMXFP4 is a 4-bit floating-point data format part of the OCP Microscaling (MSFP) standard. Its core design feature is 'micro-scaling', which differs from traditional tensor-level quantization that uses a single scaling factor for an entire tensor. In MXFP4, a tensor is divided into small blocks (e.g., groups of 32 elements). Each block is assigned a shared exponent (E8M0 format), and each element within the block is represented by a 4-bit mantissa. This approach allows each block to have its own dynamic range, preventing the representation quality of the entire block from being 'held hostage' by a few global outliers, thereby improving representation quality compared to naive global quantization.

QIn the diagnostic experiment, which specific operation (Fprop, Dgrad, or Wgrad) was identified as the bottleneck when quantized to MXFP4, and what was the observed impact on training efficiency?

AIn the step-by-step diagnostic experiment, quantizing the Weight Gradient (Wgrad) operation to MXFP4 was identified as the bottleneck. While replacing the Forward Propagation (Fprop) and Activation Gradient (Dgrad) operations with MXFP4 incurred only a modest additional token overhead, replacing Wgrad with MXFP4 caused the token overhead to jump significantly to 26-27%, indicating a substantial degradation in convergence quality and training stability.

QWhat were the key performance results of the end-to-end MXFP4 training with the deterministic Hadamard stabilization on the Llama 3.1-8B model?

AThe end-to-end MXFP4 training with deterministic Hadamard stabilization on the Llama 3.1-8B model achieved a 20% improvement in training step throughput. After accounting for the additional 8-9% token overhead required for convergence compared to the FP8 baseline, the net end-to-end training speedup was 9-10%. The validation perplexity curve closely tracked that of the FP8 baseline, successfully meeting the MLPerf target perplexity of 3.3 on the C4 dataset.

QWhat are the broader implications of this research for the AI hardware and training ecosystem, according to the article's conclusion?

AThe research has three key broader implications for the ecosystem. First, it provides a fundamental diagnostic methodology, shifting the focus from adding randomness to identifying and addressing structural error sources in low-precision training. Second, it potentially moves FP4 from a 'inference-only' to a 'training-viable' precision, effectively doubling the usable training compute on native FP4 hardware like AMD MI355X and NVIDIA Blackwell if validated at scale. Third, by building on the OCP Microscaling (MXFP) open standard supported by multiple major companies, the approach promotes hardware portability and avoids vendor lock-in, benefiting the wider industry.

Leituras Relacionadas

Jensen Huang: Vera Rubin Full Mass Production, AI Agent a Key Focus, Challenging Intel to Target the Next-Generation AI PC Gateway

NVIDIA CEO Jensen Huang delivered the keynote speech at GTC Taipei 2026, announcing several major product launches and strategic directions. The company's Vera Rubin architecture is now in full-scale production, with OpenAI, Anthropic, and SpaceX among the first customers. NVIDIA highlighted AI Agent as a key future focus, introducing the Vera CPU designed for AI agents and the Vera BlueField-4 STX for secure, chip-level AI storage processing. A significant move involves challenging Intel in the PC market. NVIDIA, in collaboration with MediaTek, is developing the RTX SPARK PC chip (manufactured by TSMC) for Windows systems, set to launch this fall for laptops and desktops. This signals NVIDIA's push into the next-generation AI PC arena, aiming to provide a vertically integrated core computing platform for the entire Windows ecosystem, similar to Apple's approach. Other announcements include the new Nemotron 3 Ultra AI model and the NVIDIA DSX platform, described as a complete "playbook" for building AI factories, allowing performance simulation and validation before physical deployment. In automotive, the DRIVE Hyperion platform was positioned as a global robotaxi platform, with major Chinese automakers like BYD, Geely, Zeekr, Xiaomi, and Pony.ai already adopting or developing autonomous driving solutions based on it. The Alpamayo 2 super open inference model for robotaxis was also introduced. For robotics, NVIDIA unveiled the Isaac GR00T humanoid robot reference platform for academic research and a large open-source agent tools and skills suite for Physical AI. The company plans to collaborate with global humanoid robot manufacturers, including China's Unitree, whose H2 Plus robot served as the reference hardware for the GR00T platform demonstration.

marsbitHá 11m

Jensen Huang: Vera Rubin Full Mass Production, AI Agent a Key Focus, Challenging Intel to Target the Next-Generation AI PC Gateway

marsbitHá 11m

Running MoE on Mobile Phones? Meta Proposes MobileMoE, Speeding Up iPhone 16 Pro by 3.8x

Meta's MobileMoE, a mobile-optimized Mixture-of-Experts (MoE) language model architecture, enables efficient on-device large language model (LLM) inference for the first time on commercial smartphones. Designed for decoder-only Transformers, it replaces dense feed-forward layers with MoE layers. Key design choices include 8 experts with granularity g=8, top-4 routing, and a shared expert. The model undergoes a four-stage training process: pre-training, intermediate training, supervised fine-tuning, and quantization-aware training. Results show MobileMoE models, with similar memory footprint, achieve equal or higher average accuracy across 14 foundational benchmarks while using only 1/2 to 1/4 of the FLOPs compared to dense baselines. After INT4 quantization, they remain competitive. Notably, on an iPhone 16 Pro, MobileMoE-S demonstrates significant speedups: up to 3.8x faster in the prompt phase and 2.2-3.4x faster in per-token generation compared to a dense counterpart, with lower peak memory usage. While MobileMoE establishes a new Pareto frontier for on-device LLMs in accuracy-compute trade-offs, particularly excelling in code and math tasks, it currently lags behind models like Qwen3.5 2B in advanced instruction following and knowledge reasoning. Future work includes improving post-training techniques, exploring NPU deployment, and managing the runtime memory sensitivity of MoE models to varying inputs.

marsbitHá 15m

Running MoE on Mobile Phones? Meta Proposes MobileMoE, Speeding Up iPhone 16 Pro by 3.8x

marsbitHá 15m

Bitcoin's Weak Rebound Fails to Mask Adjustment Trend, HYPE's Top Signal Warns of Short-Term Risks | Invited Analysis

**Title:** Bitcoin's Weak Rebound Fails to Mask Downtrend; HYPE Top Signal Alerts of Short-Term Risks | Exclusive Analysis **Abstract:** This weekly market analysis examines the current technical structures of Bitcoin and HYPE, outlining key trading strategies. Bitcoin's daily chart shows it has broken below the median line of its primary ascending channel, indicating structural weakness. It is currently experiencing a weak rebound within a short-term descending channel, targeting resistance at $75,000-$76,000. Failure to break above this zone could lead to a resumption of the downtrend, testing support at $69,500-$70,500. Trading strategies include positioning for a rebound rejection (Plan A) or a breakdown below key support (Plan B) with controlled short positions. For HYPE, the 4-hour chart reveals a potential seven-wave advance from the May 14 low, now showing signs of exhaustion. A bearish divergence (momentum weakening) has been observed, coupled with a top signal from the proprietary "Spread Trading Model" at potential endpoint 47. The key this week is to monitor if a confirmed top forms here, especially upon a breach of the $62.5-$64.57 support area. If broken, a larger corrective move towards $54-$56.30 is anticipated. The short-term strategy for HYPE focuses on cautious long entries only upon confirmed stabilization within the support zone. The report also details a successful short BTC trade from the previous week, yielding a ~5.07% profit, executed based on model signals and price action. Strict risk management rules, including dynamic stop-loss adjustments, are emphasized.

marsbitHá 32m

Bitcoin's Weak Rebound Fails to Mask Adjustment Trend, HYPE's Top Signal Warns of Short-Term Risks | Invited Analysis

marsbitHá 32m

Trading

Spot
Futuros

Artigos em Destaque

O que é $S$

Compreender o SPERO: Uma Visão Abrangente Introdução ao SPERO À medida que o panorama da inovação continua a evoluir, o surgimento de tecnologias web3 e projetos de criptomoeda desempenha um papel fundamental na formação do futuro digital. Um projeto que tem atraído atenção neste campo dinâmico é o SPERO, denotado como SPERO,$$s$. Este artigo tem como objetivo reunir e apresentar informações detalhadas sobre o SPERO, para ajudar entusiastas e investidores a compreender as suas bases, objetivos e inovações nos domínios web3 e cripto. O que é o SPERO,$$s$? O SPERO,$$s$ é um projeto único dentro do espaço cripto que procura aproveitar os princípios da descentralização e da tecnologia blockchain para criar um ecossistema que promove o envolvimento, a utilidade e a inclusão financeira. O projeto é concebido para facilitar interações peer-to-peer de novas maneiras, proporcionando aos utilizadores soluções e serviços financeiros inovadores. No seu núcleo, o SPERO,$$s$ visa capacitar indivíduos ao fornecer ferramentas e plataformas que melhoram a experiência do utilizador no espaço das criptomoedas. Isso inclui a possibilidade de métodos de transação mais flexíveis, a promoção de iniciativas impulsionadas pela comunidade e a criação de caminhos para oportunidades financeiras através de aplicações descentralizadas (dApps). A visão subjacente do SPERO,$$s$ gira em torno da inclusão, visando fechar lacunas dentro das finanças tradicionais enquanto aproveita os benefícios da tecnologia blockchain. Quem é o Criador do SPERO,$$s$? A identidade do criador do SPERO,$$s$ permanece algo obscura, uma vez que existem recursos publicamente disponíveis limitados que fornecem informações detalhadas sobre o(s) seu(s) fundador(es). Esta falta de transparência pode resultar do compromisso do projeto com a descentralização—uma ética que muitos projetos web3 partilham, priorizando contribuições coletivas em vez de reconhecimento individual. Ao centrar as discussões em torno da comunidade e dos seus objetivos coletivos, o SPERO,$$s$ incorpora a essência do empoderamento sem destacar indivíduos específicos. Assim, compreender a ética e a missão do SPERO é mais importante do que identificar um criador singular. Quem são os Investidores do SPERO,$$s$? O SPERO,$$s$ é apoiado por uma diversidade de investidores que vão desde capitalistas de risco a investidores-anjo dedicados a promover a inovação no setor cripto. O foco desses investidores geralmente alinha-se com a missão do SPERO—priorizando projetos que prometem avanço tecnológico social, inclusão financeira e governança descentralizada. Essas fundações de investidores estão tipicamente interessadas em projetos que não apenas oferecem produtos inovadores, mas que também contribuem positivamente para a comunidade blockchain e os seus ecossistemas. O apoio desses investidores reforça o SPERO,$$s$ como um concorrente notável no domínio em rápida evolução dos projetos cripto. Como Funciona o SPERO,$$s$? O SPERO,$$s$ emprega uma estrutura multifacetada que o distingue de projetos de criptomoeda convencionais. Aqui estão algumas das características-chave que sublinham a sua singularidade e inovação: Governança Descentralizada: O SPERO,$$s$ integra modelos de governança descentralizada, capacitando os utilizadores a participar ativamente nos processos de tomada de decisão sobre o futuro do projeto. Esta abordagem promove um sentido de propriedade e responsabilidade entre os membros da comunidade. Utilidade do Token: O SPERO,$$s$ utiliza o seu próprio token de criptomoeda, concebido para servir várias funções dentro do ecossistema. Esses tokens permitem transações, recompensas e a facilitação de serviços oferecidos na plataforma, melhorando o envolvimento e a utilidade gerais. Arquitetura em Camadas: A arquitetura técnica do SPERO,$$s$ suporta modularidade e escalabilidade, permitindo a integração contínua de funcionalidades e aplicações adicionais à medida que o projeto evolui. Esta adaptabilidade é fundamental para manter a relevância no panorama cripto em constante mudança. Envolvimento da Comunidade: O projeto enfatiza iniciativas impulsionadas pela comunidade, empregando mecanismos que incentivam a colaboração e o feedback. Ao nutrir uma comunidade forte, o SPERO,$$s$ pode melhor atender às necessidades dos utilizadores e adaptar-se às tendências do mercado. Foco na Inclusão: Ao oferecer taxas de transação baixas e interfaces amigáveis, o SPERO,$$s$ visa atrair uma base de utilizadores diversificada, incluindo indivíduos que anteriormente podem não ter participado no espaço cripto. Este compromisso com a inclusão alinha-se com a sua missão abrangente de empoderamento através da acessibilidade. Cronologia do SPERO,$$s$ Compreender a história de um projeto fornece insights cruciais sobre a sua trajetória de desenvolvimento e marcos. Abaixo está uma cronologia sugerida que mapeia eventos significativos na evolução do SPERO,$$s$: Fase de Conceituação e Ideação: As ideias iniciais que formam a base do SPERO,$$s$ foram concebidas, alinhando-se de perto com os princípios de descentralização e foco na comunidade dentro da indústria blockchain. Lançamento do Whitepaper do Projeto: Após a fase conceitual, um whitepaper abrangente detalhando a visão, os objetivos e a infraestrutura tecnológica do SPERO,$$s$ foi lançado para atrair o interesse e o feedback da comunidade. Construção da Comunidade e Primeiros Envolvimentos: Esforços ativos de divulgação foram feitos para construir uma comunidade de primeiros adotantes e investidores potenciais, facilitando discussões em torno dos objetivos do projeto e angariando apoio. Evento de Geração de Tokens: O SPERO,$$s$ realizou um evento de geração de tokens (TGE) para distribuir os seus tokens nativos a apoiantes iniciais e estabelecer liquidez inicial dentro do ecossistema. Lançamento da dApp Inicial: A primeira aplicação descentralizada (dApp) associada ao SPERO,$$s$ foi lançada, permitindo que os utilizadores interagissem com as funcionalidades principais da plataforma. Desenvolvimento Contínuo e Parcerias: Atualizações e melhorias contínuas nas ofertas do projeto, incluindo parcerias estratégicas com outros players no espaço blockchain, moldaram o SPERO,$$s$ em um jogador competitivo e em evolução no mercado cripto. Conclusão O SPERO,$$s$ é um testemunho do potencial do web3 e das criptomoedas para revolucionar os sistemas financeiros e capacitar indivíduos. Com um compromisso com a governança descentralizada, o envolvimento da comunidade e funcionalidades inovadoras, abre caminho para um panorama financeiro mais inclusivo. Como em qualquer investimento no espaço cripto em rápida evolução, potenciais investidores e utilizadores são incentivados a pesquisar minuciosamente e a envolver-se de forma ponderada com os desenvolvimentos em curso dentro do SPERO,$$s$. O projeto demonstra o espírito inovador da indústria cripto, convidando a uma exploração mais aprofundada das suas inúmeras possibilidades. Embora a jornada do SPERO,$$s$ ainda esteja a desenrolar-se, os seus princípios fundamentais podem, de facto, influenciar o futuro de como interagimos com a tecnologia, as finanças e uns com os outros em ecossistemas digitais interconectados.

69 Visualizações TotaisPublicado em {updateTime}Atualizado em 2024.12.17

O que é $S$

O que é AGENT S

Agent S: O Futuro da Interação Autónoma no Web3 Introdução No panorama em constante evolução do Web3 e das criptomoedas, as inovações estão constantemente a redefinir a forma como os indivíduos interagem com plataformas digitais. Um projeto pioneiro, o Agent S, promete revolucionar a interação humano-computador através do seu framework aberto e agente. Ao abrir caminho para interações autónomas, o Agent S visa simplificar tarefas complexas, oferecendo aplicações transformadoras em inteligência artificial (IA). Esta exploração detalhada irá aprofundar-se nas complexidades do projeto, nas suas características únicas e nas implicações para o domínio das criptomoedas. O que é o Agent S? O Agent S é um framework aberto e agente, especificamente concebido para abordar três desafios fundamentais na automação de tarefas computacionais: Aquisição de Conhecimento Específico de Domínio: O framework aprende inteligentemente a partir de várias fontes de conhecimento externas e experiências internas. Esta abordagem dupla capacita-o a construir um rico repositório de conhecimento específico de domínio, melhorando o seu desempenho na execução de tarefas. Planeamento ao Longo de Longos Horizontes de Tarefas: O Agent S emprega planeamento hierárquico aumentado por experiência, uma abordagem estratégica que facilita a decomposição e execução eficientes de tarefas intrincadas. Esta característica melhora significativamente a sua capacidade de gerir múltiplas subtarefas de forma eficiente e eficaz. Gestão de Interfaces Dinâmicas e Não Uniformes: O projeto introduz a Interface Agente-Computador (ACI), uma solução inovadora que melhora a interação entre agentes e utilizadores. Utilizando Modelos de Linguagem Multimodais de Grande Escala (MLLMs), o Agent S pode navegar e manipular diversas interfaces gráficas de utilizador de forma fluida. Através destas características pioneiras, o Agent S fornece um framework robusto que aborda as complexidades envolvidas na automação da interação humana com máquinas, preparando o terreno para uma infinidade de aplicações em IA e além. Quem é o Criador do Agent S? Embora o conceito de Agent S seja fundamentalmente inovador, informações específicas sobre o seu criador permanecem elusivas. O criador é atualmente desconhecido, o que destaca ou o estágio nascente do projeto ou a escolha estratégica de manter os membros fundadores em anonimato. Independentemente da anonimidade, o foco permanece nas capacidades e no potencial do framework. Quem são os Investidores do Agent S? Como o Agent S é relativamente novo no ecossistema criptográfico, informações detalhadas sobre os seus investidores e financiadores não estão explicitamente documentadas. A falta de informações disponíveis publicamente sobre as fundações de investimento ou organizações que apoiam o projeto levanta questões sobre a sua estrutura de financiamento e roteiro de desenvolvimento. Compreender o apoio é crucial para avaliar a sustentabilidade do projeto e o seu impacto potencial no mercado. Como Funciona o Agent S? No núcleo do Agent S reside uma tecnologia de ponta que lhe permite funcionar eficazmente em diversos ambientes. O seu modelo operacional é construído em torno de várias características-chave: Interação Humano-Computador Semelhante: O framework oferece planeamento avançado em IA, esforçando-se para tornar as interações com computadores mais intuitivas. Ao imitar o comportamento humano na execução de tarefas, promete elevar as experiências dos utilizadores. Memória Narrativa: Utilizada para aproveitar experiências de alto nível, o Agent S utiliza memória narrativa para acompanhar os históricos de tarefas, melhorando assim os seus processos de tomada de decisão. Memória Episódica: Esta característica fornece aos utilizadores orientações passo a passo, permitindo que o framework ofereça suporte contextual à medida que as tarefas se desenrolam. Suporte para OpenACI: Com a capacidade de funcionar localmente, o Agent S permite que os utilizadores mantenham o controlo sobre as suas interações e fluxos de trabalho, alinhando-se com a ética descentralizada do Web3. Fácil Integração com APIs Externas: A sua versatilidade e compatibilidade com várias plataformas de IA garantem que o Agent S possa integrar-se perfeitamente em ecossistemas tecnológicos existentes, tornando-o uma escolha apelativa para desenvolvedores e organizações. Estas funcionalidades contribuem coletivamente para a posição única do Agent S no espaço cripto, à medida que automatiza tarefas complexas e em múltiplos passos com mínima intervenção humana. À medida que o projeto evolui, as suas potenciais aplicações no Web3 podem redefinir a forma como as interações digitais se desenrolam. Cronologia do Agent S O desenvolvimento e os marcos do Agent S podem ser encapsulados numa cronologia que destaca os seus eventos significativos: 27 de Setembro de 2024: O conceito de Agent S foi lançado num artigo de pesquisa abrangente intitulado “Um Framework Agente Aberto que Usa Computadores como um Humano”, mostrando a base para o projeto. 10 de Outubro de 2024: O artigo de pesquisa foi disponibilizado publicamente no arXiv, oferecendo uma exploração aprofundada do framework e da sua avaliação de desempenho com base no benchmark OSWorld. 12 de Outubro de 2024: Uma apresentação em vídeo foi lançada, proporcionando uma visão visual das capacidades e características do Agent S, envolvendo ainda mais potenciais utilizadores e investidores. Estes marcos na cronologia não apenas ilustram o progresso do Agent S, mas também indicam o seu compromisso com a transparência e o envolvimento da comunidade. Pontos-Chave Sobre o Agent S À medida que o framework Agent S continua a evoluir, várias características-chave destacam-se, sublinhando a sua natureza inovadora e potencial: Framework Inovador: Concebido para proporcionar um uso intuitivo de computadores semelhante à interação humana, o Agent S traz uma abordagem nova à automação de tarefas. Interação Autónoma: A capacidade de interagir autonomamente com computadores através de GUI significa um avanço em direção a soluções computacionais mais inteligentes e eficientes. Automação de Tarefas Complexas: Com a sua metodologia robusta, pode automatizar tarefas complexas e em múltiplos passos, tornando os processos mais rápidos e menos propensos a erros. Melhoria Contínua: Os mecanismos de aprendizagem permitem que o Agent S melhore a partir de experiências passadas, aprimorando continuamente o seu desempenho e eficácia. Versatilidade: A sua adaptabilidade em diferentes ambientes operacionais, como OSWorld e WindowsAgentArena, garante que pode servir uma ampla gama de aplicações. À medida que o Agent S se posiciona no panorama do Web3 e das criptomoedas, o seu potencial para melhorar as capacidades de interação e automatizar processos significa um avanço significativo nas tecnologias de IA. Através do seu framework inovador, o Agent S exemplifica o futuro das interações digitais, prometendo uma experiência mais fluida e eficiente para os utilizadores em diversas indústrias. Conclusão O Agent S representa um ousado avanço na união da IA e do Web3, com a capacidade de redefinir a forma como interagimos com a tecnologia. Embora ainda esteja nas suas fases iniciais, as possibilidades para a sua aplicação são vastas e cativantes. Através do seu framework abrangente que aborda desafios críticos, o Agent S visa trazer interações autónomas para o primeiro plano da experiência digital. À medida que avançamos mais profundamente nos domínios das criptomoedas e da descentralização, projetos como o Agent S desempenharão, sem dúvida, um papel crucial na formação do futuro da tecnologia e da colaboração humano-computador.

652 Visualizações TotaisPublicado em {updateTime}Atualizado em 2025.01.14

O que é AGENT S

Como comprar S

Bem-vindo à HTX.com!Tornámos a compra de Sonic (S) simples e conveniente.Segue o nosso guia passo a passo para iniciar a tua jornada no mundo das criptos.Passo 1: cria a tua conta HTXUtiliza o teu e-mail ou número de telefone para te inscreveres numa conta gratuita na HTX.Desfruta de um processo de inscrição sem complicações e desbloqueia todas as funcionalidades.Obter a minha contaPasso 2: vai para Comprar Cripto e escolhe o teu método de pagamentoCartão de crédito/débito: usa o teu visa ou mastercard para comprar Sonic (S) instantaneamente.Saldo: usa os fundos da tua conta HTX para transacionar sem problemas.Terceiros: adicionamos métodos de pagamento populares, como Google Pay e Apple Pay, para aumentar a conveniência.P2P: transaciona diretamente com outros utilizadores na HTX.Mercado de balcão (OTC): oferecemos serviços personalizados e taxas de câmbio competitivas para os traders.Passo 3: armazena teu Sonic (S)Depois de comprar o teu Sonic (S), armazena-o na tua conta HTX.Alternativamente, podes enviá-lo para outro lugar através de transferência blockchain ou usá-lo para transacionar outras criptomoedas.Passo 4: transaciona Sonic (S)Transaciona facilmente Sonic (S) no mercado à vista da HTX.Acede simplesmente à tua conta, seleciona o teu par de trading, executa as tuas transações e monitoriza em tempo real.Oferecemos uma experiência de fácil utilização tanto para principiantes como para traders experientes.

1.2k Visualizações TotaisPublicado em {updateTime}Atualizado em 2025.03.21

Como comprar S

Discussões

Bem-vindo à Comunidade HTX. Aqui, pode manter-se informado sobre os mais recentes desenvolvimentos da plataforma e obter acesso a análises profissionais de mercado. As opiniões dos utilizadores sobre o preço de S (S) são apresentadas abaixo.

活动图片