Li Feifei's Latest Article: When Video Generation, Robotics, and NVIDIA All Claim to Have 'World Models,' We Need a Taxonomy

链捕手2026-07-05 tarihinde yayınlandı2026-07-05 tarihinde güncellendi

Özet

"World Model" has become a widely used yet ambiguous term in AI. Drawing from the classic POMDP framework (agent → action → state → observation), this article proposes a functional taxonomy to clarify the concept. It identifies three distinct types, categorized by their output in the perception-action loop: 1. **Renderers**: Output visual observations (pixels). These models, like advanced video generators, prioritize visual fidelity but often lack underlying physical accuracy. 2. **Simulators**: Output the state of the world (geometry, physics, dynamics). They provide a structurally accurate representation for professionals (e.g., architects) and serve as training environments for robots and AI agents. 3. **Planners**: Output actions. Given an observation and a goal, they determine what an agent should do next, closing the perception-action loop (e.g., vision-language-action models). While renderers are currently the most commercially mature and planners are the most aspirational, the article argues that **simulators are the crucial, underappreciated hub**. By working at the level of geometry and physics, a simulator can project upwards to create visuals for humans and downwards to predict action consequences for agents. The future lies in the convergence of these three functions. Emerging research and products, like World Labs' Marble model which outputs both visual splats and physical collision meshes, are beginning to blur these boundaries. The logical endpoint is a ...

Author: Li Feifei

Translation: Jiayang

'World model' is probably the hottest and most confusing concept in the AI field since 2025. When Sora emerged, OpenAI called it a world simulator; Genie lets you walk around in generated scenes and is also called a world model; robotics companies say they're working on world models; NVIDIA says Omniverse is the infrastructure for world models; even game engines have been pulled into this narrative. Everyone is using the same term, but they're talking about completely different things.

Today, Li Feifei published a new article on her personal Substack to clarify this concept. She first returns to the most classic diagram in reinforcement learning textbooks (the POMDP closed loop: agent → action → state → observation → agent), then points out that what are now called 'world models' are actually three different projections of this closed loop. Those outputting pixels (observations) are renderers, those outputting states are simulators, and those outputting actions are planners. The classification criteria are very simple: it depends on which part of the loop you output.

(Source: MIT Technology Review)

She assesses that among the three, renderers are the most commercially mature but have a ceiling (looking good does not equal physical correctness); planners are the most exciting but furthest from real-world deployment (the chasm between lab demos and practical usability remains vast); and simulators are the severely underestimated critical hub. Because simulators operate at the level of geometry, physics, and dynamics, they can project upwards into pixels for human consumption and also derive action consequences downwards for robot use. Mastering simulation simultaneously provides the foundation for rendering and planning; the reverse is not true.

This article is, of course, also a product manifesto for World Labs. Their Marble already outputs both Gaussian splats and collision meshes, attempting to unify renderer and simulator into a single model. The ultimate vision described at the end of the article is a unified world foundation model that can freely switch between rendering, simulation, and planning based on downstream needs. Whether this vision can be realized is another matter, but as an analytical framework, the tripartite classification of renderer/simulator/planner may indeed help cut through some of the noise surrounding the current 'world model' concept.

The full translation follows.

"The world is all that is the case." — Ludwig Wittgenstein, Tractatus Logico-Philosophicus, 1921

The world is not made of words.

In an earlier article, we proposed that spatial intelligence is the next frontier for AI, and world models are the path toward it. Here, the World Labs team and I want to delve one level deeper: among the many things currently labeled as "world models," which functional modules truly constitute this capability, and what are their respective purposes?

Language models have endowed machines with powerful mastery over concepts, vocabulary, and reasoning. But the physical world, whether virtual or real, operates on a completely different substrate. Language models learn the statistical structure of text; world models learn the statistical structure of space and time: how light falls on a surface, what a garden looks like from an angle never captured by a camera, how objects respond to forces and follow physical laws.

This makes "world model" one of the most important and simultaneously most abused terms in today's AI field. Computer vision, robotics, reinforcement learning, and generative AI all claim to be building world models, but each refers to something drastically different. A video model that generates gorgeous but physically impossible flames, a language model that improvises playable games, a physics engine that faithfully simulates a combustion process—they are all called by the same name.

The ancient Greeks could never agree on what the world was made of—be it fire, water, or indivisible atoms—because "the world" has never been a single thing. It has always been a substitute term used by a thinker to reason about a certain totality. AI inherits the same problem, and it happens precisely at the moment when the field needs precision the most.

The Loop Behind the Taxonomy

To clear up this confusion, we can start with a diagram older than all the technologies mentioned above. All reinforcement learning textbooks, including the classic by Sutton and Barto, have used variations of the same diagram for decades to describe how an agent interacts with the world. Its formal name is the Partially Observable Markov Decision Process (POMDP), and the term "world model" was originally defined within this tradition.

An agent (which can be a human, a robot, or a software system) takes an action. These actions change the state of the world. But the agent can never directly see the state itself; what it receives are observations: photons hitting the retina, sensor readings, pixels in a video frame. New observations guide new actions, and the cycle repeats.

The word "state" needs to be unpacked because its meaning shifts across different domains. This is not the chemist's state, not the distinction between solid, liquid, and gas. This is the physicist's and roboticist's state: a complete description of everything happening in the world at a given moment, including every object, every position, every velocity, every property. The state is the underlying reality of the world, in principle complete, but forever unobservable directly by any agent within it. Observations are the agent's partial view of this reality. Actions are the agent's response accordingly.

This closed loop (agent → action → state → observation → agent) is precisely the structure that gives the term "world model" its technical meaning. The phrase itself is even older, traceable to Kenneth Craik's 1943 proposal that the mind reasons by running "small-scale models" of reality, and by the late 1980s and early 1990s, the concept was introduced into neural networks. This loop also explains what people mean when they use the term today. The various things now called world models are actually different projections of the same closed loop, each outputting a different component of the loop.

Three Functions of World Models

The first type of world model is the Renderer. A renderer outputs observations, specifically pixels for the human eye, and the most important quality metric is visual fidelity. A video model that transforms text prompts into cinematic aerial shots is a renderer; interactive systems like Google's Genie 3 or World Labs' own RTFM are also renderers, generating visuals in real-time based on user input. Such models lack an explicit understanding of 3D structure. They generate what a viewer would see, not what things are like in themselves. The building in an aerial shot might look flawless from above, but try navigating the city below, and they will collapse.

The second type is the Simulator. A simulator outputs states: a geometrically, physically, or kinematically faithful representation of the world upon which both humans and computer programs can compute and interact. The renderer's contract is purely visual, while the simulator's contract is structural, demanding geometry that holds up under scrutiny, physics that obey Newton's laws, and dynamics that behave as expected by physical principles. Simulators serve two classes of users. Professionals like architects, designers, filmmakers, and game developers require accuracy beyond visual plausibility. Computer programs like reinforcement learning agents, robot controllers, and autonomous vehicles treat the simulator as a training ground to interact with the world at scale, testing scenarios that are either dangerous, expensive, or simply impossible to execute in reality.

The third type is the Planner. A planner outputs actions. Given an observation and a goal, the planner answers the question: what should the agent do next? In many ways, the planner is the inverse of the renderer. The renderer takes actions as input and produces observations; the planner takes observations as input and produces actions, thereby closing the perception-action loop. Vision-Language-Action models (VLA), model-based systems, and the new wave of World Action Models are all different attempts at planners: enabling systems to decide what a robot should do in an unstructured world.

These three categories cover most of the work currently being implemented, and the distinction is useful in practice. But these categories are not fundamentally separate. They share the same underlying knowledge about how the world works: geometry, physics, dynamics. A model that can render a cup from any angle should, in principle, also be able to simulate what happens if the cup is pushed and plan a hand to pick it up. Increasingly, the most interesting research is deliberately blurring the boundaries between these three.

Illustration | Three Types of World Models (Source: Substack)

Why Simulation Is the Key Hub

Among the three categories, simulators receive the least public attention yet are the most important of the three. This article seeks to correct that asymmetry.

Renderers are currently the most commercially mature. Numerous image or text-to-video products are rapidly expanding in consumer and enterprise markets. Google's Nano Banana model has brought renderer-level image generation capabilities to potentially hundreds of millions of users. The technology is real, and the market is real. However, renderers optimize for visual plausibility rather than physical accuracy, and this ceiling is important. Their outputs are beautiful, but you cannot use them to design a building or train a robot.

Planners are the most exciting and least mature, closely tied to the rapidly evolving field of robot learning. The past two years have produced many robot demos that look impressive in videos, but we need to be honest about what these demos actually show. Almost all demos are confined to highly constrained lab environments with limited objects and short task durations. None have been validated against the complexity, diversity, and duration required for real-world deployment. The gap from a stunning demo video to a robot that works reliably in a kitchen, warehouse, or operating room remains vast.

Nevertheless, the scale of commercial bets is substantial. A wave of well-funded new entrants is racing to launch general-purpose planning systems, while large infrastructure players are layering planning capabilities atop broader simulation stacks.

Simulation is the bridge connecting the two. If language is an abstraction of the world and pixels are a projection of the world, then geometry, physics, and dynamics are the world itself. A simulator must operate at this level: it is the structural skeleton from which visual appearances (for renderers) and action consequences (for planners) can both be derived.

A model that masters simulation can project its understanding into pixels for human consumption and into action predictions for embodied agents. A model that masters only rendering or only planning can do neither. The commercial space here is immense. NVIDIA's Omniverse alone, according to the company's estimate, targets a market opportunity exceeding a trillion dollars, covering factories, warehouses, supply chains, and digital twins. Robot training, autonomous vehicle testing, architectural visualization, engineering design, drug discovery—all rely on some form of simulation.

The most difficult open questions in the field are also concentrated here. 3D data with explicit geometry, material properties, and physical annotations is orders of magnitude scarcer than internet videos used for renderer training. The sim-to-real gap (the difference between how objects behave in simulation versus the real world) persists. Generative simulators introduce new risks on top of this: AI-generated geometry might look correct but actually contain self-intersections or incorrect scales, leading to absurd results in physics simulation. The computational cost of large-scale multi-physics simulation (rigid bodies, deformable objects, fluids, cloth all interacting simultaneously) remains orders of magnitude higher than simulation in a single domain.

At World Labs, Marble is our first step in this direction. It takes multimodal input (text, image, video, or spatial sketches) and generates explorable 3D environments, simultaneously outputting Gaussian splats for visual exploration and collision meshes for physics engines. But Marble is only the first chapter of a long arc. As the boundaries between rendering, simulation, and planning begin to dissolve, the entire field is writing this story.

The Boundaries Are Blurring, and What Comes Next

The most important trend in the field right now is that the three categories are beginning to merge. The underlying consensus is that the knowledge required to render a world, simulate it, and act within it is largely the same. Continuing with the previous example, a model that truly understands how a cup sits on a table (its geometry, material properties, response to forces, etc.) should be able to render that cup from any angle, simulate what happens if the cup is pushed, and plan a hand to pick it up. The three categories are three projections of the same underlying understanding.

For instance, a small but growing body of work from various robotics labs has recently shown the possibility, at least conceptually, that a pre-trained video renderer can serve as the backbone for joint world prediction and action prediction, allowing a single model to simultaneously imagine "what will happen" and "what to do," thus bridging renderers and planners. World Labs' Marble can already output both Gaussian splats and collision meshes from a single model, dissolving the boundary between renderer and simulator. At every level, the move is from passive output to interactive systems: renderers become responsive to action conditioning, simulators generate worlds that are more controllable and editable, and planners begin deliberative reasoning rather than merely reacting.

The logical endpoint is a unified world model: a foundation model capable of rendering photorealistic views, generating physically accurate structures, planning action sequences, and switching between different output modalities based on the needs of downstream users. We will still face a series of formidable challenges. The data landscape is extremely uneven, with renderers sitting on vast amounts of internet video, while simulators and planners face severe shortages of 3D assets and robot demonstration data. Optimization for visual beauty may come at the expense of precision needed for robotics or high-fidelity simulation. Reconciling these tensions within a single architecture is the central open problem in world model research today, and what World Labs is committed to solving as Marble continues to evolve.

(Source: Substack)

But the overall direction is clear. From the late 1980s to today, the field's bet has always been the same: that if the world model is rich enough, everything an agent needs to see the world, build it, and act within it is contained therein. This bet is now driving a generation of research. And what truly gives it weight is the already-occurring convergence: the three threads of rendering, simulation, and planning, each already supporting industries worth billions, started as independent research directions and are now beginning to merge. When the boundaries disappear, the confluence of the three will redefine something larger: the relationship between machine intelligence and the physical world it inhabits, which is the long-term trajectory of spatial intelligence.

Language has given machines a way to talk about the world. World models are the path by which machines finally come to understand, imagine, reason, and interact with it.

Reference: 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

Trend Kriptolar

İlgili Sorular

QAccording to Fei-Fei Li's article, what are the three main functional categories of 'world models' in AI, and what do they primarily output?

AAccording to Fei-Fei Li, the three functional categories are: 1. Renderers, which output observations (e.g., pixels for human consumption). 2. Simulators, which output the world's state (a geometrically, physically accurate representation). 3. Planners, which output actions (deciding what an agent should do next).

QWhy does the article argue that the simulator is the 'key hub' among the three categories of world models?

AThe article argues the simulator is the key hub because it works at the foundational level of geometry, physics, and dynamics—the 'skeleton' of the world. From an accurate simulation, one can derive visual outputs for renderers and action consequences for planners, but a model that only knows rendering or planning cannot achieve the other.

QWhat is the POMDP loop, and how does it provide the framework for defining the different types of world models?

AThe POMDP (Partially Observable Markov Decision Process) loop describes an agent taking an action, which changes the world's state. The agent then receives an observation (a partial view of the state), which informs its next action. World models are different projections of this loop: renderers output observations, simulators output states, and planners output actions.

QWhat is the main limitation of current renderer-type world models, despite their commercial maturity?

AThe main limitation is that they optimize for visual fidelity, not physical accuracy. Their output can look beautiful but may not be physically correct, making them unsuitable for tasks like architectural design or training robots, which require structural and physical correctness.

QWhat is the 'logical end point' or ultimate vision for world models described in the article, and what is a key challenge in achieving it?

AThe ultimate vision is a unified world foundation model capable of rendering photorealistic views, generating physically accurate structures, and planning action sequences, switching between these outputs based on downstream needs. A key challenge is the extremely uneven data landscape, with abundant internet video for renderers but severe scarcity of high-quality 3D and robotics demonstration data for simulators and planners.

İlgili Okumalar

Li Fei-Fei's Latest Long-Form Article: When Video Generation, Robotics, and NVIDIA All Call Themselves World Models, We Need a Taxonomy

In a new article, Dr. Fei-Fei Li addresses the widespread and often inconsistent use of the term "world model" in AI. She proposes a clear, functional taxonomy rooted in the classic Partially Observable Markov Decision Process (POMDP) loop (agent → action → state → observation → agent). According to this framework, current systems called "world models" are different projections of this loop, categorized by their primary output: 1. **Renderers**: Output observations (pixels). Their goal is visual fidelity for human consumption (e.g., video generation models like Sora). They are the most commercially mature but are limited by a focus on appearance over physical accuracy. 2. **Simulators**: Output states (geometric, physical, dynamic representations). They provide a structurally accurate world for both human professionals (e.g., architects) and computational agents (e.g., robots for training). Li argues simulators are the crucial, underappreciated bridge, as they can underpin both rendering and planning. 3. **Planners**: Output actions. Given an observation and a goal, they decide what an agent should do next (e.g., robotic action models). This area is highly promising but remains the least mature for real-world deployment. Li highlights a key trend: the boundaries between these three categories are beginning to blur, as they all rely on a shared underlying understanding of geometry, physics, and dynamics. The logical endpoint is a unified world foundation model capable of switching between rendering, simulation, and planning based on downstream needs. This convergence, she concludes, is central to advancing spatial intelligence—enabling machines not just to talk about the world, but to truly understand, imagine, and interact with it.

marsbit1 saat önce

Li Fei-Fei's Latest Long-Form Article: When Video Generation, Robotics, and NVIDIA All Call Themselves World Models, We Need a Taxonomy

marsbit1 saat önce

Forbes Feature: Stablecoin Cross-Border Payments Are Faster, But Not Yet Cheaper

A Forbes feature delves into the state of stablecoin-based cross-border payments, noting rapid growth but a key shortfall: while faster and more accessible, they are not yet cheaper. At a recent industry conference in Mexico City, optimism about technology, regulation, and volume was tempered by discussions with practitioners. The core issue is liquidity. Traditional FX brokers charge 60-70 basis points, and stablecoins promise to slash this to 2-5 basis points. However, this theoretical cost advantage cannot be realized until deep liquidity pools are established at scale, requiring significant institutional capital inflow. A major adoption barrier is trust. Businesses often rely on long-standing relationships with traditional brokers, valuing reliability over marginal cost savings. This shift will be gradual. Furthermore, successful companies in the space are not positioning themselves as replacements for legacy systems like SWIFT, but as complements. They leverage stablecoins for speed while using traditional rails for their standardization and reliability in ensuring accurate payment details—a critical factor for supplier payments to avoid customs issues. Companies like Caliza, experiencing high monthly growth, exemplify this hybrid approach. The industry anticipates consolidation, as long-term viability will depend on securing the essential trifecta: proper licensing, robust fiat on/off-ramps, and deep liquidity. Without these, firms risk being mere intermediaries rather than building sustainable businesses.

marsbit1 saat önce

Forbes Feature: Stablecoin Cross-Border Payments Are Faster, But Not Yet Cheaper

marsbit1 saat önce

İşlemler

Spot

Popüler Makaleler

$S$ Nedir

SPERO'yu Anlamak: Kapsamlı Bir Genel Bakış SPERO'ya Giriş İnovasyonun manzarası gelişmeye devam ederken, web3 teknolojilerinin ve kripto para projelerinin ortaya çıkışı dijital geleceği şekillendirmede önemli bir rol oynamaktadır. Bu dinamik alanda dikkat çeken projelerden biri SPERO, $$s$$ olarak adlandırılmaktadır. Bu makale, SPERO hakkında ayrıntılı bilgi toplamak ve sunmak amacıyla, meraklılar ve yatırımcıların web3 ve kripto alanlarındaki temellerini, hedeflerini ve yeniliklerini anlamalarına yardımcı olmayı amaçlamaktadır. SPERO,$$s$$ Nedir? SPERO,$$s$$, kripto alanında merkeziyetsizlik ve blok zinciri teknolojisi ilkelerini kullanarak etkileşimi, faydayı ve finansal kapsayıcılığı teşvik eden bir ekosistem yaratmayı amaçlayan benzersiz bir projedir. Proje, kullanıcıların yenilikçi finansal çözümler ve hizmetler sunarak eşler arası etkileşimleri yeni yollarla kolaylaştırmayı hedeflemektedir. SPERO,$$s$$'nin temel amacı, bireyleri güçlendirmek ve kripto para alanındaki kullanıcı deneyimini artıran araçlar ve platformlar sağlamaktır. Bu, daha esnek işlem yöntemlerini mümkün kılmayı, topluluk odaklı girişimleri teşvik etmeyi ve merkeziyetsiz uygulamalar (dApp'ler) aracılığıyla finansal fırsatlar yaratmayı içermektedir. SPERO,$$s$$'nin temel vizyonu kapsayıcılık etrafında dönmekte olup, geleneksel finansal sistemlerdeki boşlukları kapatmayı ve blok zinciri teknolojisinin faydalarından yararlanmayı hedeflemektedir. SPERO,$$s$$'nin Yaratıcısı Kimdir? SPERO,$$s$$'nin yaratıcısının kimliği bir miktar belirsizdir, çünkü kurucusu(ları) hakkında ayrıntılı arka plan bilgisi sağlayan sınırlı kamuya açık kaynaklar bulunmaktadır. Bu şeffaflık eksikliği, projenin merkeziyetsizlik taahhüdünden kaynaklanabilir—birçok web3 projesinin paylaştığı bir etik anlayışı, bireysel tanınmanın yerine kolektif katkıları önceliklendirmektedir. Topluluk ve onun kolektif hedefleri etrafında tartışmaları merkezileştirerek, SPERO,$$s$$, belirli bireyleri öne çıkarmadan güçlendirme özünü taşımaktadır. Bu nedenle, SPERO'nun etik anlayışını ve misyonunu anlamak, tek bir yaratıcının kimliğini belirlemekten daha önemlidir. SPERO,$$s$$'nin Yatırımcıları Kimlerdir? SPERO,$$s$$, kripto sektöründe yeniliği teşvik etmeye adanmış girişim sermayedarlarından melek yatırımcılara kadar çeşitli yatırımcılar tarafından desteklenmektedir. Bu yatırımcıların odak noktası genellikle SPERO'nun misyonuyla uyumlu olup, toplumsal teknolojik ilerlemeyi, finansal kapsayıcılığı ve merkeziyetsiz yönetimi vaat eden projeleri önceliklendirmektedir. Bu yatırımcı temelleri, yalnızca yenilikçi ürünler sunan projelere değil, aynı zamanda blok zinciri topluluğuna ve ekosistemlerine olumlu katkılarda bulunan projelere de ilgi duymaktadır. Bu yatırımcıların desteği, SPERO,$$s$$'yi hızla gelişen kripto projeleri alanında dikkate değer bir rakip haline getirmektedir. SPERO,$$s$$ Nasıl Çalışır? SPERO,$$s$$, onu geleneksel kripto para projelerinden ayıran çok yönlü bir çerçeve kullanmaktadır. İşte benzersizliğini ve yeniliğini vurgulayan bazı temel özellikler: Merkeziyetsiz Yönetim: SPERO,$$s$$, kullanıcıların projenin geleceğiyle ilgili karar alma süreçlerine aktif olarak katılmalarını sağlayan merkeziyetsiz yönetim modellerini entegre etmektedir. Bu yaklaşım, topluluk üyeleri arasında sahiplik ve hesap verebilirlik duygusunu teşvik etmektedir. Token Kullanımı: SPERO,$$s$$, ekosistem içinde çeşitli işlevler sunmak üzere tasarlanmış kendi kripto para token'ını kullanmaktadır. Bu token'lar, işlemleri, ödülleri ve platformda sunulan hizmetlerin kolaylaştırılmasını sağlayarak genel etkileşimi ve faydayı artırmaktadır. Katmanlı Mimari: SPERO,$$s$$'nin teknik mimarisi, modülerlik ve ölçeklenebilirliği destekleyerek projenin evrimi sırasında ek özelliklerin ve uygulamaların sorunsuz bir şekilde entegrasyonuna olanak tanımaktadır. Bu uyum sağlama yeteneği, sürekli değişen kripto manzarasında geçerliliği sürdürmek için hayati öneme sahiptir. Topluluk Katılımı: Proje, işbirliği ve geri bildirim teşvik eden mekanizmalar kullanarak topluluk odaklı girişimlere vurgu yapmaktadır. Güçlü bir topluluk oluşturarak, SPERO,$$s$$, kullanıcı ihtiyaçlarını daha iyi karşılayabilir ve piyasa trendlerine uyum sağlayabilir. Kapsayıcılığa Odaklanma: Düşük işlem ücretleri ve kullanıcı dostu arayüzler sunarak, SPERO,$$s$$, daha önce kripto alanında yer almamış bireyler de dahil olmak üzere çeşitli bir kullanıcı tabanını çekmeyi hedeflemektedir. Bu kapsayıcılık taahhüdü, erişilebilirlik yoluyla güçlendirme misyonuyla uyumludur. SPERO,$$s$$ Zaman Çizelgesi Bir projenin tarihini anlamak, gelişim yolculuğu ve kilometre taşları hakkında kritik bilgiler sağlar. Aşağıda, SPERO,$$s$$'nin evriminde önemli olayları haritalayan önerilen bir zaman çizelgesi bulunmaktadır: Kavram Geliştirme ve Fikir Aşaması: SPERO,$$s$$'nin temelini oluşturan ilk fikirler, blok zinciri endüstrisindeki merkeziyetsizlik ve topluluk odaklılık ilkeleriyle yakından uyumlu olarak geliştirildi. Proje Beyaz Kağıdının Yayınlanması: Kavramsal aşamayı takiben, SPERO,$$s$$'nin vizyonunu, hedeflerini ve teknolojik altyapısını ayrıntılı bir şekilde açıklayan kapsamlı bir beyaz kağıt yayımlandı ve topluluk ilgisini ve geri bildirimini toplamak amacıyla sunuldu. Topluluk Oluşturma ve Erken Katılımlar: Projenin hedefleri etrafında tartışmalar yürüterek destek toplamak ve erken benimseyenler ile potansiyel yatırımcılar için bir topluluk oluşturmak amacıyla aktif iletişim çabaları gerçekleştirildi. Token Üretim Etkinliği: SPERO,$$s$$, yerel token'larını erken destekçilere dağıtmak ve ekosistem içinde başlangıç likiditesini sağlamak amacıyla bir token üretim etkinliği (TGE) gerçekleştirdi. İlk dApp'in Yayınlanması: SPERO,$$s$$ ile ilişkili ilk merkeziyetsiz uygulama (dApp) faaliyete geçti ve kullanıcıların platformun temel işlevleriyle etkileşimde bulunmalarını sağladı. Sürekli Gelişim ve Ortaklıklar: Projenin tekliflerine sürekli güncellemeler ve iyileştirmeler yapılmakta olup, blok zinciri alanındaki diğer oyuncularla stratejik ortaklıklar, SPERO,$$s$$'yi rekabetçi ve gelişen bir oyuncu haline getirmiştir. Sonuç SPERO,$$s$$, web3 ve kripto paranın finansal sistemleri devrim niteliğinde dönüştürme ve bireyleri güçlendirme potansiyelinin bir kanıtıdır. Merkeziyetsiz yönetime, topluluk katılımına ve yenilikçi tasarlanmış işlevselliğe olan bağlılığıyla, daha kapsayıcı bir finansal manzaraya doğru bir yol açmaktadır. Hızla gelişen kripto alanındaki herhangi bir yatırımda olduğu gibi, potansiyel yatırımcılar ve kullanıcılar, SPERO,$$s$$ içindeki devam eden gelişmelerle ilgili olarak kapsamlı bir araştırma yapmaları ve düşünceli bir şekilde katılmaları teşvik edilmektedir. Proje, kripto endüstrisinin yenilikçi ruhunu sergileyerek, sayısız olasılığını keşfetmeye davet etmektedir. SPERO,$$s$$'nin yolculuğu hala devam ederken, temel ilkeleri, teknoloji, finans ve birbirimizle etkileşim biçimimizi etkileyebilir.

152 Toplam GörüntülenmeYayınlanma 2024.12.17Güncellenme 2024.12.17

$S$ Nedir

AGENT S Nedir

Agent S: Web3'te Otonom Etkileşimin Geleceği Giriş Web3 ve kripto para dünyasında sürekli gelişen manzarada, yenilikler bireylerin dijital platformlarla etkileşim biçimlerini sürekli olarak yeniden tanımlıyor. Bu tür öncü projelerden biri olan Agent S, açık ajans çerçevesi aracılığıyla insan-bilgisayar etkileşimini devrim niteliğinde değiştirmeyi vaat ediyor. Otonom etkileşimlerin yolunu açarak, Agent S karmaşık görevleri basitleştirmeyi ve yapay zeka (AI) alanında dönüştürücü uygulamalar sunmayı hedefliyor. Bu detaylı inceleme, projenin karmaşıklıklarına, benzersiz özelliklerine ve kripto para alanındaki etkilerine dalacaktır. Agent S Nedir? Agent S, bilgisayar görevlerinin otomasyonunda üç temel zorluğu ele almak üzere özel olarak tasarlanmış çığır açıcı bir açık ajans çerçevesidir: Alan Spesifik Bilgi Edinimi: Çerçeve, çeşitli dış bilgi kaynaklarından ve iç deneyimlerden akıllıca öğrenir. Bu çift yönlü yaklaşım, alan spesifik bilgi açısından zengin bir veri havuzu oluşturmasını sağlar ve görev yürütmedeki performansını artırır. Uzun Görev Ufukları Üzerinde Planlama: Agent S, karmaşık görevlerin verimli bir şekilde parçalanmasını ve yürütülmesini kolaylaştıran deneyim artırımlı hiyerarşik planlama kullanır. Bu özellik, çoklu alt görevleri etkili ve verimli bir şekilde yönetme yeteneğini önemli ölçüde artırır. Dinamik, Homojen Olmayan Arayüzlerle Başlama: Proje, ajanlar ve kullanıcılar arasındaki etkileşimi geliştiren yenilikçi bir çözüm olan Ajan-Bilgisayar Arayüzü'ni (ACI) tanıtmaktadır. Çok Modlu Büyük Dil Modellerini (MLLM'ler) kullanarak, Agent S çeşitli grafik kullanıcı arayüzlerini sorunsuz bir şekilde gezinebilir ve manipüle edebilir. Bu öncü özellikler aracılığıyla, Agent S, makinelerle insan etkileşimini otomatikleştirmede karşılaşılan karmaşıklıkları ele alan sağlam bir çerçeve sunarak, AI ve ötesinde birçok uygulama için zemin hazırlıyor. Agent S'nin Yaratıcısı Kimdir? Agent S'nin kavramı temelde yenilikçi olsa da, yaratıcısı hakkında spesifik bilgiler belirsizliğini koruyor. Yaratıcı şu anda bilinmiyor, bu da projenin yeni aşamasını veya kurucu üyeleri gizli tutma stratejik tercihini vurguluyor. Anonimlikten bağımsız olarak, odak çerçevenin yetenekleri ve potansiyeli üzerinde kalıyor. Agent S'nin Yatırımcıları Kimlerdir? Agent S, kriptografik ekosistemde oldukça yeni olduğundan, yatırımcıları ve finansal destekçileri hakkında ayrıntılı bilgiler açıkça belgelenmemiştir. Projeyi destekleyen yatırım temelleri veya organizasyonları hakkında kamuya açık bilgilerdeki eksiklik, finansman yapısı ve gelişim yol haritası hakkında sorular doğuruyor. Destekleyicilerin anlaşılması, projenin sürdürülebilirliğini ve potansiyel pazar etkisini değerlendirmek için kritik öneme sahiptir. Agent S Nasıl Çalışır? Agent S'nin temelinde, çeşitli ortamlarda etkili bir şekilde çalışmasını sağlayan son teknoloji bir sistem yatmaktadır. İşleyiş modeli birkaç ana özellik etrafında inşa edilmiştir: İnsan Benzeri Bilgisayar Etkileşimi: Çerçeve, bilgisayarlarla etkileşimleri daha sezgisel hale getirmeyi amaçlayan gelişmiş AI planlaması sunar. Görev yürütmedeki insan davranışını taklit ederek, kullanıcı deneyimlerini yükseltmeyi vaat eder. Anlatı Belleği: Yüksek düzeyde deneyimlerden yararlanmak için kullanılan Agent S, görev geçmişlerini takip etmek amacıyla anlatı belleğini kullanarak karar verme süreçlerini geliştirir. Episodik Bellek: Bu özellik, kullanıcılara adım adım rehberlik sağlayarak, çerçevenin görevler gelişirken bağlamsal destek sunmasına olanak tanır. OpenACI Desteği: Yerel olarak çalışabilme yeteneği ile Agent S, kullanıcıların etkileşimleri ve iş akışları üzerinde kontrol sağlamasına olanak tanır ve Web3'ün merkeziyetsiz felsefesiyle uyumlu hale gelir. Dış API'lerle Kolay Entegrasyon: Çeşitli AI platformlarıyla uyumluluğu ve çok yönlülüğü, Agent S'nin mevcut teknolojik ekosistemlere sorunsuz bir şekilde entegre olmasını sağlar ve geliştiriciler ile organizasyonlar için cazip bir seçenek haline getirir. Bu işlevsellikler, Agent S'nin kripto alanındaki benzersiz konumuna katkıda bulunarak, karmaşık, çok aşamalı görevleri minimum insan müdahalesi ile otomatikleştirir. Proje geliştikçe, Web3'teki potansiyel uygulamaları dijital etkileşimlerin nasıl gelişeceğini yeniden tanımlayabilir. Agent S'nin Zaman Çizelgesi Agent S'nin gelişimi ve kilometre taşları, önemli olaylarını vurgulayan bir zaman çizelgesinde özetlenebilir: 27 Eylül 2024: Agent S'nin kavramı, “Bilgisayarları İnsan Gibi Kullanan Açık Bir Ajans Çerçevesi” başlıklı kapsamlı bir araştırma makalesi ile tanıtıldı ve projenin temelini sergiledi. 10 Ekim 2024: Araştırma makalesi arXiv'de kamuya açık olarak yayınlandı ve çerçevenin derinlemesine bir incelemesini ve OSWorld benchmark'ına dayalı performans değerlendirmesini sundu. 12 Ekim 2024: Agent S'nin yetenekleri ve özellikleri hakkında görsel bir içgörü sağlayan bir video sunumu yayımlandı ve potansiyel kullanıcılar ve yatırımcılarla daha fazla etkileşim sağlandı. Bu zaman çizelgesindeki işaretler, sadece Agent S'nin ilerlemesini değil, aynı zamanda şeffaflık ve topluluk katılımına olan bağlılığını da göstermektedir. Agent S Hakkında Ana Noktalar Agent S çerçevesi gelişmeye devam ederken, birkaç ana özellik öne çıkmakta ve yenilikçi doğasını ve potansiyelini vurgulamaktadır: Yenilikçi Çerçeve: İnsan etkileşimine benzer bir bilgisayar kullanımı sağlamak üzere tasarlanan Agent S, görev otomasyonuna yeni bir yaklaşım getiriyor. Otonom Etkileşim: GUI aracılığıyla bilgisayarlarla otonom olarak etkileşim kurabilme yeteneği, daha akıllı ve verimli hesaplama çözümlerine doğru bir sıçrama anlamına geliyor. Karmaşık Görev Otomasyonu: Sağlam metodolojisi ile karmaşık, çok aşamalı görevleri otomatikleştirerek süreçleri daha hızlı ve daha az hata payı ile gerçekleştirebilir. Sürekli İyileştirme: Öğrenme mekanizmaları, Agent S'nin geçmiş deneyimlerden öğrenmesini sağlar ve sürekli olarak performansını ve etkinliğini artırır. Çok Yönlülük: OSWorld ve WindowsAgentArena gibi farklı işletim ortamlarında uyumlu olması, geniş bir uygulama yelpazesine hizmet edebilmesini sağlar. Agent S, Web3 ve kripto alanında kendini konumlandırırken, etkileşim yeteneklerini artırma ve süreçleri otomatikleştirme potansiyeli, AI teknolojilerinde önemli bir ilerlemeyi temsil etmektedir. Yenilikçi çerçevesi aracılığıyla, Agent S dijital etkileşimlerin geleceğini örneklemekte ve çeşitli sektörlerde kullanıcılar için daha sorunsuz ve verimli bir deneyim vaat etmektedir. Sonuç Agent S, AI ve Web3'ün birleşiminde cesur bir sıçramayı temsil ediyor ve teknoloji ile etkileşim biçimimizi yeniden tanımlama kapasitesine sahip. Henüz erken aşamalarında olmasına rağmen, uygulama olanakları geniş ve çekici. Kritik zorlukları ele alan kapsamlı çerçevesi ile Agent S, otonom etkileşimleri dijital deneyimin ön plana çıkmasına taşımayı hedefliyor. Kripto para ve merkeziyetsizlik alanlarına daha derinlemesine girdikçe, Agent S gibi projelerin teknoloji ve insan-bilgisayar işbirliğinin geleceğini şekillendirmede önemli bir rol oynayacağı kesin.

645 Toplam GörüntülenmeYayınlanma 2025.01.14Güncellenme 2025.01.14

AGENT S Nedir

S Nasıl Satın Alınır

HTX.com’a hoş geldiniz! Sonic (S) satın alma işlemlerini basit ve kullanışlı bir hâle getirdik. Adım adım açıkladığımız rehberimizi takip ederek kripto yolculuğunuza başlayın. 1. Adım: HTX Hesabınızı OluşturunHTX'te ücretsiz bir hesap açmak için e-posta adresinizi veya telefon numaranızı kullanın. Sorunsuzca kaydolun ve tüm özelliklerin kilidini açın. Hesabımı Aç2. Adım: Kripto Satın Al Bölümüne Gidin ve Ödeme Yönteminizi SeçinKredi/Banka Kartı: Visa veya Mastercard'ınızı kullanarak anında Sonic (S) satın alın.Bakiye: Sorunsuz bir şekilde işlem yapmak için HTX hesap bakiyenizdeki fonları kullanın.Üçüncü Taraflar: Kullanımı kolaylaştırmak için Google Pay ve Apple Pay gibi popüler ödeme yöntemlerini ekledik.P2P: HTX'teki diğer kullanıcılarla doğrudan işlem yapın.Borsa Dışı (OTC): Yatırımcılar için kişiye özel hizmetler ve rekabetçi döviz kurları sunuyoruz.3. Adım: Sonic (S) Varlıklarınızı SaklayınSonic (S) satın aldıktan sonra HTX hesabınızda saklayın. Alternatif olarak, blok zinciri transferi yoluyla başka bir yere gönderebilir veya diğer kripto para birimlerini takas etmek için kullanabilirsiniz.4. Adım: Sonic (S) Varlıklarınızla İşlem YapınHTX'in spot piyasasında Sonic (S) ile kolayca işlemler yapın.Hesabınıza erişin, işlem çiftinizi seçin, işlemlerinizi gerçekleştirin ve gerçek zamanlı olarak izleyin. Hem yeni başlayanlar hem de deneyimli yatırımcılar için kullanıcı dostu bir deneyim sunuyoruz.

1.7k Toplam GörüntülenmeYayınlanma 2025.01.15Güncellenme 2026.06.02

S Nasıl Satın Alınır

Tartışmalar

HTX Topluluğuna hoş geldiniz. Burada, en son platform gelişmeleri hakkında bilgi sahibi olabilir ve profesyonel piyasa görüşlerine erişebilirsiniz. Kullanıcıların S (S) fiyatı hakkındaki görüşleri aşağıda sunulmaktadır.

活动图片