When AI's Bottleneck Is No Longer the Model: Perseus Yang's Open Source Ecosystem Building Practices and Reflections

marsbitОпубліковано о 2026-04-13Востаннє оновлено о 2026-04-13

Анотація

In 2026, the AI industry's primary bottleneck is no longer model capability but rather the encoding of domain knowledge, agent-world interfaces, and toolchain maturity. The open-source community is rapidly bridging this gap, evidenced by projects like OpenClaw and Claude Code experiencing explosive growth in their Skill ecosystems. Perseus Yang, a contributor to over a dozen AI open-source projects, argues that Skill systems are the most underestimated infrastructure of the AI agent era. They enable non-coders to program AI by writing natural language SKILL.md files, transferring power from engineers to all professionals. His project, GTM Engineer Skills, demonstrates this by automating go-to-market workflows, proving Skills can extend far beyond engineering into areas like product strategy and business analysis. He also identifies a critical blind spot: while browser automation thrives, agent operations are nearly absent from mobile apps, the world's dominant computing interface. His project, OpenPocket, is an open-source framework that allows agents to operate Android devices via ADB. It features human-in-the-loop security, agent isolation, and the ability for agents to autonomously create and save new reusable Skills. Yang believes the value of open source lies not in the code itself, but in defining the infrastructure standards during this formative period. His work validates the SKILL.md format as a portable unit for agent capability and pioneers new architectures for...

Author: Liu Jun

In 2026, a consensus is forming in the AI industry: model capability is no longer the bottleneck. The gap lies outside the model—in the encoding of domain knowledge, in the interface between agents and the real world, in the maturity of toolchains. This gap is being filled by the open-source community, and the speed exceeds everyone's expectations. OpenClaw gained 60,000 GitHub stars within 72 hours, surpassing 350,000 three months later. The Claude Code Skill ecosystem grew from 50 to over 334 Skills within half a year. Hermes Agent is even more radical, enabling agents to autonomously build reusable skills. Data from Vela Partners shows that in the past 90 days, the combined categories of personal AI assistants and Agentic Skill plugins added 244,000 new stars. This is a Skill explosion.

Perseus Yang's work sits at the heart of this explosion. With a background in Mathematics and Computer Science from Cornell, a member of the Forbes Business Council, and a THINC Fellowship recipient, he has participated in and maintained over a dozen AI-related open-source projects on GitHub in recent years, covering areas such as agent skill expansion, mobile device-level control, AI engine optimization toolchains, GEO data analysis agents, content automation workflows, and payment protocol infrastructure. His characteristic is possessing both a deep engineering background and strong product intuition. He doesn't just write code; he defines what a tool should look like based on user needs, then builds it end-to-end and drives its adoption.

Here are several core judgments he has formed during this process.

First Judgment: The Skill System is the Most Underestimated Infrastructure in the AI Agent Era

After Anthropic released Agent Skills as an open standard at the end of 2025, OpenAI's Codex CLI also adopted the same SKILL.md format. OpenClaw's ClawHub registry has accumulated over 13,000 community-contributed Skills, and the Claude Code ecosystem is quickly following suit. The significance of Skills goes far beyond "adding plugins to agents." It essentially enables people who don't know how to code to participate in AI programming. An operations personnel can write a SKILL.md in natural language, enabling an agent to learn a new workflow. This is a paradigm shift: the true power of AI depends not on the model's parameter count, but on what domain knowledge is injected into the model, and Skills extend the power to inject knowledge from engineers to everyone.

But Perseus observed a problem. The vast majority of Skills are concentrated in the engineering field—code review, front-end design, DevOps, testing. Expertise in non-engineering fields has hardly been systematically encoded into Skills. This means the coverage of the Skill ecosystem is far from reaching its potential boundary.

This observation drove a series of his open-source work in the GTM (Go-To-Market) toolchain direction. The most representative is GTM Engineer Skills, a set of Claude Code and Codex skill sets covering the complete workflow of AI engine discoverability, which has accumulated over 600 stars on GitHub. It encodes work that traditionally requires collaboration between SEO experts, content strategists, and front-end developers into an automated process executable by a single person: website AI discoverability audit, content structure optimization, keyword research, a machine-parsable layer for data visualization. The auditor doesn't output suggestions; instead, it automatically detects the front-end framework and generates code fixes that can be directly submitted as a Pull Request. Around the same direction, he also built a supporting GEO analysis tool that can simultaneously send queries to ChatGPT, Claude, Gemini, and Perplexity to analyze brand mention rates, sentiment, market share, and competitive positioning, outputting interactive HTML reports and structured data.

The actual results demonstrate the product value of this toolset. Companies like Articuler AI and Axis Robotics used GTM Engineer Skills to complete the full process from research to Resource Center setup in a few hours, whereas such work traditionally requires dozens of hours of cross-team collaboration. This efficiency gap is not achieved by model capability, but by Perseus's deep understanding and productized breakdown of the GTM workflow: he broke down a vague "improve AI discoverability" requirement into standardized stages executable step-by-step by an agent, each with clear inputs, outputs, and quality checks. This toolchain is currently adopted by over a dozen startups and several Fortune 500 companies. The open-source tool is the entry point, the commercial product is the scaled extension, and both share the same technical core.

The project itself is valuable, but Perseus believes the proposition is more important: the capability boundary of the Skill system extends far beyond the engineering field. Product strategy, go-to-market, business analysis—any expertise that can be structurally described can be encoded into agent capabilities.

Second Judgment: AI Agent's Operational Boundary Should Not Stop at Browsers and APIs

The agent discussion in 2026 is dominated by browser agents and API integrations. LangGraph, CrewAI, and Google ADK constitute a thriving multi-agent orchestration ecosystem. But Perseus noticed a structural blind spot: most global digital activity happens in native mobile apps—social, payment, gaming, communication—and these apps lack public APIs and browser equivalents. Existing frameworks cannot operate WeChat, Douyin, WhatsApp, or Alipay. Mobile is the world's dominant computing interface, but the infrastructure for native mobile agents is almost zero.

Perseus's thinking is: Why is everyone teaching AI to operate browsers, but no one is seriously teaching it to operate phones? The prosperity of browser agents is largely because the web is naturally automation-friendly, with DOM, APIs, and mature toolchains like Playwright. But the phone is a completely different world. Native apps are black boxes, without structured interface descriptions; operations can only be performed by simulating human touches and swipes. The difficulty of this problem lies not in getting the LLM to understand whether a button should be pressed, but in building the entire execution layer infrastructure from scratch: device connection management, screen state parsing, device mutex between multiple agents, security boundaries for sensitive operations.

This judgment drove the birth of OpenPocket. It is an open-source framework that uses ADB to allow LLM-driven agents to autonomously operate Android devices, currently with about a dozen contributors and over 500 commits. What users are really doing with it speaks volumes: automatically managing social media accounts, replying to messages in IMs for you, handling payments and bills on the phone, even automatically playing mobile games. A typical scenario is: the user tells the agent in natural language "Open Slack every morning at 8 am to check in," and the agent will persistently run this task in an isolated session, turning a previously manual, repetitive daily operation into background automation.

Perseus made several key product and architectural choices in this project. First, agents can automatically create new Skills during runtime. When encountering an unfamiliar operation flow, it can save the learned steps as a reusable SKILL.md for direct调用 next time. This means the agent is not a tool with fixed capabilities, but a system that grows stronger with use. Second, all sensitive operations must be approved by a human, rather than letting the agent judge what is safe. In his view, the most dangerous thing about autonomous agents is not that they do the wrong thing, but that they do the wrong thing "confidently" while thinking they are right. Third, each agent is completely isolated, bound to an independent device, configuration, and session state, allowing multiple agents to run simultaneously without interfering with each other. If only TypeScript engineers can extend the agent's capabilities, this ecosystem will never grow large, so OpenPocket, like Claude Code, uses SKILL.md as the standard format for capability extension.

The entire system supports 29+ LLM configurations. Agent phones are completely isolated from users' personal phones, and all data remains local. In 2026, with OWASP listing "Tool Misuse" among the Top 10 Risks for Agentic AI and the high-risk obligations of the EU AI Act about to take effect, this local-first, human-in-the-loop design is not conservative but a prerequisite for agents entering real-world scenarios.

Third Judgment: The Value of Open Source Lies Not in the Code Itself, But in the Definition of Standards at the Infrastructure Layer

Perseus's understanding of open source is not "putting code on GitHub." He repeatedly mentions a viewpoint: The open-source AI ecosystem in 2026 is in a window where standards have not yet solidified. The architectural patterns and interface specifications adopted by the community now will become the industry's default infrastructure in the coming years. In this window, defining a niche is more important than optimizing an existing solution.

Specifically, his Skill project pushed forward something technically meaningful: proving that the SKILL.md format is not just a container for engineering tools, but a sufficiently general standard for encoding domain knowledge. When the same SKILL.md can be loaded and executed by Claude Code, OpenAI Codex CLI, and OpenClaw, it de facto becomes the "portable capability unit" of the AI agent ecosystem. Perseus stuffed the complete workflow of go-to-market—a non-engineering field—into this format and successfully ran end-to-end automation from audit to code fix. This is a significant validation of the generality of the entire Skill standard.

His mobile agent project addresses an architectural gap at the agent execution layer. Existing agent frameworks rely on structured interfaces at the tool-calling level, either APIs or DOM. OpenPocket must operate in an environment without any structured interface, relying purely on screen pixel parsing and touch event injection. This forced the project to redesign the agent's perception-decision-execution loop from the ground up, including real-time parsing of device state, device mutex protocols for multiple agents, and automatic recovery mechanisms after operation failures. These are not simple adaptations of existing agent frameworks, but an architectural solution independently evolved for the problem of "autonomous operation in API-less environments."

The engineering design of the two projects is worth mentioning separately. OpenPocket adopts a three-layer separated architecture of Manager, Gateway, and Agent Runtime, where each layer can be iterated independently, and community contributors only need to focus on the layer they are familiar with. Each Skill within GTM Engineer Skills follows a staged pipeline design internally, where the output of the previous stage is the input of the next, with mandatory quality check gates in between. The workflow can be interrupted and resumed at any stage, and errors can be pinpointed to a specific stage. The purpose of these architectural choices is the same: to make the open-source project trustworthy for real users in production environments.

From a product perspective, these two projects also share a commonality: Perseus always places "who will use it" and "how to extend it" at the forefront of architectural decisions. The target users of GTM Engineer Skills are not engineers but growth teams, so each Skill has clear input-output contracts and built-in quality checks, allowing non-technical users to understand what the agent is doing. OpenPocket's SKILL.md extension mechanism, natural language scheduled tasks, and multi-channel access (Telegram, Discord, WhatsApp, CLI) are all designed to lower the barrier to entry for non-engineering users. In his view, if an open-source infrastructure project can only be used by engineers, its ceiling is the size of the engineering community. The truly leveraged design is to enable the boundary of agent capabilities to be expanded collectively by practitioners from all fields.

This pattern runs through his multiple projects. It's not about doing application-layer development on existing frameworks, but identifying missing components in the infrastructure layer of the agent ecosystem and then building them.

The Bigger Picture

The open-source AI ecosystem in 2026 is experiencing a moment similar to the early cloud-native ecosystem of the 2010s: standards and tools at the infrastructure layer are being defined, and these definitions will constrain the entire industry's development path for years to come. In this window, every Skill format adopted by the community, every agent architectural pattern validated, every ecosystem gap filled, is participating in shaping the next interface layer of AI.

What Perseus Yang is doing is simple: using engineering capability and product thinking to explore the paradigm at the technological frontier of the AI era. Models will continue to become more powerful, but who defines how agents should interact with the real world, who decides in what form domain knowledge should be encoded and distributed—the answers to these questions will not grow out of models. They can only be figured out bit by bit by people who build things.

Пов'язані питання

QAccording to the article, what is the current bottleneck in the AI industry as of 2026?

AThe bottleneck is no longer the model capabilities themselves, but rather the gap in encoding domain knowledge, creating interfaces for agents and the real world, and the maturity of toolchains.

QWhat is the significance of the SKILL.md format, as discussed in the article?

AThe SKILL.md format is an open standard that allows non-coders to participate in AI programming. It enables anyone to define a new workflow for an AI agent using natural language, making it a portable unit of capability that can be executed across different AI platforms like Claude Code and OpenAI Codex CLI.

QWhat problem did Perseus Yang identify with the current landscape of AI agents and mobile applications?

AHe identified a structural blind spot: while most digital activity happens within native mobile apps (like WeChat, TikTok, WhatsApp, Alipay), these apps lack public APIs and are not accessible to browser-based agents. This creates a significant gap, as there is almost no infrastructure for native mobile AI agents.

QWhat are the key architectural and safety features of the OpenPocket project?

AKey features include: agents that can autonomously create new Skills from learned operations; a requirement for human approval on sensitive operations; complete isolation of each agent with its own device and session state; and a design that keeps all operations local to the device for security and privacy.

QHow does Perseus Yang view the role of open source in the current AI ecosystem?

AHe believes the value of open source lies not just in sharing code, but in defining the architectural patterns and interface standards that will become the default infrastructure for the entire industry. He focuses on identifying and building missing components at the infrastructure layer to shape how agents interact with the real world.

Пов'язані матеріали

a16z: AI's 'Amnesia', Can Continuous Learning Cure It?

The article "a16z: AI's 'Amnesia' – Can Continual Learning Cure It?" explores the limitations of current large language models (LLMs), which, like the protagonist in the film *Memento*, are trapped in a perpetual present—unable to form new memories after training. While methods like in-context learning (ICL), retrieval-augmented generation (RAG), and external scaffolding (e.g., chat history, prompts) provide temporary solutions, they fail to enable true internalization of new knowledge. The authors argue that compression—the core of learning during training—is halted at deployment, preventing models from generalizing, discovering novel solutions (e.g., mathematical proofs), or handling adversarial scenarios. The piece introduces *continual learning* as a critical research direction to address this, categorizing approaches into three paths: 1. **Context**: Scaling external memory via longer context windows, multi-agent systems, and smarter retrieval. 2. **Modules**: Using pluggable adapters or external memory layers for specialization without full retraining. 3. **Weights**: Enabling parameter updates through sparse training, test-time training, meta-learning, distillation, and reinforcement learning from feedback. Challenges include catastrophic forgetting, safety risks, and auditability, but overcoming these could unlock models that learn iteratively from experience. The conclusion emphasizes that while context-based methods are effective, true breakthroughs require models to compress new information into weights post-deployment, moving from mere retrieval to genuine learning.

marsbit1 год тому

a16z: AI's 'Amnesia', Can Continuous Learning Cure It?

marsbit1 год тому

Can a Hair Dryer Earn $34,000? Deciphering the Reflexivity Paradox in Prediction Markets

An individual manipulated a weather sensor at Paris Charles de Gaulle Airport with a portable heat source, causing a Polymarket weather market to settle at 22°C and earning $34,000. This incident highlights a fundamental issue in prediction markets: when a market aims to reflect reality, it also incentivizes participants to influence that reality. Prediction markets operate on two layers: platform rules (what outcome counts as a win) and data sources (what actually happened). While most focus on rules, the real vulnerability lies in the data source. If reality is recorded through a specific source, influencing that source directly affects market settlement. The article categorizes markets by their vulnerability: 1. **Single-point physical data sources** (e.g., weather stations): Easily manipulated through physical interference. 2. **Insider information markets** (e.g., MrBeast video details): Insiders like team members use non-public information to trade. Kalshi fined a剪辑师 $20,000 for insider trading. 3. **Actor-manipulated markets** (e.g., Andrew Tate’s tweet counts): The subject of the market can control the outcome. Evidence suggests Tate’sociated accounts coordinated to profit. 4. **Individual-action markets** (e.g., WNBA disruptions): A single person can execute an event to profit from their pre-placed bets. Kalshi and Polymarket handle these issues differently. Kalshi enforces strict KYC, publicly penalizes insider trading, and reports to regulators. Polymarket, with its anonymous wallet-based system, has historically been more permissive, arguing that insider information improves market accuracy. However, it cooperated with authorities in the "Van Dyke case," where a user traded on classified government information. The core paradox is reflexivity: prediction markets are designed to discover truth, but their financial incentives can distort reality. The more valuable a prediction becomes, the more likely participants are to influence the event itself. The market ceases to be a mirror of reality and instead shapes it.

marsbit2 год тому

Can a Hair Dryer Earn $34,000? Deciphering the Reflexivity Paradox in Prediction Markets

marsbit2 год тому

Торгівля

Спот
Ф'ючерси

Популярні статті

Що таке $S$

Розуміння SPERO: Комплексний огляд Вступ до SPERO Оскільки ландшафт інновацій продовжує еволюціонувати, виникнення технологій web3 та криптовалютних проектів відіграє ключову роль у формуванні цифрового майбутнього. Один з проектів, який привернув увагу в цій динамічній сфері, — це SPERO, позначений як SPERO,$$s$. Ця стаття має на меті зібрати та представити детальну інформацію про SPERO, щоб допомогти ентузіастам та інвесторам зрозуміти його основи, цілі та інновації в рамках web3 та крипто-сектору. Що таке SPERO,$$s$? SPERO,$$s$ — це унікальний проект у криптопросторі, який прагне використати принципи децентралізації та технології блокчейн для створення екосистеми, що сприяє залученню, корисності та фінансовій інклюзії. Проект розроблений для полегшення взаємодії між користувачами новими способами, надаючи їм інноваційні фінансові рішення та послуги. У своїй основі SPERO,$$s$ прагне надати можливості індивідам, забезпечуючи інструменти та платформи, які покращують користувацький досвід у криптовалютному просторі. Це включає в себе можливість більш гнучких методів транзакцій, сприяння ініціативам, що підтримуються спільнотою, та створення шляхів для фінансових можливостей через децентралізовані додатки (dApps). Основна концепція SPERO,$$s$ обертається навколо інклюзивності, прагнучи зменшити розриви в традиційній фінансовій системі, використовуючи переваги технології блокчейн. Хто є творцем SPERO,$$s$? Особистість творця SPERO,$$s$ залишається дещо невідомою, оскільки є обмежені публічно доступні ресурси, що надають детальну інформацію про його засновників. Ця відсутність прозорості може бути наслідком зобов'язання проекту до децентралізації — етики, яку багато проектів web3 поділяють, ставлячи колективні внески вище за індивідуальне визнання. Зосереджуючи обговорення навколо спільноти та її колективних цілей, SPERO,$$s$ втілює суть наділення без виділення конкретних осіб. Таким чином, розуміння етики та місії SPERO є більш важливим, ніж ідентифікація єдиного творця. Хто є інвесторами SPERO,$$s$? SPERO,$$s$ підтримується різноманітними інвесторами, починаючи від венчурних капіталістів до ангельських інвесторів, які прагнуть сприяти інноваціям у крипто-секторі. Зосередження цих інвесторів зазвичай узгоджується з місією SPERO — пріоритет надається проектам, які обіцяють технологічний прогрес у суспільстві, фінансову інклюзію та децентралізоване управління. Ці інвесторські фонди зазвичай зацікавлені в проектах, які не лише пропонують інноваційні продукти, але й позитивно впливають на спільноту блокчейн та її екосистеми. Підтримка з боку цих інвесторів підкріплює SPERO,$$s$ як значного конкурента в швидко змінюваній сфері крипто-проектів. Як працює SPERO,$$s$? SPERO,$$s$ використовує багатогранну структуру, яка відрізняє його від традиційних криптовалютних проектів. Ось деякі ключові особливості, які підкреслюють його унікальність та інноваційність: Децентралізоване управління: SPERO,$$s$ інтегрує моделі децентралізованого управління, надаючи користувачам можливість активно брати участь у процесах прийняття рішень щодо майбутнього проекту. Цей підхід сприяє відчуттю власності та відповідальності серед членів спільноти. Корисність токена: SPERO,$$s$ використовує свій власний криптовалютний токен, розроблений для виконання різних функцій в екосистемі. Ці токени дозволяють здійснювати транзакції, отримувати винагороди та полегшувати послуги, що пропонуються на платформі, підвищуючи загальну залученість та корисність. Шарова архітектура: Технічна архітектура SPERO,$$s$ підтримує модульність та масштабованість, що дозволяє безперешкодно інтегрувати додаткові функції та додатки в міру розвитку проекту. Ця адаптивність є надзвичайно важливою для збереження актуальності в постійно змінюваному крипто-ландшафті. Залучення спільноти: Проект підкреслює ініціативи, що підтримуються спільнотою, використовуючи механізми, які стимулюють співпрацю та зворотний зв'язок. Підтримуючи сильну спільноту, SPERO,$$s$ може краще задовольняти потреби користувачів та адаптуватися до ринкових тенденцій. Фокус на інклюзію: Пропонуючи низькі комісії за транзакції та зручні інтерфейси, SPERO,$$s$ прагне залучити різноманітну базу користувачів, включаючи осіб, які раніше не брали участі в крипто-просторі. Це зобов'язання до інклюзії узгоджується з його загальною місією наділення через доступність. Хронологія SPERO,$$s$ Розуміння історії проекту надає важливі уявлення про його розвиток та етапи. Нижче наведено пропоновану хронологію, що відображає значні події в еволюції SPERO,$$s$: Етап концептуалізації та ідеації: Початкові ідеї, що стали основою SPERO,$$s$, були сформовані, тісно пов'язані з принципами децентралізації та фокусом на спільноті в індустрії блокчейн. Запуск білого паперу проекту: Після концептуального етапу був випущений комплексний білий папір, що детально описує бачення, цілі та технологічну інфраструктуру SPERO,$$s$, щоб залучити інтерес та зворотний зв'язок від спільноти. Створення спільноти та ранні залучення: Активні зусилля були спрямовані на створення спільноти ранніх прихильників та потенційних інвесторів, що полегшило обговорення цілей проекту та отримання підтримки. Подія генерації токенів: SPERO,$$s$ провів подію генерації токенів (TGE) для розподілу своїх рідних токенів серед ранніх прихильників та встановлення початкової ліквідності в екосистемі. Запуск початкового dApp: Перший децентралізований додаток (dApp), пов'язаний з SPERO,$$s$, став доступним, дозволяючи користувачам взаємодіяти з основними функціями платформи. Постійний розвиток та партнерства: Безперервні оновлення та вдосконалення пропозицій проекту, включаючи стратегічні партнерства з іншими учасниками блокчейн-простору, сформували SPERO,$$s$ у конкурентоспроможного та еволюціонуючого гравця на крипто-ринку. Висновок SPERO,$$s$ є свідченням потенціалу web3 та криптовалют для революціонізації фінансових систем та наділення індивідів. Завдяки зобов'язанню до децентралізованого управління, залучення спільноти та інноваційно спроектованих функцій, він прокладає шлях до більш інклюзивного фінансового ландшафту. Як і з будь-якими інвестиціями в швидко змінюваному крипто-просторі, потенційним інвесторам та користувачам рекомендується ретельно досліджувати та обдумано взаємодіяти з поточними подіями в SPERO,$$s$. Проект демонструє інноваційний дух крипто-індустрії, запрошуючи до подальшого дослідження його численних можливостей. Хоча подорож SPERO,$$s$ ще триває, його основні принципи можуть справді вплинути на майбутнє того, як ми взаємодіємо з технологією, фінансами та один з одним у взаємопов'язаних цифрових екосистемах.

73 переглядів усьогоОпубліковано 2024.12.17Оновлено 2024.12.17

Що таке $S$

Що таке AGENT S

Агент S: Майбутнє автономної взаємодії в Web3 Вступ У постійно змінюваному ландшафті Web3 та криптовалюти інновації постійно переосмислюють, як люди взаємодіють з цифровими платформами. Один з таких новаторських проектів, Агент S, обіцяє революціонізувати взаємодію людини з комп'ютером через свою відкриту агентну структуру. Прокладаючи шлях для автономних взаємодій, Агент S прагне спростити складні завдання, пропонуючи трансформаційні застосування в штучному інтелекті (ШІ). Це детальне дослідження заглиблюється в складності проекту, його унікальні особливості та наслідки для сфери криптовалюти. Що таке Агент S? Агент S є революційною відкритою агентною структурою, спеціально розробленою для вирішення трьох основних викликів в автоматизації комп'ютерних завдань: Набуття специфічних знань у галузі: Структура інтелектуально навчається з різних зовнішніх джерел знань та внутрішнього досвіду. Цей подвійний підхід дозволяє їй створити багатий репозиторій специфічних знань у галузі, покращуючи її продуктивність у виконанні завдань. Планування на довгих горизонтах завдань: Агент S використовує планування з підкріпленням досвіду, стратегічний підхід, який полегшує ефективний розподіл та виконання складних завдань. Ця функція значно підвищує її здатність ефективно та результативно управляти кількома підзавданнями. Обробка динамічних, неоднорідних інтерфейсів: Проект представляє Інтерфейс Агент-Комп'ютер (ACI), інноваційне рішення, яке покращує взаємодію між агентами та користувачами. Використовуючи багатомодальні великі мовні моделі (MLLMs), Агент S може безперешкодно орієнтуватися та маніпулювати різноманітними графічними інтерфейсами користувача. Завдяки цим новаторським функціям Агент S надає надійну структуру, яка вирішує складнощі, пов'язані з автоматизацією людської взаємодії з машинами, прокладаючи шлях для численних застосувань у ШІ та за його межами. Хто є творцем Агент S? Хоча концепція Агент S є фундаментально новаторською, конкретна інформація про його творця залишається невідомою. Творець наразі невідомий, що підкреслює або початкову стадію проекту, або стратегічний вибір зберегти засновників у таємниці. Незважаючи на анонімність, акцент залишається на можливостях та потенціалі структури. Хто є інвесторами Агент S? Оскільки Агент S є відносно новим у криптографічній екосистемі, детальна інформація про його інвесторів та фінансових спонсорів не задокументована. Відсутність публічно доступних відомостей про інвестиційні фонди або організації, що підтримують проект, викликає питання щодо його фінансової структури та дорожньої карти розвитку. Розуміння підтримки є критично важливим для оцінки стійкості проекту та потенційного впливу на ринок. Як працює Агент S? В основі Агент S лежить передова технологія, яка дозволяє йому ефективно функціонувати в різних умовах. Його операційна модель побудована навколо кількох ключових функцій: Взаємодія з комп'ютером, подібна до людської: Структура пропонує розширене планування ШІ, прагнучи зробити взаємодії з комп'ютерами більш інтуїтивними. Імітуючи людську поведінку при виконанні завдань, вона обіцяє підвищити досвід користувачів. Наративна пам'ять: Використовується для використання високорівневого досвіду, Агент S використовує наративну пам'ять для відстеження історій завдань, тим самим покращуючи свої процеси прийняття рішень. Епізодична пам'ять: Ця функція надає користувачам покрокові інструкції, дозволяючи структурі пропонувати контекстуальну підтримку в міру виконання завдань. Підтримка OpenACI: Завдяки можливості працювати локально, Агент S дозволяє користувачам зберігати контроль над своїми взаємодіями та робочими процесами, узгоджуючи з децентралізованою етикою Web3. Легка інтеграція з зовнішніми API: Його універсальність і сумісність з різними платформами ШІ забезпечують те, що Агент S може безперешкодно вписатися в існуючі технологічні екосистеми, роблячи його привабливим вибором для розробників та організацій. Ці функціональні можливості колективно сприяють унікальному положенню Агент S у крипто-просторі, оскільки він автоматизує складні, багатоступеневі завдання з мінімальним втручанням людини. У міру розвитку проекту його потенційні застосування в Web3 можуть переосмислити, як відбуваються цифрові взаємодії. Хронологія Агент S Розробка та етапи Агент S можуть бути узагальнені в хронології, яка підкреслює його значні події: 27 вересня 2024 року: Концепція Агент S була представлена в комплексній науковій статті під назвою “Відкрита агентна структура, яка використовує комп'ютери як людина”, що демонструє основи проекту. 10 жовтня 2024 року: Наукова стаття була опублікована на arXiv, пропонуючи детальне дослідження структури та її оцінки продуктивності на основі бенчмарку OSWorld. 12 жовтня 2024 року: Було випущено відеопрезентацію, що надає візуальне уявлення про можливості та особливості Агент S, ще більше залучаючи потенційних користувачів та інвесторів. Ці маркери в хронології не лише ілюструють прогрес Агент S, але й вказують на його прихильність до прозорості та залучення громади. Ключові моменти про Агент S У міру розвитку структури Агент S кілька ключових характеристик виділяються, підкреслюючи її новаторський характер та потенціал: Інноваційна структура: Розроблена для забезпечення інтуїтивного використання комп'ютерів, подібного до людської взаємодії, Агент S пропонує новий підхід до автоматизації завдань. Автономна взаємодія: Здатність автономно взаємодіяти з комп'ютерами через GUI означає стрибок до більш інтелектуальних та ефективних обчислювальних рішень. Автоматизація складних завдань: Завдяки своїй надійній методології він може автоматизувати складні, багатоступеневі завдання, роблячи процеси швидшими та менш схильними до помилок. Безперервне вдосконалення: Механізми навчання дозволяють Агенту S покращуватися на основі минулого досвіду, постійно підвищуючи свою продуктивність та ефективність. Універсальність: Його адаптивність до різних операційних середовищ, таких як OSWorld та WindowsAgentArena, забезпечує його здатність служити широкому спектру застосувань. Оскільки Агент S займає своє місце в ландшафті Web3 та криптовалюти, його потенціал покращити можливості взаємодії та автоматизувати процеси означає значний прогрес у технологіях ШІ. Завдяки своїй інноваційній структурі Агент S є прикладом майбутнього цифрових взаємодій, обіцяючи більш безперешкодний та ефективний досвід для користувачів у різних галузях. Висновок Агент S представляє собою сміливий крок вперед у поєднанні ШІ та Web3, з можливістю переосмислити, як ми взаємодіємо з технологією. Хоча проект все ще на ранніх стадіях, можливості для його застосування є величезними та переконливими. Завдяки своїй комплексній структурі, що вирішує критичні виклики, Агент S прагне вивести автономні взаємодії на передній план цифрового досвіду. У міру того, як ми заглиблюємося в сфери криптовалюти та децентралізації, проекти, подібні до Агент S, безсумнівно, відіграватимуть ключову роль у формуванні майбутнього технологій та співпраці людини з комп'ютером.

539 переглядів усьогоОпубліковано 2025.01.14Оновлено 2025.01.14

Що таке AGENT S

Як купити S

Ласкаво просимо до HTX.com! Ми зробили покупку Sonic (S) простою та зручною. Дотримуйтесь нашої покрокової інструкції, щоб розпочати свою криптовалютну подорож.Крок 1: Створіть обліковий запис на HTXВикористовуйте свою електронну пошту або номер телефону, щоб зареєструвати обліковий запис на HTX безплатно. Пройдіть безпроблемну реєстрацію й отримайте доступ до всіх функцій.ЗареєструватисьКрок 2: Перейдіть до розділу Купити крипту і виберіть спосіб оплатиКредитна/дебетова картка: використовуйте вашу картку Visa або Mastercard, щоб миттєво купити Sonic (S).Баланс: використовуйте кошти з балансу вашого рахунку HTX для безперешкодної торгівлі.Треті особи: ми додали популярні способи оплати, такі як Google Pay та Apple Pay, щоб підвищити зручність.P2P: Торгуйте безпосередньо з іншими користувачами на HTX.Позабіржова торгівля (OTC): ми пропонуємо індивідуальні послуги та конкурентні обмінні курси для трейдерів.Крок 3: Зберігайте свої Sonic (S)Після придбання Sonic (S) збережіть його у своєму обліковому записі на HTX. Крім того, ви можете відправити його в інше місце за допомогою блокчейн-переказу або використовувати його для торгівлі іншими криптовалютами.Крок 4: Торгівля Sonic (S)Легко торгуйте Sonic (S) на спотовому ринку HTX. Просто увійдіть до свого облікового запису, виберіть торгову пару, укладайте угоди та спостерігайте за ними в режимі реального часу. Ми пропонуємо зручний досвід як для початківців, так і для досвідчених трейдерів.

1.3k переглядів усьогоОпубліковано 2025.01.15Оновлено 2025.03.21

Як купити S

Обговорення

Ласкаво просимо до спільноти HTX. Тут ви можете бути в курсі останніх подій розвитку платформи та отримати доступ до професійної ринкової інформації. Нижче представлені думки користувачів щодо ціни S (S).

活动图片