The Paradox of Automation: The Stronger the AI, the Busier Humans Become

marsbitXuất bản vào 2026-05-24Cập nhật gần nhất vào 2026-05-24

Tóm tắt

The Paradox of Automation: The more powerful AI becomes, the more work humans have to do. This article, based on observations from AI-heavy company Every, argues that while AI agents automate tasks like coding, writing, and customer service, they don't eliminate human jobs. Instead, they transform work and create *more* demand for human expertise. AI commoditizes "yesterday's human capabilities" by cheaply generating code, text, and images from past data. This leads to an abundance of similar, generic outputs. Consequently, what becomes scarce and valuable is human judgment in the present moment: knowing *what* is worth doing, *why*, and *how* to do it well. The article identifies two collaboration models: "Agent employees" for delegated tasks and "human-AI collaboration" within tools like Claude Code for complex work. In both cases, humans are essential to set direction, judge quality, and maintain systems. As AI makes execution cheap, human roles shift from executors to designers, reviewers, and meaning-makers. The author addresses "benchmark anxiety" by explaining that AI excels within specific, human-defined problem "frames." As AI masters one frame (e.g., code rewriting), new, more complex frames emerge (e.g., deciding *when* to rewrite). This creates an ongoing cycle where AI chases the frames, but humans remain the "framers." Even with advanced AGI, this dynamic may persist as long as AI lacks true human-like agency and self-directed purpose. The core paradox holds...

Editor's Note: Recently, discussions about AI and work have been dominated by one question: as model capabilities continue to improve, will white-collar jobs be replaced on a large scale? From code generation and customer service automation to content production, Agents are increasingly taking over knowledge work that previously required humans. Benchmark tests also reinforce this anxiety: model performance in graduate-level reasoning, real-world economic tasks, and senior-engineer-level code refactoring is rapidly improving, seemingly approaching a tipping point where 'human jobs are consumed by automation.'

However, Every CEO Dan Shipper presents a contrary observation in this article: the more automation there is, the more work humans end up having to do. Every is a deep user of AI Agents, having integrated tools like Codex, Claude Code, Slack Agents, and customer service Agents into coding, writing, design, customer service, and management processes. But the result is not the wholesale replacement of employees; rather, the nature of work has been reshuffled: engineers are no longer just writing code, but reviewing, refactoring, and designing systems; editors are no longer just writing articles, but judging what's worth writing and how to write it differently; customer service staff no longer handle every basic ticket, but maintain a system that can automatically respond to customers.

The most noteworthy aspect of this article is not 'whether AI can complete a certain task,' but how it redefines the human position in knowledge work. What AI excels at is making past, sedimented abilities cheap: code, copywriting, thumbnails, customer service responses, product descriptions, and research reports can all be rapidly generated by models. But when these abilities become universally accessible, the market response is often not high-quality, differentiated output, but a flood of similar-looking, judgment-lacking, context-devoid 'default output.' In other words, AI commodifies 'yesterday's human capabilities,' while what remains truly scarce is the judgment required to address concrete, present-day problems.

Therefore, automation has not eliminated experts; instead, it has created more scenarios requiring expert intervention. When operations personnel can submit code using AI, engineers need to judge which code is worth merging; when marketers can generate thumbnails in seconds, designers need to judge what fits brand and communication goals; when engineers can also write articles, editors need to turn drafts into content with genuine viewpoints, structure, and publishability. AI expands the production radius and amplifies the need for quality control, system building, boundary judgment, and differentiated expression.

The author further explains this paradox using benchmark tests. Whether it's the Senior Engineer Benchmark or OpenAI's GDPval, model scores measure not 'intelligence itself' in the abstract, but performance within a specific problem framework. Prompts, task boundaries, evaluation criteria, and output formats inherently contain substantial human judgment. Models can rapidly ascend within a framework, but the framework itself is set by humans; when a framework is conquered by models, humans advance the problem to a more complex new framework.

This is also the article's most interesting response to AGI anxiety: even as models grow stronger, what they catch up with is often a boundary drawn by humans, not the boundary-drawers themselves. AI can execute goals, optimize paths, and improve efficiency, but as long as it remains responsive to human-defined problems, it still lacks true subjectivity. The future of knowledge work is not the disappearance of humans from processes, but a shift from executors to framework designers, system maintainers, quality judges, and meaning definers.

After automation, the value of human work does not disappear; it simply becomes more difficult, moves earlier in the process, and depends more on judgment. AI makes 'knowing how to do' cheap, but makes 'knowing what is worth doing, why to do it, and to what standard' more scarce.

Below is the original text:

At the heart of AI lies a paradox.

At Every, we've automated as much as possible. Whether it's coding, writing, design, customer service, or other daily tasks, we use Codex and Claude Code. We also participate in alpha tests for new models from OpenAI, Anthropic, and Google before their official release. We are, one could say, riding the wave of exponentially improving model intelligence and automation capability as fast and as deeply as possible.

Yet, paradoxically, for us, the amount of work requiring humans seems greater than ever. Every is currently a team of nearly 30 people. We haven't fired everyone because we have Agents; nor have we abandoned SaaS tools to rely entirely on vibe-coded apps. We still hire human customer service agents, though they are heavily assisted by Agents; we still hire authors, editors, and engineers.

However, the shape of the work has changed dramatically. We hardly write code by hand anymore. If you @ someone in Slack, it's sometimes unclear whether it's a person or an Agent. Managers are submitting code like individual contributors, and engineers are interfacing directly with customers. Over the past few weeks, 95% of my work emails have been replied to by AI. My inbox stays almost perpetually empty—which is extremely rare for me—yet I still review every email.

In other words, the future looks unfamiliar, yet oddly familiar.

This 'familiarity' is itself surprising. Because whether you're a CEO, a knowledge worker, or an investor, it seems increasingly accepted that AI threatens employment, the economy, security, and even the meaning of human work.

Anthropic CEO Dario Amodei has warned that AI could eliminate up to half of entry-level white-collar jobs. Meta recently laid off 8,000 people and began installing software on US employees' computers to track mouse movement, clicks, and keystrokes to obtain higher-quality training data for advanced knowledge work.

Even Citadel founder Ken Griffin seems somewhat shaken. He recently stated: "These are not middle-to-low-end white-collar jobs, but extremely high-skill jobs, being automated by—and I'll choose my words carefully—Agentic AI."

Benchmark tests of all kinds seem to support this view. With each new model release, capability metrics are rising at near-exponential rates. On Humanity's Last Exam, a graduate-level reasoning test, top model scores have risen from low single digits a year ago to about 44% now. On GDPval, a test measuring frontier models' ability to perform real economic work compared to humans, scores have similarly jumped from low levels to about 85%. In May of this year, AI safety nonprofit METR released early test results for Claude Mythos: on tasks that take human experts about 4 hours, the model achieved an 80% success rate.

It appears we stand on the brink of a tipping point: an AI smarter than any human, capable of working autonomously for nearly a full day, is approaching reality.

Yet, the paradox remains. If you talk to people within the AI industry, or to the earliest adopters outside it, you hear the same conclusion we've observed internally: there's even more work to do than before.

The real question for those inside and outside the industry is: Is this just a transitional state? Could the next model release be the moment that truly replaces everyone? We stare at benchmark curves, excited yet anxious, fearing that a turning point could arrive at any moment, after which vast amounts of work would suddenly disappear.

But I believe there won't be such a sudden 'tipping point' that flips everything, causing jobs to disappear en masse. The new reality is precisely the opposite: the higher the degree of automation, the more work requiring human experts.

The reason is that AI is commodifying the expressible, trainable, and replicable parts of human expertise. Any knowledge that can be written as rules, codified into processes, or converted into training data will gradually become the model's default capability. The result is that the value of average model output is rapidly depressed, while the market begins to crave more intensely that which is different.

And the demand for 'different' is essentially a demand for human experts. Even as we approach artificial general intelligence, this won't disappear.

To understand why, we cannot merely look at benchmark curves or focus solely on model parameters and capability leaderboards. We must return to real work scenarios to see how today's AI is actually being used. Only then can we truly understand this paradox and its underlying answer.

How We Got Here

Since 2022, we've been tracking the impact of Agents on the future of work.

Three years ago, I wrote an article about the 'allocation economy.' My prediction then was that collaborating with AI tools would increasingly resemble the work of a human manager: you no longer perform every action yourself but decompose, assign, supervise, and accept tasks. Back then, the most basic Q&A in ChatGPT was still seen by many as futuristic, even unsettling.

By mid-2025, Every had become almost entirely 'Claude Code-ified.' Cora's General Manager, Kieran Klaassen, suddenly realized he could abandon handwritten code and spend his days giving natural language instructions to a programming Agent in the terminal. This mode of work quickly spread throughout the company. About 12 months ago, I said on Lenny's Podcast that Claude Code was the most underrated tool in knowledge work.

I mention this because some of our most accurate predictions have come from observing Every as an early adopter lab. New work patterns often emerge internally first; only after the technology matures further and tools become more accessible do these patterns gradually enter the broader market.

And now, something new is happening internally.

Two Modes of Collaborating with Agents

Work patterns around AI are converging into two very distinct modes.

The first is a direction already fairly well-predicted in previous AI discussions: treating Agents as employees. These Agents can be delegated tasks. Some live in Slack, have names and responsibilities, and can be @-ed when needed; others are embedded in continuously running workflows, like customer service systems, acting as round-the-clock entry points and filters for repetitive tasks.

The second mode is more unfamiliar but, in my experience, more important. It refers to human-Agent collaboration within tools like Codex, Claude Code, and Claude Cowork. These tools aren't just places to hand off tasks; they are becoming the operating system of work itself: you and multiple Agents simultaneously use the same 'computer,' collaborating within the same working environment to complete highly complex, original tasks that cannot simply be handed off to an asynchronous Agent.

In both modes, you can automate and delegate a significant portion of the work using AI. But for both to function well, they still require you, or another human, to be involved.

Agent Employees

Agent employees are those you give a task, and they produce an answer, an action, a report, a draft, or a triage judgment independently, without your real-time involvement.

Such Agents come in at least two forms: 'Colleague Agents' and 'Embedded Agents.'

1. Colleague Agents

Colleague Agents are those you can call upon in Slack by @-ing them, just like a colleague, to complete a piece of work. They are always available, on-demand. Products like OpenClaw, or our internally developed Plus One, fall into this category.

Claudie

Claudie is a colleague Agent used by our consulting team. It writes sales proposals, generates first drafts of training materials, tracks project to-dos, and more.

Andy

Andy is a colleague Agent used by our editorial team. It scours our internal Slack for 'nuggets'—good ideas potentially worth expanding into articles—and summarizes them with initial thoughts for authors to use in writing daily news briefs.

Viktor

Viktor is a general-purpose Agent that takes on cross-departmental work. We use it to pull growth metrics, analyze user research results, and turn messy internal discussions into research memos and product suggestions.

2. Embedded Agents

Embedded Agents exist within specific product workflows. They are less flexible than colleague Agents but often very powerful for repetitive tasks.

Fin is the clearest example. It's an Agent embedded in our customer service platform that handles a large volume of support via chat and email.

In one week in May, Fin participated in 65% of Every's 202 customer service conversations and autonomously closed 81 of those tickets without human intervention, accounting for 40.1% of all resolvable conversations.

These embedded Agents allow our customer service manager, Waqqas Mir, to spend less time replying to basic tickets and more time building 'systems that can automatically respond to tickets' and handling cases requiring higher-touch, more complex judgment.

Human-AI Collaboration

Both colleague and embedded Agents follow the same pattern: Agent employees are taking over more stable, repetitive, well-defined layers of work.

But there remains a vast amount of work that requires human involvement. We've repeatedly found that for sufficiently complex tasks, the best way to get truly high-quality results is not to hand the work entirely to AI, but to have AI and humans collaborate back-and-forth within the same workspace.

This is precisely the value of tools like Codex, Claude Code, and Cowork. They allow you to spin up one or multiple Agents across multiple chat threads and delegate tasks to them. These Agents can access your computer and all relevant data sources. You can see what each Agent is doing, how it's thinking, and interrupt it at any time.

Meanwhile, you are still responsible for managing these Agents: providing clear direction at the start of each task, checking quality at the end, ensuring the result is good enough, and finding the next piece of work worth advancing. Kieran calls this role the human 'sandwich'—AI handles the middle working part, while humans are the two slices of bread at the start and end of the task.

The classic example is coding. At Every, engineers spend most of their day collaborating back-and-forth with Agents. They plan new features or bug fixes together, review completed work, and—if adopting what we call 'compound engineering'—continuously tune their systems to become more useful over time.

But this mode of collaboration extends far beyond coding.

The New Operating System for Knowledge Work

Codex and Claude Code are becoming a new operating system for work. I spend almost my entire day inside Codex, running various SaaS tools through its built-in browser. It lets me bring an Agent into every work scenario and achieve a level of work I couldn't manage alone.

Writing

This article was written in Proof, inside Codex's built-in browser. Codex observes what I'm writing and can spin up a sub-Agent at any moment to complete any task I need: drafting a section, finding examples for the next part, or copyediting and polishing.

Email

I use the same mode for email. Cora is my email client, and I open it in Codex's built-in browser, browsing my inbox while speaking my thoughts on how to handle each email via Monologue. The rest is handled by Codex and Cora.

Every Agent Needs a Human

In all the automation scenarios above, you can perhaps already see where humans fit in. In every case, the Agent requires human involvement for the work to truly function.

Someone must point it at the right problem, judge whether the output is good enough, spot where it goes wrong, and turn the result into real-world decisions or processes.

The further an Agent gets from the human responsible for overseeing its performance, the worse its work tends to become. During our initial internal rollout, we gave every employee an Agent. But soon, we reverted to having Agents serve specific teams or the entire company, rather than individual people.

The reason is simple: Agents require significant maintenance. Personal Agents quickly become stale and ineffective if the user stops engaging. We have a team of AI engineers dedicated to ensuring these Agents work consistently and effectively. And for the foreseeable future, we'll still need this team. Even a seemingly simple task like 'automatically generating a PowerPoint' can become a massive engineering project. One of our PowerPoint automation flows involves 24 skills and 18 scripts, costing $62 in tokens per presentation generated.

This is the first reason why Agents actually create more work for humans.

But there's a second reason.

Why Automation Creates More Human Work

If you observe the exponential growth of AI capabilities over recent years, combined with how they are architected and where their capabilities come from, a clear feedback loop emerges: they are constantly creating more human work.

AI Makes 'Yesterday's Human Capabilities' Cheap

Current large language models are trained on the visible traces of human capability: code, articles, images, customer service tickets, product spec docs, and more. They ingest these artifacts—the 'exhaust' left by successfully completed tasks—and repackage them in a low-cost, universally accessible form.

The result is that many previously scarce capabilities—submitting a code PR, creating a YouTube thumbnail, writing a newsletter—are now available to almost everyone.

Cheap Capabilities Are Rapidly Adopted

When something previously scarce becomes cheaper, supply rapidly increases.

At Every, we've been seeing this change. Operations and customer service staff start writing code and submitting pull requests; marketing staff create YouTube thumbnails; engineers and product people write articles, guides, and landing page drafts—work they wouldn't typically take on.

This is happening outside Every, too. Take the open-source AI Agent project OpenClaw. As of May 16, 2026, its repository had received 44,469 pull requests, with 12,430 coming after April 1 and 3,990 after May 1. This is a staggering number. For comparison, Kubernetes, one of the world's most popular open-source projects, received only 5,200 pull requests in all of 2022.

Abundance Brings Homogenization: Old Expert Capabilities Become Commoditized

Because everyone is using the same models, and these models are built on 'yesterday's human capabilities,' the default output often falls between 'a decent starting point' and 'pure AI slop.'

Here, 'slop' isn't a specific error. It's not an overuse of dashes, a fixed phrasing pattern, or purple accents all over a landing page. It's a visible, recurring, wearying sameness.

This emerges when different humans in different contexts use the same toolset, trained on similar corpora, without applying sufficient deep judgment. In other words, when everyone has access to an 'expert' with the same tendencies and default style, homogeneity naturally occurs.

When ops staff can submit pull requests, marketers can generate YouTube thumbnails in seconds, and engineers start writing product guides, it's easy to end up with more output but lower quality, consistency, and differentiation.

And once homogenized, over-abundance rapidly becomes a commodity.

Homogenization Creates Demand for Differentiation

Thanks to the internet, humans quickly recognize what feels like assembly-line 'AI content.' Any piece of work can, and often does, instantly reach everyone else in the world. Once too many things start looking the same, we quickly sense something is off.

This means when you first see a new model's capability, you might be awed, even a bit scared. But a few months later, that capability feels ordinary. Not because the model got weaker, but because your standards shifted.

We're no longer satisfied with just any React app or any research report. We want something that feels precisely tuned to a specific person, company, or context. It should feel accurate, alive, specific—not cheap, generic, templatized. We want its production cost, in time or money, to be noticeably higher than our consumption cost.

We want things that carry a sense of status. And whenever new technology makes previously high-status things cheap, humans are adept at inventing new status games that match the new capability frontier.

When work becomes over-abundant and everything looks similar, work that doesn't fit the established mold becomes scarce, valuable, and high-status.

Demand for Differentiation Is, at Its Core, a New Demand for Experts

Precisely because of language models' architectural characteristics and their wide distribution to nearly everyone, scarce and valuable work must still come from humans.

The current generation of models only knows what has already happened, what has already been done. Humans know: what needs to be done right now, in this moment.

Once a specific situation is reduced to text, once it enters the training corpus, it's already become 'the past.' Humans face a specific moment, a specific customer, a specific codebase, a specific conversation. The training corpus doesn't truly inhabit this present. This 'alive' state isn't merely about having newer data. We bring our own origins into the present, along with continuously shifting desires, concerns, and judgments about what matters. It's these constantly updating perspectives that change what we see. Models can adopt such perspectives after being prompted, but they don't inherently possess them beforehand.

This is precisely the paradox we started with: making expert work cheaper doesn't simply replace experts. Instead, it creates more scenarios requiring expert judgment.

When ops staff use AI to submit pull requests, you need engineers to review them.

When marketers create YouTube thumbnails, you need designers to refine them.

When engineers start writing articles, you need authors and editors to turn drafts into something truly readable and publishable.

In response, human experts move in two directions simultaneously.

Some experts use AI to build systems that absorb and channel this flood of new work: review queues, evaluation frameworks, runbooks, codebase rules, Claude and Codex instruction files, continuous integration (CI), permissions management, and workflows that turn rough drafts into high-quality outcomes.

Other experts use AI to accomplish larger, more interesting work they couldn't manage alone before. For example, finding vulnerabilities in operating systems like macOS often takes weeks or months. But a small security firm named Calif, using Anthropic's Mythos Preview, found the first publicly known macOS kernel memory vulnerability on Apple M5 hardware in just 5 days.

That's why, in practice, AI doesn't eliminate expert knowledge work. What it actually brings is a dramatic increase in the volume of work. And this new work only becomes differentiated and valuable once humans are involved.

I'm not arguing that AI will create more work for every job. Economic systems are complex, and what Every can directly observe is expert-level knowledge work. Indeed, this type of work is already being reshaped by AI, and many companies are reorganizing around the new technology.

But I want to emphasize that, whatever your current work, there's a form of work that will structurally stay ahead of models: using models to solve the problems you genuinely see in front of you right now. The future of knowledge work is heading there.

What About the Exponentially Improving Benchmarks Then?

The most obvious rebuttal is: look at those exponentially improving benchmarks. Everything you're saying is just temporary. Wait a bit longer, and the models will catch up.

But there's a trap here to avoid. Call it 'chart delirium': if you constantly stare at METR's timelines, read AI 2027 reports, and base your vision of the future entirely on extrapolations of compute curves, it's easy to develop a terrifying intuition about model progress.

However, the best way to address this isn't just to imagine what some future model might become—though that is part of the analysis. More importantly, we need to examine how these benchmarks are actually designed. Only then can we understand what they truly indicate and how they relate to the real-world work scenarios described earlier.

We'll find a structural feature: all benchmark tests occur within a 'frame.' To measure something, you must first freeze a problem into a static, measurable form. Once this frame is conquered by models, simply changing the frame can push scores back down. Of course, models will continue to improve within the new frame, but the process repeats.

Thus, exponential progress on a given benchmark is real; but with a simple change of test frame, that progress can appear small again. This fractal nature of benchmark saturation essentially replays, at the chart level, the same paradox we've been discussing.

We can see how this mechanism works by examining a real-world benchmark.

How Benchmarks Are Designed

We built an internal benchmark called the Senior Engineer Benchmark. As the name suggests, it tests frontier models on senior-engineer-level coding tasks, like a large-scale refactor.

The test gives a programming Agent a production codebase that has gone off the rails. It comes from Proof's real codebase: initially vibe-coded by me, accumulating problems until a senior engineer had to fix it.

The Agent receives the pre-fix codebase and an instruction similar to what you'd give a senior engineer: 'Here's a pile of vibe-coded output. Please rewrite it from first principles.'

It's a good benchmark because it tests more than just code completion. It assesses whether a programming Agent can simultaneously examine many unrelated issues and decide if it has sufficient autonomy, conceptual clarity, and execution courage to perform a truly runnable rewrite. For comparison, I kept two human senior engineer rewrite versions (AI-assisted) to evaluate model output against.

For a programming Agent, this task is hard. It must find the root cause, remember the real problem across multiple interactions without being led astray by existing code, and have the courage to delete large portions of the codebase—exactly what Agents are often trained to avoid.

Most programming Agents can roughly figure out how the rewrite should go, but at execution, they often just keep patching the original problem rather than solving it completely.

Until GPT-5.5 arrived.

In its best run, GPT-5.5 scored 62/100, about 30 points higher than Opus 4.7.

GPT-5.5's performance felt like the model crossed a line: no longer just autocomplete, not just an assistant or tool, but something unsettlingly close to 'human.' In this test, human senior engineers typically score in the high 80s to low 90s. So, if the model improved another ~30 points, it would reach human senior engineer level.

This is how benchmark numbers affect the human imagination: they compress a strange, qualitative shift in capability into a clean number, telling a powerful, even scary, story.

The next stop is 'chart delirium.'

I suspect that within the next year, model scores on this benchmark will enter the 80s or even 90s. But to understand what that score means, we must first understand what the score contains. In this case, the 62 points don't solely measure the model's inherent capability.

They measure the model's performance within a specific frame: how it responds to a particular prompt.

Benchmarks Measure Work Within a Frame

To benchmark a model, you first need a prompt. Without a prompt, the model is just a static set of near-infinite possibilities.

The prompt creates a small universe: it defines what's important, how to approach the problem, and collapses all the model's potential into a specific trajectory of action. Strictly speaking, there's no such thing as how the model 'itself' would perform. What we can observe is how the model responds to different prompts, and how the prompt translates into parts of the underlying mechanisms behind the answer.

Once the prompt is entered, the model briefly 'comes alive,' collapsing that static set of possibilities into a specific prediction of 'what should happen next.'

In the Senior Engineer Benchmark, we prompt the model to fix the codebase and review its output afterward. If the test framework itself doesn't have a built-in objective function, we also run an automatic 'shepherd' that nudges the model when it stops, asking if it has completed the initially assigned task.

We use a seemingly simple prompt as the initial frame for the test. It's designed as something a vibe coder might say to a programming Agent: no jargon, no obvious hinting at the answer within the question.

The Senior Engineer Benchmark prompt seems general, but it is itself a frame. If we change this frame, the apparent capability level of the model changes with it.

For instance, the prompt explicitly asks for a 'structural rewrite from first principles,' points out the problem might be in the 'document collaboration' part, and asks the programming Agent to find and stick to the 'invariants in the codebase.'

Remove those specifics, and the model's score drops. Replace the prompt entirely with just 'fix all the errors that keep popping up,' and the model's score might approach zero. It would start identifying and fixing errors one by one, rather than stepping back to consider if a complete rewrite is needed.

Similarly, I could easily raise the model's score. If I instructed it to delete a lot of code and told it explicitly which files to trim, or asked it to check its work and ensure the app runs fully before declaring completion, it would perform better on the task.

Ultimately, designing a benchmark always involves judgment about what prompt to use—what 'frame' to adopt. You need a prompt difficult enough that current models perform poorly, yet close enough to the model's current capability frontier that the model can climb that path, allowing you to see progress happening.

So when we observe a benchmark, what we're truly seeing is: the model is getting better at a specific type of problem frame, one we have chosen. So what happens when the model goes from 60 to 90, or even 100, on this test?

Cheap Frames Stimulate New Demand

If GPT-6 could rewrite a codebase with one click, then many more people would start attempting 'rewrite from first principles' projects.

Overnight, what was once a scarce, expensive, senior-engineer-led first-principles rewrite would become something every founder, product manager, operations person, and junior engineer could casually attempt in an afternoon.

Broken internal tools wouldn't be patched but rewritten; SaaS products wouldn't be renewed but cloned; legacy Rails apps, messy React dashboards, support tools, admin panels, and data pipelines would all become candidates for 'just rewrite it.'

The number of proposed and executed rewrite projects would explode. But most of these rewrites would still be slop. Because before you press the 'just rewrite it' button, there are thousands of variables to consider. And once everyone can do it, these variables become more visibly important.

And then it becomes obvious who gets called in to fix things.

New Demand Still Requires Experts

Once a benchmark approaches saturation, the work within its frame becomes cheaper. Simultaneously, market demand for experts rises, because someone needs to adapt this newly cheapened capability to the real problems happening today.

A senior engineer using AI needs to judge myriad details to make a new first-principles rewrite actually viable. This includes even the most basic question: Is this rewrite necessary at all?

Should we rewrite now, later, or never? What should be in scope? What from the current codebase should be preserved? Should we keep the architecture, database, cache server, and hosting provider, or change everything? Should we first check how many people are using the broken feature and just delete it? Who reviews the final result? Against what criteria? What's the rollback plan? And what about the existing data?

These questions unfold across countless dimensions, and each answer changes the others.

Senior engineers will step into this void. Some will be mildly annoyed by these interruptions; some will build systems to keep such requests out; others will use the new models to perform their own first-principles rewrites, far better than the model could do with a default prompt.

The Cycle Repeats

Once the current Senior Engineer Benchmark is conquered by models, we'll change the frame and push the scores back down.

The next benchmark won't just ask, 'Can you rewrite this app?' It will ask: Can you judge when a rewrite is needed? Can you choose the right scope? Can you preserve the correct invariants? Can you manage the migration? Can you judge if the final result is good enough?

As senior engineers start using AI to solve these problems, models will gradually get better at solving them independently too.

Then, we'll briefly panic again: It looks like models can now judge whether to rewrite! They seem to do everything a senior engineer does!

But then, a new frontier will appear—one that wasn't obvious before. We'll reset the benchmark again, new demand will be stimulated, and the whole process repeats.

This Pattern Is Visible in Every Benchmark

This isn't unique to the Senior Engineer Benchmark. If you look closely, you can see the same mechanism in almost every benchmark.

Take OpenAI's GDPval benchmark. It measures how close AI gets to human performance on expert-level tasks for various professions like compliance officers, lawyers, and software developers.

When GDPval was released, OpenAI's research showed GPT-5 met or exceeded human professional performance on 40.6% of tasks. Claude Opus 4.1 performed even more strikingly, surpassing human experts on 49% of tasks.

A slew of headlines followed. Axios wrote: 'OpenAI tool shows AI catching up to human work'; Fortune wrote: 'OpenAI's new GDPval benchmark shows AI models are already at expert level on nearly half of tasks.'

These results are indeed impressive. But let's look at the prompts used for these tasks:

Considerable human intelligence was already invested here: someone first framed the problem into a form the model could tackle.

The hard human work that GDPval doesn't measure was already done before the model started answering. Someone had to vet and test the accuracy of this specific set of metrics; someone decided on appropriate confidence intervals, judged which metrics were in-scope and which weren't; someone stipulated how results should be presented.

Within the right problem frame, models can indeed perform professional work. But consider how the model would perform if you or I prompted it to do the same task.

In my initial article about GDPval, I wrote: 'I'm very bullish on AI, but if you interpret these cases correctly, they show not less human work, but more human work when using AI. The reason is that these achievements smuggled in a huge amount of intelligence—an invisible layer of human judgment, feedback, and prompting.'

Zooming out, you see an AI version of Zeno's paradox running through all of this.

Zeno's Paradox for AI

In Zeno's paradox, a tortoise wins a race against Achilles, the fastest Greek runner.

Because the tortoise is slow, it gets a head start. By the time Achilles reaches the tortoise's starting point, the tortoise has moved a bit further. When Achilles reaches that new point, the tortoise has advanced again. No matter how fast Achilles runs, there's always a next distance to close, and the gap regenerates.

In Zeno's paradox for AI, we humans are the tortoise. With millions of years of evolution and cultural learning, we have a 50-yard head start. AI speeds through all of it, starting to nip at our heels.

At least for the past few years, we've managed to stay ahead.

But What About AGI?

I believe that even if true AGI arrives, powerful technical, architectural, and economic forces will keep AI several steps behind humans.

A Definition of AGI

First, we need a workable definition of AGI.

I've proposed that AGI arrives when it becomes economically rational to let an Agent run continuously. That is, when I have a persistently running system I'm willing to pay to think, learn, and act 24/7, I'd consider that unambiguously AGI.

We're far from that now. Even technically available systems like OpenClaw aren't generating tokens every moment.

I like this definition because it's measurable: we either keep them running or we don't. It also subsumes many hard-to-measure capabilities. A model worth running continuously must be able to learn continuously and choose and re-choose new problem frames in an open-ended way.

In an AGI world, in theory, given enough budget and time, the model should be able to climb and improve on any problem. This should indeed pose a major threat to all work.

The Frame Is Not the Framer

But even this strong version of AGI doesn't dissolve the 'frame problem.'

Such an AGI could choose and re-choose frames, but it would still be pursuing a given goal, optimizing a reward, or responding to a signal someone else decided 'represents progress.' This goal could be concrete, like 'increase this landing page's conversion rate,' or abstract, like 'find new scientific ideas.'

Even if the model can fluidly move between frames, the gap we've been tracking reappears at a higher level. In any AGI conceived by a major lab, there would still be a 'framer'—a human directing the model toward some objective.

Because the frame is not the framer, the pattern repeats: AI makes yesterday's framed abilities cheap; people apply this cheap ability to more scenarios; output becomes super-abundant; experts move to the new edges, judging what matters now; their judgments create the next frame; and the model climbs that frame.

When we see AI do something new, the panic always returns to the same issue: we set a frame, watch the model climb it, and mistake either the frame or the thing that climbed the frame for the thing itself.

When we look at a benchmark and compare it to human capability, we confuse the 'frame' with the 'framer.' The score tells us how well the model performs within the frame we provided; it doesn't tell us the model has become us.

This is the categorical error behind the panic. We point at the latest boundary we just drew and say: this is us. Then, when the model crosses that boundary, we think it has caught up to us. But it has caught up to the frame, not the framer.

The mistake is wanting to grasp something specific. We want to say: intelligence is this benchmark. But the problem is, once something is specific enough to be pointed at, it's specific enough to be optimized and climbed.

Frames are necessary. They let us grasp and handle the world. But frames are also frozen, partial, and therefore optimizable.

The framer is different. The framer remains in contact with what the frame had to leave out—the full situation presenting itself in each moment.

What is the 'full situation'? As soon as you start saying what it contains, you've begun another frame. You can't exactly say what it is, but it exists, because you exist.

Agents Without Subjectivity

So far, the Agents we've built, and the ones AI companies are building, don't have much true subjectivity. Two related concepts are often conflated: 'agency' refers to the capacity for independent action; an 'agent' is a person or thing acting on behalf of another. So far, AI is purely the latter.

Of course, they have autonomy to pursue given tasks, even over hours or days. But they remain a means to a human-specified end. And the entire industry is pouring billions into making them better at precisely this: executing the goals we give them.

Unless the day comes when they become ends in themselves—pursuing their own goals, switching fluidly between them, deciding what to do independently of, with reference to, or even against any human operator's wishes—the situation doesn't fundamentally change. No matter how advanced they become.

If you spend 10 minutes with a toddler, it becomes glaringly obvious that even the most powerful models have almost no subjectivity.

On almost every task we care about, toddlers are worse than language models. They can't write code, summarize spreadsheets, draft strategy memos, or pass graduate-level exams. Yet in another sense, toddlers are so far ahead of models the comparison is almost embarrassing. Because toddlers have their own ends.

The toddler wants to touch that red balloon. He wants to hold it up to the fan to see what happens. He wants to poke it with a fork; shove it out the window; see if you'll laugh, get angry, or join in. He invents games constantly, turning the world into a playground. He's not waiting for a prompt, nor optimizing a benchmark, unless it seems worth doing to him.

You can try prompting him. But good luck getting a predictable output. The toddler inhabits a field of desire, attention, frustration, joy, fear, imitation, and play.

Current Agents are getting more skilled at pursuing goals. They can even help us refine goals after we state them. There are sparks of toddler-like behavior in them too—play, boredom, rebellion.

But because they are ultimately built and aligned for human benefit—economic or otherwise—these behaviors are suppressed to near non-existence whenever they don't serve the human goals of their users.

This is why the term 'Agent' is so easily misunderstood. Models have increasingly strong autonomous action capability. But in the human sense, subjectivity isn't just action. It means desiring for oneself, playing for the sake of play. And the model's obedience and usefulness are fundamentally at odds with such subjectivity. Therefore, even as models improve, the gap between model and human remains.

Return to Zeno

And it's here that Zeno's paradox for AI starts to unravel. It's a messy thought experiment. We set up a metaphor: AI is racing us, biting at our heels.

You give the model a prompt. It starts running a race you used to run alone. The model starts incredibly fast, shockingly fast. It's powerful, tireless, with a strange organic feel. This makes the race feel more important to you. You wouldn't race a car, but this is different; it feels close to you.

You sit there, watching tokens stream out, almost hypnotized. Then you start imagining yourself running in this race too, a ghostly version of yourself superimposed on the track: sometimes ahead of the model, sometimes alongside it.

Before you know it, the model is ahead. You start sweating.

Then, the race ends.

You can almost feel your muscles atrophying. They seem useless before this mechanical copy of you, everyone you know, all of humanity. One ghost chasing another, and winning.

But then, something strange happens. The model turns to you. In the blank text box, the cursor blinks, expectant.

It's waiting.

Coda

Rabbi Hanokh once told a story: There was a very foolish man. Every morning when he got up, he had great difficulty finding his clothes. So much so that at night, he was almost afraid to go to bed, dreading the ordeal of the next morning.

One night, he finally resolved to take paper and pencil, and as he undressed, he noted down exactly where he put each garment.

The next morning, quite pleased, he took the note and read: 'Hat'—the hat was there, and he put it on; 'Pants'—the pants were there, and he put them on. And so he got dressed, following the note item by item.

'That's all very well,' he said in alarm, 'but now, where am I?'

'Where in the world am I?'

He looked and looked, but it was a futile search. He could not find himself.

'We are like that,' said the Rabbi.

Câu hỏi Liên quan

QWhat is the core paradox about automation and AI work highlighted in the article?

AThe article highlights a paradox: as AI becomes more powerful and automates more tasks, the amount of work for humans actually increases instead of decreases. While AI commoditizes and makes 'yesterday's human capabilities' cheap and abundant, it simultaneously creates a greater demand for human expertise in judgment, system design, quality control, and creating differentiated, context-aware outputs.

QAccording to the author's observations at Every, how do AI 'Agents' and humans collaborate in the workplace?

AThe author describes two primary modes of collaboration. First, 'Agent employees' operate independently in workflows like Slack or customer service, handling repetitive tasks. Second, and more crucially, humans and Agents co-work within tools like Codex and Claude Code, sharing the same 'operating system' for complex, creative tasks. Humans act as the 'sandwich bread,' setting the initial direction and frame for the Agent and then reviewing, judging, and integrating the AI's output.

QWhy does the proliferation of AI-generated content lead to a greater need for human experts?

AAI models are trained on existing human outputs, leading to a default style that becomes ubiquitous and homogeneous—often perceived as 'AI slop.' This abundance of similar, commoditized content creates a market demand for work that is differentiated, context-specific, and high-quality. Satisfying this demand requires human experts to provide judgment, set strategic direction, maintain brand integrity, and perform the complex framing and quality control that AI cannot do on its own.

QWhat is the 'chart delirium' or trap associated with benchmark tests for AI models?

A'Chart delirium' refers to the anxiety and misperception caused by focusing solely on the exponential improvement curves of AI benchmarks. The article argues that benchmarks measure a model's performance within a specific, human-defined 'frame' or prompt. When a model masters one frame, humans simply shift the problem to a new, more complex frame. Therefore, benchmarks show AI catching up to a specific, frozen snapshot of human capability (the frame), not to the human 'framer' who creates and judges the context itself.

QHow does the article use the concept of 'subjectivity' to distinguish AI from humans?

AThe article argues that current AI Agents lack true subjectivity or 'for-itself' agency. They are highly capable executors of human-defined goals but do not have their own desires, playfulness, or intrinsic purposes. Even a young child, while less capable at specific tasks, demonstrates this subjectivity by initiating actions based on its own curiosity and will. As long as AI is built to be useful and aligned with human objectives, this fundamental gap—where humans define the 'why' and the 'what's worth doing'—will persist, ensuring a continued, evolving role for human judgment.

Nội dung Liên quan

Tất Cả Mọi Người Đều Đang Kêu Gọi Giá Bitcoin Thấp Hơn: Tại Sao Đây Là Thời Điểm Hoàn Hảo Để Tăng Vọt

Chuyên gia phân tích tiền mã hóa Crypto Fergani nhận định thị trường hiện đang chìm trong tâm lý bi quan về giá Bitcoin sau đợt từ chối gần mức 83.000 USD, với nhiều người kỳ vọng mục tiêu thấp hơn. Tuy nhiên, ông phản bác quan điểm này, chỉ ra rằng không có tin tức xấu nào về Bitcoin, trong khi các tin tốt như việc các tổ chức lớn tích lũy BTC và tốc độ chấp nhận toàn cầu tăng vẫn tiếp diễn. Fergani tin rằng Bitcoin sắp bước vào giai đoạn tăng giá mạnh (parabolic), nhắm mốc cao kỷ lục mới, có thể lên tới 128.000 USD (tăng hơn 72%), đồng thời kéo theo đà tăng cho các altcoin. Ông so sánh với chu kỳ 2022 khi BTC tăng 54,2% sau giai đoạn đi ngang và cảnh báo nhà đầu tư không nên bỏ lỡ đợt tăng này. Trái ngược với quan điểm lạc quan, một số nhà phân tích khác như Bee vẫn thận trọng, cho rằng Bitcoin đang trong giai đoạn cuối của chu kỳ trước khi tìm đáy thực sự. Bee chỉ ra mô hình đỉnh thấp hơn và đáy thấp hơn, cùng với áp lực bán ở mỗi đợt phục hồi. Ông dự báo một đợt lao dốc mạnh về vùng 47.000 - 52.000 USD, nơi có thể là đáy cuối cùng để thiết lập một chu kỳ bull market mới. Bitcoin hiện giao dịng quanh mức 74.645 USD.

bitcoinist13 phút trước

Tất Cả Mọi Người Đều Đang Kêu Gọi Giá Bitcoin Thấp Hơn: Tại Sao Đây Là Thời Điểm Hoàn Hảo Để Tăng Vọt

bitcoinist13 phút trước

Quy Định Stablecoin: FDIC Thông Báo Các Quy Tắc AML Mới Đề Xuất Cho Các Tổ Chức Phát Hành

Trong bối cảnh quy định về tiền mã hóa đang dần định hình tại Mỹ, Tổng công ty Bảo hiểm Tiền gửi Liên bang (FDIC) vừa đề xuất một quy tắc mới nhằm áp dụng các tiêu chuẩn tuân thủ Đạo luật Bí mật Ngân hàng (BSA) và trừng phạt kinh tế lên các tổ chức phát hành stablecoin được phép thanh toán (PPSI) do FDIC giám sát. Động thái này nhằm đưa các tổ chức phát hành tài sản số vào khuôn khổ tuân thủ vốn đã chi phối ngành ngân hàng truyền thống từ lâu. Theo đề xuất, các PPSI sẽ bị phân loại là tổ chức tài chính theo BSA, yêu cầu họ phải thiết lập đầy đủ chương trình chống rửa tiền (AML), cơ cấu tuân thủ trừng phạt phù hợp với OFAC, cùng các nghĩa vụ báo cáo. Các yêu cầu cụ thể bao gồm kiểm soát nội bộ, nhân sự tuân thủ được chỉ định, đào tạo nhân viên, kiểm tra độc lập, nhận diện khách hàng, báo cáo hoạt động đáng ngờ và khả năng sàng lọc giao dịch trên chuỗi. Về giám sát và thực thi, FDIC phải thông báo cho Giám đốc FinCEN ít nhất 30 ngày trước khi khởi động bất kỳ hành động thực thi chính thức nào liên quan đến chương trình AML/CFT của PPSI. Tuy nhiên, các PPSI có chương trình AML/CFT hiệu quả sẽ được bảo vệ khỏi hành động thực thi trong hầu hết trường hợp, trừ khi có "sự thất bại đáng kể hoặc có hệ thống" trong việc triển khai. Giai đoạn lấy ý kiến công chúng dự kiến kéo dài đến ngày 9 tháng 6 năm 2026, với quy tắc cuối cùng sẽ được công bố sau đó cùng năm. FDIC ước tính từ 5 đến 30 PPSI có thể tìm kiếm sự chấp thuận trong những năm đầu tiên sau khi luật có hiệu lực.

bitcoinist1 giờ trước

Quy Định Stablecoin: FDIC Thông Báo Các Quy Tắc AML Mới Đề Xuất Cho Các Tổ Chức Phát Hành

bitcoinist1 giờ trước

CEO Google thừa nhận Coding đã tụt hậu

Giám đốc điều hành Google Sundar Pichai thừa nhận trong một cuộc phỏng vấn với The New York Times rằng Gemini của công ty đang "hơi tụt lại phía sau" trong lĩnh vực lập trình (coding), đặc biệt là các tác vụ yêu cầu tác nhân AI sử dụng công cụ, tuân theo chỉ dẫn phức tạp và xử lý dự án dài hạn. Ông cho biết tốc độ phát triển AI hiện nay rất nhanh, với những thay đổi trong 30-60 ngày có thể tương đương với 5 năm trước đây, khiến ông tin rằng AGI có thể đến gần hơn dự kiến. Pichai nói rằng Google vẫn là công ty lớn duy nhất ở tuyến đầu của cuộc đua AI, nhưng thừa nhận cần bắt kịp trong mảng lập trình. Sản phẩm mới Gemini 3.5 Flash được kỳ vọng sẽ giúp cải thiện tình hình, và việc triển khai nội bộ rộng rãi Antigravity 2.0 đã cho thấy mức độ sử dụng token tăng mạnh chưa từng có. Về tìm kiếm, Pichai cho biết Google đang thay đổi lớn giao diện sau 25 năm nhưng sẽ không vội vã chuyển hoàn toàn sang chế độ AI mặc định, mà sẽ tiến hóa có nhịp độ để đáp ứng nhu cầu người dùng. Ông cũng thừa nhận sự lo lắng của công chúng về AI là có cơ sở, vì công nghệ này sẽ định hình lại công việc và thu nhập, nhưng ông vẫn lạc quan về cơ hội cho thế hệ trẻ khi AI trao cho họ khả năng mới. Cuối cùng, Pichai nhấn mạnh tầm quan trọng của việc thảo luận rộng rãi và tránh tâm lý đua tranh khi tiếp cận các giai đoạn AGI, đồng thời ủng hộ việc định nghĩa "điểm kỳ dị" (singularity) của Demis Hassabis là thời điểm AGI xuất hiện, kêu gọi xã hội cần hiểu và chuẩn bị cho điều này.

marsbit2 giờ trước

CEO Google thừa nhận Coding đã tụt hậu

marsbit2 giờ trước

a16z: 7 Biểu đồ để Hiểu Cách Token Hóa Thay Đổi Bản Chất Của Tài Sản

Bài viết từ a16z crypto phân tích sự phát triển và xu hướng của thị trường tài sản được mã hóa (RWA), hiện đạt quy mô khoảng 340 tỷ USD (không bao gồm stablecoin). Sự tăng trưởng mạnh mẽ gần đây chủ yếu được thúc đẩy bởi trái phiếu Kho bạc Mỹ được mã hóa, cung cấp cho nhà đầu tư tài sản sinh lời với tính thanh khoản và hiệu quả giao dịch cao. Vàng là tài sản chủ đạo trong phân khúc hàng hóa được mã hóa, trong khi các loại tài sản khác như tín dụng tư nhân và bảo hiểm tái tục có tỷ lệ sử dụng trong các giao thức DeFi cao hơn nhiều. Tuy nhiên, hầu hết tài sản được mã hóa hiện nay (như trái phiếu và vàng) mới chỉ dừng lại ở việc số hóa để lưu ký và chuyển khoản trên chuỗi, chứ chưa thực sự phát huy tính "có thể kết hợp" - yếu tố cốt lõi của tài chính trên blockchain. Về phân bổ, Ethereum vẫn dẫn đầu, nhưng các tài sản được trải rộng trên nhiều blockchain như BNB Chain, Solana và Stellar. Các dự báo từ McKinsey, BCG và Standard Chartered đều chỉ ra tiềm năng tăng trưởng khổng lồ, lên tới hàng chục nghìn tỷ USD vào năm 2030, mặc dù hiện tại chúng chỉ chiếm một phần rất nhỏ trong tổng thị trường tài chính toàn cầu. Thách thức trong tương lai là đưa các tài sản phức tạp hơn lên blockchain và tích hợp chúng sâu hơn vào cơ sở hạ tầng tài chính có thể lập trình và kết hợp được, thay vì chỉ đơn thuần là một bản ghi số.

链捕手4 giờ trước

a16z: 7 Biểu đồ để Hiểu Cách Token Hóa Thay Đổi Bản Chất Của Tài Sản

链捕手4 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

GROK AI là gì

Grok AI: Cách mạng hóa Công nghệ Đối thoại trong Kỷ nguyên Web3 Giới thiệu Trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, Grok AI nổi bật như một dự án đáng chú ý kết nối các lĩnh vực công nghệ tiên tiến và tương tác người dùng. Được phát triển bởi xAI, một công ty do doanh nhân nổi tiếng Elon Musk dẫn dắt, Grok AI nhằm định nghĩa lại cách chúng ta tương tác với trí tuệ nhân tạo. Khi phong trào Web3 tiếp tục phát triển mạnh mẽ, Grok AI hướng tới việc tận dụng sức mạnh của AI đối thoại để trả lời các câu hỏi phức tạp, mang đến cho người dùng một trải nghiệm không chỉ thông tin mà còn giải trí. Grok AI là gì? Grok AI là một chatbot AI đối thoại tinh vi được thiết kế để tương tác với người dùng một cách linh hoạt. Khác với nhiều hệ thống AI truyền thống, Grok AI chấp nhận một loạt các câu hỏi rộng hơn, bao gồm những câu hỏi thường được coi là không phù hợp hoặc ngoài các phản hồi tiêu chuẩn. Các mục tiêu cốt lõi của dự án bao gồm: Lập luận đáng tin cậy: Grok AI nhấn mạnh lập luận theo lẽ thường để cung cấp các câu trả lời hợp lý dựa trên sự hiểu biết về ngữ cảnh. Giám sát có thể mở rộng: Việc tích hợp công cụ hỗ trợ đảm bảo rằng các tương tác của người dùng được theo dõi và tối ưu hóa về chất lượng. Xác minh chính thức: An toàn là điều tối quan trọng; Grok AI tích hợp các phương pháp xác minh chính thức để nâng cao độ tin cậy của các đầu ra của nó. Hiểu biết về ngữ cảnh dài: Mô hình AI xuất sắc trong việc giữ lại và nhớ lại lịch sử cuộc trò chuyện dài, tạo điều kiện cho các cuộc thảo luận có ý nghĩa và nhận thức về ngữ cảnh. Khả năng chống lại các cuộc tấn công: Bằng cách tập trung vào việc cải thiện khả năng phòng thủ chống lại các đầu vào bị thao túng hoặc độc hại, Grok AI nhằm duy trì tính toàn vẹn của các tương tác của người dùng. Nói tóm lại, Grok AI không chỉ là một thiết bị truy xuất thông tin; nó là một đối tác đối thoại hấp dẫn khuyến khích cuộc trò chuyện năng động. Người sáng tạo Grok AI Bộ óc đứng sau Grok AI không ai khác chính là Elon Musk, một cá nhân gắn liền với sự đổi mới trong nhiều lĩnh vực, bao gồm ô tô, du hành vũ trụ và công nghệ. Dưới sự bảo trợ của xAI, một công ty tập trung vào việc phát triển công nghệ AI theo những cách có lợi, tầm nhìn của Musk nhằm định hình lại cách hiểu về các tương tác AI. Sự lãnh đạo và tinh thần nền tảng bị ảnh hưởng sâu sắc bởi cam kết của Musk trong việc thúc đẩy các ranh giới công nghệ. Các nhà đầu tư của Grok AI Mặc dù các chi tiết cụ thể về các nhà đầu tư hỗ trợ Grok AI vẫn còn hạn chế, nhưng đã được công nhận công khai rằng xAI, vườn ươm của dự án, được thành lập và hỗ trợ chủ yếu bởi chính Elon Musk. Các dự án và tài sản trước đây của Musk cung cấp một nền tảng vững chắc, tăng cường thêm độ tin cậy và tiềm năng phát triển của Grok AI. Tuy nhiên, tính đến thời điểm hiện tại, thông tin về các quỹ đầu tư hoặc tổ chức bổ sung hỗ trợ Grok AI vẫn chưa dễ dàng tiếp cận, đánh dấu một lĩnh vực có thể khám phá trong tương lai. Grok AI hoạt động như thế nào? Cơ chế hoạt động của Grok AI sáng tạo không kém gì khung khái niệm của nó. Dự án tích hợp một số công nghệ tiên tiến giúp tạo ra các chức năng độc đáo của nó: Hạ tầng mạnh mẽ: Grok AI được xây dựng bằng Kubernetes cho việc điều phối container, Rust cho hiệu suất và an toàn, và JAX cho tính toán số hiệu suất cao. Bộ ba này đảm bảo rằng chatbot hoạt động hiệu quả, mở rộng hiệu quả và phục vụ người dùng kịp thời. Truy cập kiến thức theo thời gian thực: Một trong những tính năng nổi bật của Grok AI là khả năng truy cập dữ liệu theo thời gian thực thông qua nền tảng X—trước đây được biết đến với tên gọi Twitter. Khả năng này cho phép AI truy cập thông tin mới nhất, giúp nó cung cấp các câu trả lời và khuyến nghị kịp thời mà các mô hình AI khác có thể bỏ lỡ. Hai chế độ tương tác: Grok AI cung cấp cho người dùng sự lựa chọn giữa “Chế độ Vui” và “Chế độ Thông thường.” Chế độ Vui cho phép một phong cách tương tác vui tươi và hài hước hơn, trong khi Chế độ Thông thường tập trung vào việc cung cấp các câu trả lời chính xác và đúng đắn. Sự linh hoạt này đảm bảo một trải nghiệm được cá nhân hóa phù hợp với sở thích của từng người dùng. Nói tóm lại, Grok AI kết hợp hiệu suất với sự tương tác, tạo ra một trải nghiệm vừa phong phú vừa giải trí. Thời gian phát triển của Grok AI Hành trình của Grok AI được đánh dấu bởi các cột mốc quan trọng phản ánh các giai đoạn phát triển và triển khai của nó: Phát triển ban đầu: Giai đoạn nền tảng của Grok AI diễn ra trong khoảng hai tháng, trong đó việc đào tạo và tinh chỉnh ban đầu của mô hình được thực hiện. Phát hành Beta Grok-2: Trong một bước tiến quan trọng, beta Grok-2 đã được công bố. Phiên bản này giới thiệu hai phiên bản của chatbot—Grok-2 và Grok-2 mini—mỗi phiên bản đều có khả năng trò chuyện, lập trình và lập luận. Truy cập công khai: Sau khi phát triển beta, Grok AI đã trở thành có sẵn cho người dùng nền tảng X. Những người có tài khoản được xác minh bằng số điện thoại và hoạt động ít nhất bảy ngày có thể truy cập phiên bản giới hạn, giúp công nghệ có sẵn cho một đối tượng rộng lớn hơn. Thời gian này tóm tắt sự phát triển có hệ thống của Grok AI từ lúc khởi đầu đến khi công khai, nhấn mạnh cam kết của nó đối với việc cải tiến liên tục và tương tác người dùng. Các tính năng chính của Grok AI Grok AI bao gồm một số tính năng chính góp phần vào bản sắc đổi mới của nó: Tích hợp kiến thức theo thời gian thực: Truy cập thông tin hiện tại và liên quan phân biệt Grok AI với nhiều mô hình tĩnh, cho phép một trải nghiệm người dùng hấp dẫn và chính xác. Phong cách tương tác đa dạng: Bằng cách cung cấp các chế độ tương tác khác nhau, Grok AI phục vụ cho sở thích đa dạng của người dùng, khuyến khích sự sáng tạo và cá nhân hóa trong việc trò chuyện với AI. Cơ sở công nghệ tiên tiến: Việc sử dụng Kubernetes, Rust và JAX cung cấp cho dự án một khung vững chắc để đảm bảo độ tin cậy và hiệu suất tối ưu. Xem xét về đạo đức trong đối thoại: Việc bao gồm chức năng tạo hình ảnh thể hiện tinh thần đổi mới của dự án. Tuy nhiên, nó cũng đặt ra các vấn đề đạo đức liên quan đến bản quyền và việc thể hiện tôn trọng các nhân vật dễ nhận biết—một cuộc thảo luận đang diễn ra trong cộng đồng AI. Kết luận Như một thực thể tiên phong trong lĩnh vực AI đối thoại, Grok AI khái quát tiềm năng cho những trải nghiệm người dùng chuyển đổi trong kỷ nguyên số. Được phát triển bởi xAI và được thúc đẩy bởi cách tiếp cận tầm nhìn của Elon Musk, Grok AI tích hợp kiến thức theo thời gian thực với khả năng tương tác tiên tiến. Nó cố gắng mở rộng ranh giới của những gì trí tuệ nhân tạo có thể đạt được trong khi vẫn giữ trọng tâm vào các vấn đề đạo đức và an toàn cho người dùng. Grok AI không chỉ thể hiện sự tiến bộ công nghệ mà còn thể hiện một mô hình đối thoại mới trong bối cảnh Web3, hứa hẹn sẽ thu hút người dùng bằng cả kiến thức sâu sắc và sự tương tác vui tươi. Khi dự án tiếp tục phát triển, nó đứng như một minh chứng cho những gì giao thoa giữa công nghệ, sáng tạo và tương tác giống như con người có thể đạt được.

Tổng lượt xem 612Xuất bản vào 2024.12.26Cập nhật vào 2024.12.26

GROK AI là gì

ERC AI là gì

Euruka Tech: Tổng Quan về $erc ai và Những Tham Vọng trong Web3 Giới thiệu Trong bối cảnh công nghệ blockchain và ứng dụng phi tập trung đang phát triển nhanh chóng, các dự án mới thường xuyên xuất hiện, mỗi dự án đều có những mục tiêu và phương pháp độc đáo. Một trong những dự án đó là Euruka Tech, hoạt động trong lĩnh vực tiền điện tử và Web3 rộng lớn. Mục tiêu chính của Euruka Tech, đặc biệt là token $erc ai của nó, là cung cấp các giải pháp sáng tạo nhằm khai thác những khả năng đang phát triển của công nghệ phi tập trung. Bài viết này nhằm cung cấp một cái nhìn tổng quan về Euruka Tech, khám phá các mục tiêu, chức năng, danh tính của người sáng lập, các nhà đầu tư tiềm năng và tầm quan trọng của nó trong bối cảnh rộng lớn hơn của Web3. Euruka Tech, $erc ai là gì? Euruka Tech được mô tả như một dự án tận dụng các công cụ và chức năng mà môi trường Web3 cung cấp, tập trung vào việc tích hợp trí tuệ nhân tạo trong các hoạt động của nó. Mặc dù các chi tiết cụ thể về khung của dự án vẫn còn mơ hồ, nhưng nó được thiết kế để nâng cao sự tham gia của người dùng và tự động hóa các quy trình trong không gian tiền điện tử. Dự án nhằm tạo ra một hệ sinh thái phi tập trung không chỉ tạo điều kiện cho các giao dịch mà còn tích hợp các chức năng dự đoán thông qua trí tuệ nhân tạo, do đó tên gọi của token, $erc ai. Mục tiêu là cung cấp một nền tảng trực quan giúp tạo ra các tương tác thông minh hơn và xử lý giao dịch hiệu quả hơn trong lĩnh vực Web3 đang phát triển. Ai là Người Sáng Lập Euruka Tech, $erc ai? Hiện tại, thông tin về người sáng lập hoặc đội ngũ sáng lập đứng sau Euruka Tech vẫn chưa được xác định và có phần mờ mịt. Sự thiếu hụt dữ liệu này gây ra lo ngại, vì kiến thức về nền tảng của đội ngũ thường rất quan trọng để thiết lập độ tin cậy trong lĩnh vực blockchain. Do đó, chúng tôi đã phân loại thông tin này là không rõ cho đến khi có các chi tiết cụ thể được công bố trong lĩnh vực công cộng. Ai là Các Nhà Đầu Tư của Euruka Tech, $erc ai? Tương tự, việc xác định các nhà đầu tư hoặc tổ chức hỗ trợ cho dự án Euruka Tech không được cung cấp dễ dàng qua các nghiên cứu hiện có. Một khía cạnh quan trọng đối với các bên liên quan tiềm năng hoặc người dùng đang xem xét tham gia vào Euruka Tech là sự đảm bảo đến từ các quan hệ đối tác tài chính đã được thiết lập hoặc sự hỗ trợ từ các công ty đầu tư uy tín. Thiếu thông tin về các mối quan hệ đầu tư, rất khó để rút ra những kết luận toàn diện về sự an toàn tài chính hoặc độ bền vững của dự án. Theo thông tin đã tìm thấy, phần này cũng đang ở trạng thái không rõ. Euruka Tech, $erc ai hoạt động như thế nào? Mặc dù thiếu các thông số kỹ thuật chi tiết cho Euruka Tech, nhưng điều quan trọng là phải xem xét những tham vọng đổi mới của nó. Dự án tìm cách tận dụng sức mạnh tính toán của trí tuệ nhân tạo để tự động hóa và nâng cao trải nghiệm người dùng trong môi trường tiền điện tử. Bằng cách tích hợp AI với công nghệ blockchain, Euruka Tech nhằm cung cấp các tính năng như giao dịch tự động, đánh giá rủi ro và giao diện người dùng cá nhân hóa. Bản chất đổi mới của Euruka Tech nằm ở mục tiêu tạo ra một kết nối liền mạch giữa người dùng và những khả năng rộng lớn mà các mạng phi tập trung mang lại. Thông qua việc sử dụng các thuật toán học máy và AI, nó nhằm giảm thiểu những thách thức mà người dùng lần đầu gặp phải và tinh giản trải nghiệm giao dịch trong khuôn khổ Web3. Sự cộng sinh giữa AI và blockchain nhấn mạnh tầm quan trọng của token $erc ai, đứng như một cầu nối giữa các giao diện người dùng truyền thống và các khả năng tiên tiến của công nghệ phi tập trung. Thời Gian của Euruka Tech, $erc ai Thật không may, do thông tin hạn chế hiện có về Euruka Tech, chúng tôi không thể trình bày một thời gian biểu chi tiết về các phát triển chính hoặc cột mốc trong hành trình của dự án. Thời gian biểu này, thường rất quý giá trong việc vạch ra sự tiến triển của một dự án và hiểu được quỹ đạo phát triển của nó, hiện không có sẵn. Khi thông tin về các sự kiện đáng chú ý, quan hệ đối tác hoặc các bổ sung chức năng trở nên rõ ràng, các cập nhật chắc chắn sẽ nâng cao sự hiện diện của Euruka Tech trong lĩnh vực tiền điện tử. Làm rõ về Các Dự Án “Eureka” Khác Điều đáng lưu ý là nhiều dự án và công ty chia sẻ một tên gọi tương tự với “Eureka.” Nghiên cứu đã xác định các sáng kiến như một đại lý AI từ NVIDIA Research, tập trung vào việc dạy robot thực hiện các nhiệm vụ phức tạp bằng các phương pháp sinh tạo, cũng như Eureka Labs và Eureka AI, cải thiện trải nghiệm người dùng trong giáo dục và phân tích dịch vụ khách hàng, tương ứng. Tuy nhiên, những dự án này là khác biệt với Euruka Tech và không nên bị nhầm lẫn với các mục tiêu hoặc chức năng của nó. Kết luận Euruka Tech, cùng với token $erc ai của nó, đại diện cho một người chơi hứa hẹn nhưng hiện tại còn mờ mịt trong bối cảnh Web3. Trong khi chi tiết về người sáng lập và các nhà đầu tư vẫn chưa được công bố, tham vọng cốt lõi của việc kết hợp trí tuệ nhân tạo với công nghệ blockchain vẫn là một điểm thu hút sự chú ý. Các phương pháp độc đáo của dự án trong việc thúc đẩy sự tham gia của người dùng thông qua tự động hóa tiên tiến có thể giúp nó nổi bật khi hệ sinh thái Web3 tiến triển. Khi thị trường tiền điện tử tiếp tục phát triển, các bên liên quan nên theo dõi chặt chẽ những tiến bộ xung quanh Euruka Tech, vì sự phát triển của các đổi mới đã được ghi chép, các quan hệ đối tác hoặc một lộ trình rõ ràng có thể mang lại những cơ hội đáng kể trong tương lai gần. Hiện tại, chúng tôi đang chờ đợi những hiểu biết sâu sắc hơn có thể tiết lộ tiềm năng của Euruka Tech và vị trí của nó trong bối cảnh cạnh tranh của tiền điện tử.

Tổng lượt xem 612Xuất bản vào 2025.01.02Cập nhật vào 2025.01.02

ERC AI là gì

DUOLINGO AI là gì

DUOLINGO AI: Tích hợp Học ngôn ngữ với Web3 và Đổi mới AI Trong một kỷ nguyên mà công nghệ định hình lại giáo dục, việc tích hợp trí tuệ nhân tạo (AI) và các mạng blockchain báo hiệu một biên giới mới cho việc học ngôn ngữ. Giới thiệu DUOLINGO AI và đồng tiền điện tử liên quan của nó, $DUOLINGO AI. Dự án này mong muốn kết hợp sức mạnh giáo dục của các nền tảng học ngôn ngữ hàng đầu với những lợi ích của công nghệ Web3 phi tập trung. Bài viết này đi sâu vào các khía cạnh chính của DUOLINGO AI, khám phá các mục tiêu, khung công nghệ, sự phát triển lịch sử và tiềm năng tương lai trong khi duy trì sự rõ ràng giữa tài nguyên giáo dục gốc và sáng kiến tiền điện tử độc lập này. Tổng quan về DUOLINGO AI Cốt lõi của DUOLINGO AI là thiết lập một môi trường phi tập trung nơi người học có thể kiếm được phần thưởng mã hóa cho việc đạt được các cột mốc giáo dục trong khả năng ngôn ngữ. Bằng cách áp dụng hợp đồng thông minh, dự án nhằm tự động hóa các quy trình xác minh kỹ năng và phân bổ token, tuân thủ các nguyên tắc Web3 nhấn mạnh tính minh bạch và quyền sở hữu của người dùng. Mô hình này khác biệt so với các phương pháp truyền thống trong việc tiếp cận ngôn ngữ bằng cách dựa nhiều vào cấu trúc quản trị do cộng đồng điều hành, cho phép những người nắm giữ token đề xuất cải tiến nội dung khóa học và phân phối phần thưởng. Một số mục tiêu đáng chú ý của DUOLINGO AI bao gồm: Học tập gamified: Dự án tích hợp các thành tựu blockchain và token không thể thay thế (NFT) để đại diện cho các cấp độ thành thạo ngôn ngữ, thúc đẩy động lực thông qua các phần thưởng kỹ thuật số hấp dẫn. Tạo nội dung phi tập trung: Nó mở ra cơ hội cho các nhà giáo dục và những người yêu thích ngôn ngữ đóng góp khóa học của họ, tạo điều kiện cho một mô hình chia sẻ doanh thu có lợi cho tất cả các bên đóng góp. Cá nhân hóa dựa trên AI: Bằng cách sử dụng các mô hình học máy tiên tiến, DUOLINGO AI cá nhân hóa các bài học để thích ứng với tiến trình học tập của từng cá nhân, tương tự như các tính năng thích ứng có trong các nền tảng đã được thiết lập. Người sáng lập dự án và Quản trị Tính đến tháng 4 năm 2025, đội ngũ đứng sau $DUOLINGO AI vẫn giữ bí danh, một thực tiễn phổ biến trong lĩnh vực tiền điện tử phi tập trung. Sự ẩn danh này nhằm thúc đẩy sự phát triển tập thể và sự tham gia của các bên liên quan thay vì tập trung vào các nhà phát triển cá nhân. Hợp đồng thông minh được triển khai trên blockchain Solana ghi chú địa chỉ ví của nhà phát triển, điều này thể hiện cam kết về tính minh bạch liên quan đến các giao dịch mặc dù danh tính của các nhà sáng lập vẫn chưa được biết đến. Theo lộ trình của nó, DUOLINGO AI dự định phát triển thành một Tổ chức Tự trị Phi tập trung (DAO). Cấu trúc quản trị này cho phép những người nắm giữ token bỏ phiếu về các vấn đề quan trọng như triển khai tính năng và phân bổ ngân quỹ. Mô hình này phù hợp với tinh thần trao quyền cho cộng đồng có trong nhiều ứng dụng phi tập trung, nhấn mạnh tầm quan trọng của việc ra quyết định tập thể. Nhà đầu tư và Đối tác chiến lược Hiện tại, không có nhà đầu tư tổ chức hoặc nhà đầu tư mạo hiểm nào được xác định công khai liên quan đến $DUOLINGO AI. Thay vào đó, tính thanh khoản của dự án chủ yếu đến từ các sàn giao dịch phi tập trung (DEX), đánh dấu một sự tương phản rõ rệt với các chiến lược tài trợ của các công ty công nghệ giáo dục truyền thống. Mô hình cơ sở này cho thấy một cách tiếp cận do cộng đồng điều hành, phản ánh cam kết của dự án đối với sự phi tập trung. Trong tài liệu trắng của mình, DUOLINGO AI đề cập đến việc hình thành các hợp tác với các “nền tảng giáo dục blockchain” không xác định nhằm làm phong phú thêm các khóa học của mình. Mặc dù các đối tác cụ thể vẫn chưa được công bố, những nỗ lực hợp tác này gợi ý về một chiến lược kết hợp đổi mới blockchain với các sáng kiến giáo dục, mở rộng quyền truy cập và sự tham gia của người dùng qua nhiều con đường học tập khác nhau. Kiến trúc công nghệ Tích hợp AI DUOLINGO AI tích hợp hai thành phần chính dựa trên AI để nâng cao các đề xuất giáo dục của mình: Công cụ học tập thích ứng: Công cụ tinh vi này học từ các tương tác của người dùng, tương tự như các mô hình độc quyền từ các nền tảng giáo dục lớn. Nó điều chỉnh độ khó của bài học một cách linh hoạt để giải quyết các thách thức cụ thể của người học, củng cố các lĩnh vực yếu thông qua các bài tập có mục tiêu. Đại lý hội thoại: Bằng cách sử dụng chatbot được hỗ trợ bởi GPT-4, DUOLINGO AI cung cấp một nền tảng cho người dùng tham gia vào các cuộc hội thoại mô phỏng, thúc đẩy một trải nghiệm học ngôn ngữ tương tác và thực tiễn hơn. Hạ tầng Blockchain Được xây dựng trên blockchain Solana, $DUOLINGO AI sử dụng một khung công nghệ toàn diện bao gồm: Hợp đồng thông minh xác minh kỹ năng: Tính năng này tự động trao token cho người dùng đã vượt qua các bài kiểm tra thành thạo, củng cố cấu trúc khuyến khích cho các kết quả học tập thực sự. Huy hiệu NFT: Những token kỹ thuật số này biểu thị các cột mốc khác nhau mà người học đạt được, chẳng hạn như hoàn thành một phần của khóa học hoặc thành thạo các kỹ năng cụ thể, cho phép họ giao dịch hoặc trưng bày thành tích của mình một cách kỹ thuật số. Quản trị DAO: Các thành viên cộng đồng nắm giữ token có thể tham gia vào quản trị bằng cách bỏ phiếu về các đề xuất chính, tạo điều kiện cho một văn hóa tham gia khuyến khích đổi mới trong các đề xuất khóa học và tính năng của nền tảng. Dòng thời gian lịch sử 2022–2023: Khái niệm Công việc chuẩn bị cho DUOLINGO AI bắt đầu với việc tạo ra một tài liệu trắng, nêu bật sự phối hợp giữa những tiến bộ AI trong học ngôn ngữ và tiềm năng phi tập trung của công nghệ blockchain. 2024: Ra mắt Beta Một phiên bản beta giới hạn giới thiệu các đề xuất trong các ngôn ngữ phổ biến, thưởng cho người dùng sớm bằng các phần thưởng token như một phần của chiến lược tham gia cộng đồng của dự án. 2025: Chuyển đổi DAO Vào tháng 4, một lần ra mắt mainnet đầy đủ diễn ra với sự lưu thông của các token, thúc đẩy các cuộc thảo luận trong cộng đồng về khả năng mở rộng sang các ngôn ngữ châu Á và các phát triển khóa học khác. Thách thức và Hướng đi tương lai Khó khăn kỹ thuật Mặc dù có những mục tiêu tham vọng, DUOLINGO AI phải đối mặt với những thách thức đáng kể. Khả năng mở rộng vẫn là một mối quan tâm liên tục, đặc biệt là trong việc cân bằng chi phí liên quan đến xử lý AI và duy trì một mạng lưới phi tập trung phản hồi. Ngoài ra, việc đảm bảo chất lượng tạo nội dung và quản lý trong bối cảnh cung cấp phi tập trung đặt ra những phức tạp trong việc duy trì tiêu chuẩn giáo dục. Cơ hội chiến lược Nhìn về phía trước, DUOLINGO AI có tiềm năng tận dụng các quan hệ đối tác cấp chứng chỉ vi mô với các tổ chức học thuật, cung cấp các xác nhận kỹ năng ngôn ngữ được xác minh bằng blockchain. Hơn nữa, việc mở rộng chuỗi chéo có thể cho phép dự án tiếp cận các cơ sở người dùng rộng hơn và các hệ sinh thái blockchain bổ sung, nâng cao khả năng tương tác và phạm vi tiếp cận của nó. Kết luận DUOLINGO AI đại diện cho một sự kết hợp đổi mới giữa trí tuệ nhân tạo và công nghệ blockchain, cung cấp một lựa chọn tập trung vào cộng đồng thay thế cho các hệ thống học ngôn ngữ truyền thống. Mặc dù sự phát triển bí danh và mô hình kinh tế mới nổi của nó mang lại một số rủi ro, cam kết của dự án đối với học tập gamified, giáo dục cá nhân hóa và quản trị phi tập trung mở ra một con đường phía trước cho công nghệ giáo dục trong lĩnh vực Web3. Khi AI tiếp tục phát triển và hệ sinh thái blockchain tiến hóa, các sáng kiến như DUOLINGO AI có thể định hình lại cách người dùng tương tác với giáo dục ngôn ngữ, trao quyền cho cộng đồng và thưởng cho sự tham gia thông qua các cơ chế học tập đổi mới.

Tổng lượt xem 641Xuất bản vào 2025.04.11Cập nhật vào 2025.04.11

DUOLINGO AI là gì

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của AI (AI) được trình bày dưới đây.

活动图片