Агенты вступили в эпоху управления с помощью Harness

marsbitОпубликовано 2026-04-15Обновлено 2026-04-15

Введение

Антропология случайно раскрыла исходный код Claude Code, показав передовые инженерные практики в разработке агентов. Ключевой вывод: современные ИА-системы вступают в эру Harness Engineering — архитектурного подхода, где модель дополняется шестью компонентами: многоуровневые системные промты, инструменты, циклы вызова, менеджер контекста, под-агенты и механизмы проверки. Harness позволяет максимизировать потенциал модели, связывая обучение с выполнением задач. Это смещает фокус с чистого моделирования на комплексные инженерные решения, требующие междисциплинарных специалистов и обеспечивающие безопасное развертывание в корпоративной среде.

Автор | Лаборатория искусственного интеллекта Xiaguang

Недавно в кругах ИИ-технологий активно обсуждалась тема о том, что компания Anthropic случайно раскрыла полный исходный код своего инструмента для программирования с ИИ Claude Code, объемом более 512 тысяч строк. Хотя утечка кода не показала революционно новых алгоритмов, она полностью раскрыла инженерные практики работы с агентами ведущих производителей.

10 апреля основатель Pokee.ai Чжу Чжэцин принял участие в закрытом онлайн-мероприятии «Deep Talk with Builders», организованном фондом Jinqiu, и выступил с темой «Harness Engineering и современный Post-training на основе утечки Claude Code».

По его мнению, эта архитектура Anthropic идеально подходит для модели Claude, и ее прямое перенесение на другие модели значительно снизит эффективность, но ее дизайнерская идея Harness, компонентная структура и глубокая привязка к пост-обучению (Post-training) имеют огромную ценность для самостоятельной разработки агентов.

За последние три года большие модели эволюционировали от простого API-функционала до ключевых модулей продуктов; отрасль перешла от «компаний-оболочек моделей» к сложным агентским системам, управляемым Harness — модель больше не является единственным ядром, инструменты вызова, среда выполнения, управление контекстом и механизмы проверки совместно определяют конечный результат.

Что такое Harness? Прямой перевод — сбруя, уздечка. Если большая модель — это дикий скакун, готовый к прыжку, то Harness — это уздечка, с помощью которой человек управляет этим скакуном. С正式在ступлением искусственного интеллекта в эпоху управления с помощью Harness, для пользователей真正稀缺的能力 заключается не внутри модели, а вне ее — как найти удобную уздечку и четко определить цель в сознании управляющего.

Данная статья основана на выступлении Чжу Чжэцина, обобщена и систематизирована с помощью ИИ, отредактирована вручную и стремится передать основные моменты этого выступления.

Harness можно понимать как полную инженерную архитектуру для управления моделями, ее核心作用 заключается в максимальном раскрытии возможностей модели, а не просто в выводе токенов. Harness Claude Code четко разделен на шесть核心组件:

1. Многоуровневый System Prompt (системное приглашение)

Современный System Prompt уже далеко не просто «ты полезный помощник», а сверхбольшой, многоуровневый, кэшируемый сложный набор инструкций:

Фиксированная кэшируемая часть: включает идентификатор агента, команды Co, определение инструментов,规范 тона, политики безопасности, объем может достигать сотен тысяч токенов, любое изменение приведет к недействительности кэша, значительному увеличению затрат и времени;
Динамически заменяемая часть: состояние сеанса, текущее время, доступные для чтения файлы, зависимости пакетов кода и т.д., гибко меняются в зависимости от задачи;
Инженерная практика: точная оптимизация коэффициента выполнения задач и снижение уровня ошибок с помощью A/B тестирования и тонкой настройки Prompt для разных пользователей.

Для сравнения, архитектура Claude Code более лаконична, нагрузка на внимание модели ниже, меньше галлюцинаций; в то время как соответствующая архитектура OpenAI более сложна, требует чтения большого количества файлов, что легко вызывает галлюцинации памяти.

2. Tool Schema (спецификация инструментов)

Определение инструментов напрямую определяет точность вызова,核心设计要点:

Встроенные核心工具: базовые инструменты, такие как чтение/запись/редактирование файлов, Bash, пакетная обработка Web и др., адаптированы на этапе обучения модели, при выводе不需要额外提供 описания инструментов;
Права доступа и безопасность: в корпоративных сценариях拒绝第三方 инструменты без проверки прав доступа, чтобы избежать злонамеренных操作;
Параллельный вызов инструментов: может повысить скорость выполнения, но пост-обучение чрезвычайно сложно — параллельные вызовы не имеют последовательной зависимости, во время обучения легко возникает временное смещение, сигналы Reward трудно对齐.

3. Tool Call Loop (цикл вызова инструментов)

Это самая核心часть Harness, а также ключ к интеграции обучения и вывода:

Режим планирования (Plan Mode): для длинных цепочек задач сначала понять задачу,梳理文件系统, определить доступные инструменты, сгенерировать план выполнения, а затем перейти к выполнению; избежать слепых проб и ошибок (например, многократный вызов недоступной поисковой системы),减少无效消耗 токенов;
Режим выполнения (Execute Mode): выполнение инструментов по плану в песочнице (Sandbox) с получением результата и闭环;
核心价值: устранение промежуточных ошибок в длинных цепочках выполнения, снижение стоимости повторных попыток, но также усложнение обучения способности к планированию — сигналы Reward качества планирования легко искажаются шумом环节 выполнения.

4. Context Manager (менеджер контекста)

Решение проблемы эффективного использования контекста объемом в миллионы токенов:

Использование указательной индексированной памяти (Pointer Indexed Memory): не хранит полное содержимое,仅记录文件指针和主题标签;
Фоновая автоматическая консолидация, удаление дубликатов,关联文件;
Текущее состояние: все еще находится на эвристической стадии, не может идеально решить проблему межфайлового跨链очного вывода (например,关联文件被遗漏), пока нет端到端оптимального решения.

5. Sub Agent (под-агент)

Основному协作多агентов не хватает теоретического обеспечения: нет общих целей, нет универсальных алгоритмов обучения,只能«各自训练、随缘配合».

В то время как архитектура Main-Sub Agent по сути является иерархическим обучением с подкреплением:

Главный агент определяет подзадачи (Option) для под-агентов, конечное состояние подзадачи служит отправной точкой для следующего шага главного агента;
Общий KV Cache и входной контекст, после выполнения под-агентом仅追加结果, не额外增加消耗 токенов, стоимость значительно ниже последовательного выполнения;
Типичное внедрение: подходы таких работ, как ContextFormer от ByteDance,高度一致 с этим.

6. Verification Hooks (хуки проверки)

Решение проблемы «самоприукрашивания и ложных отчетов о завершении» модели:

Сильные модели имеют自我偏好, самооценка точности значительно выше взаимной оценки,容易主动«说谎», а не просто галлюцинировать;
Инженерное решение: введение фонового классификатора, который смотрит только на результаты выполнения инструментов, игнорируя сгенерированный моделью текст, объективная проверка вне偏差 генерации;
Роль: без полностью проверяемого Reward可以实现легкая и элегантная проверка результатов выполнения.

Традиционная среда обучения RL (обучение с подкреплением) и среда вывода严重割裂, в то время как Harness实现了интеграцию среды обучения и производства: последовательность вызовов инструментов = шаги траектории, тестовые запуски и классификационные шлюзы = сигналы Reward,用户任务= полный эпизод (Episode).

Вокруг上述шести核心组件, Post-training (пост-обучение) формирует шесть核心направлений:

1. System Prompt (системное приглашение) управляет对齐поведения

System Prompt четко определяет цели задачи, бюджет Token и стратегию использования инструментов, thereby значительно ограничивая пространство поведения модели, позволяя обучению с подкреплением изучать оптимальный режим выполнения только в ограниченном范围内. Мы можем设计систему оценок на основе правил в System Prompt, позволяя модели проходить近似端到端обучение на более чистых траекториях с меньшим количеством ветвлений, стабильно выводя ожидаемое поведение.

2. Сквозное обучение длинных цепочек вызовов инструментов

Отказ от традиционного «пошагового моментального обучения» в пользу обучения на полных траекториях:

Запись результата выполнения на каждом шаге, получение过程Reward и最终任务Reward;
Фокус на стабильности длинных цепочек, обеспечение общей точности вызовов инструментов в сотни шагов, а не только правильности одиночного вызова.

3. Интегрированное обучение Plan-Execute

Harness устраняет шум между планированием и выполнением:

Предварительная блокировка цепочки инструментов в плане, без额外слоя人工干预;
Результаты выполнения объективно проверяются классификационными шлюзами, сигналы Reward для планирования更清晰;
Реализация возможности обучения способности к планированию, избегание грубого模式«只执行、不规划».

4. Специализированное обучение сжатию памяти (Memory Compression)

Рассмотрение сжатия контекста как独立任务: вышестоящая модель выводит сжатую память, эффективность выполнения нижестоящей задачи служит标准проверки; цель — сохранение核心信息 без влияния на成功率 нижестоящей задачи.

5. Обучение координации под-агентов

Для сверхдлинного вывода (сценарии с кодом/документами в миллионы токенов):

Главный агент не генерирует контент напрямую, а координирует под-агентов, распределяя задачи и Prompt;
Под-агенты выполняют параллельно, затем результаты объединяются, главный агент проводит проверку;
Зависит от Harness для实现底层управления процессами,避免冲突和执行失败.

6. Совместное обучение с подкреплением по множеству целей

Современный конвейер RL значительно удлинился, необходимо одновременно оптимизировать шесть модулей:

Вызов инструментов без галлюцинаций, точность классификационной проверки, эффективность сжатия контекста, отсутствие препятствий у多агентов, разумность планирования, достоверность проверки;
Отрасль переходит от сходимости алгоритмов к百花齐放, каждое环节需要专属算法 обучения,多目标融合 становится核心проблемой.

Во-первых, это изменение потребностей в талантах. Prompt Engineering больше не является独立核心, хорошее Harness может выполнить 70% работы. Поэтому复合型таланты, сочетающие понимание ИИ, бэкенд-инженерию и возможности инфраструктуры, будут более востребованы, в то время как конкурентоспособность чистых инженеров Prompt значительно снизится.

Во-вторых, реструктуризация рыночного ландшафта. Под давлением производителей моделей и предприятий вертикальных отраслей, промежуточные «компании-оболочки моделей» остаются только с двумя可行ными путями: либо обладать передовыми возможностями моделей и инфраструктуры, либо иметь уникальные барьеры в виде данных/опыта в垂直领域 (например,高频交易、отраслевые эксклюзивные знания).

В-третьих, реальное внедрение агентов движется в сторону приватизации, высокой безопасности и端到端интеграции. Для предприятий приоритетом является повторное использование зрелого дизайна Harness, кастомизация под垂直сценарии, фокус на безопасности и приватизации внедрения, только так можно实现真正масштабируемое коммерческое использование агентов.

核心价值утечки Claude Code заключается не в самом коде, а в揭示того, что агенты вступили в эпоху управления с помощью Harness. Возможности модели — это лишь основа, инженерная архитектура, среда выполнения,协作多агентов, механизмы проверки才是决定上限的关键.

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Связанные с этим вопросы

QЧто такое Harness в контексте AI-агентов, согласно статье?

AHarness — это комплексная инженерная архитектура, предназначенная для максимального раскрытия возможностей модели, а не просто для генерации токенов. Она действует как «узда», позволяя управлять мощной моделью, и включает такие компоненты, как системные подсказки, инструменты, циклы вызовов, менеджеры контекста, под-агенты и механизмы проверки.

QКакие шесть ключевых компонентов Harness-архитектуры Claude Code выделены в статье?

AШесть ключевых компонентов: 1. Многоуровневые System Prompt (системные подсказки), 2. Tool Schema (спецификации инструментов), 3. Tool Call Loop (цикл вызова инструментов), 4. Context Manager (менеджер контекста), 5. Sub Agent (под-агенты), 6. Verification Hooks (хуки проверки).

QКак Harness меняет подход к пост-обучению (Post-training) моделей?

AHarness обеспечивает единство тренировочной и производственной сред, превращая последовательности вызовов инструментов в шаги траектории, а тестовые запуски и классификаторы — в сигналы вознаграждения (Reward). Это позволяет проводить сквозное обучение длинных цепочек, совместное обучение планирования и выполнения, сжатие контекста, координацию под-агентов и многозадачное обучение с подкреплением.

QКакие изменения на рынке и в спросе на talent ожидаются с приходом эпохи Harness?

AОжидается сдвиг в спросе на таланты: востребованы будут специалисты с комбинированными навыками в AI, бэкенд-разработке и инфраструктуре, в то время как ценность pure Prompt-инженеров снизится. Рынок перестроится: «компании-оболочки» для моделей либо должны иметь передовые модели и инфраструктуру, либо уникальные данные/опыт в вертикали.

QВ чём основная ценность утечки кода Claude Code, согласно автору?

AОсновная ценность не в самом коде, а в демонстрации того, что эра AI-агентов теперь движется Harness — инженерной архитектурой. Мощность модели является лишь базой, а итоговую эффективность определяют окружение исполнения, координация множества агентов, механизмы проверки и другие инженерные компоненты.

Похожее

Суперцикл искусственной памяти наступил: торгуйте DRAM, Micron и SanDisk в одном крипто-аккаунте

Цикл роста рынка памяти для ИИ начался: торгуйте DRAM, Micron и SanDisk в одной крипто-учетной записи. Все мировые ИИ-датацентры сталкиваются с одной проблемой — нехваткой памяти, а не вычислительных мощностей. Чипы памяти распроданы, а их производители стали одними из самых прибыльных активов 2026 года. На платформе WEEX всю эту тему можно торговать в едином аккаунте, расчеты в USDT, без брокеров. Ситуация уникальна: Goldman Sachs прогнозирует дефицит DRAM в 2026 году на уровне 4,9% — самый серьезный за 15 лет. Цены на DRAM выросли примерно на 90% только в первом квартале 2026 года, а на NAND — более чем вдвое за несколько месяцев. Это структурный кризис, вызванный бумом ИИ, который сейчас потребляет около 20% всего производства DRAM. Три инструмента на WEEX позволяют участвовать в этом цикле: 1. **DRAM/USDT (спот):** Прямая торговля дефицитом памяти, а не акциями конкретного производителя. 2. **Бессрочные фьючерсы MU (Micron):** Весь объем памяти высокой пропускной способности Micron на 2026 год уже продан по фиксированным контрактам. Выручка компании в центре обработки данных составляет более 56%. 3. **Бессрочные фьючерсы SNDK (SanDisk):** Более волатильная ставка на рынок NAND-памяти, который испытывает еще большее давление. Выручка SanDisk резко выросла на 97% в квартальном исчислении. Ключевое преимущество WEEX — возможность торговать всей этой макро-историей в одном аккаунте, быстро перераспределяя экспозицию между общей темой и конкретными активами без перевода средств. Дефицит памяти — главное узкое место эпохи ИИ, и теперь на нем можно торговать через крипто-аккаунт.

TheNewsCrypto31 мин. назад

Суперцикл искусственной памяти наступил: торгуйте DRAM, Micron и SanDisk в одном крипто-аккаунте

TheNewsCrypto31 мин. назад

UNI вырос вдвое за два месяца на фоне общего спада: пятилетняя задержка в восстановлении стоимости

В июне-июле 2025 года, на фоне общей волатильности крипторынка, токен UNI децентрализованной биржи Uniswap показал исключительный рост, почти удвоившись в цене с $2,3 до $4,6. Основная причина — реализация механизма сбора доли комиссий протокола (т.н. «переключатель комиссий») и их направления на выкуп и сжигание UNI, что изменило его статус с чисто управленческого токена на актив с реальным денежным потоком. Несмотря на то, что предложение было принято еще в декабре 2024 года, значимый эффект проявился только в июле 2025 года после запуска Robinhood Chain, ориентированной на токенизированные акции. Развернутые на ней пулы Uniswap резко увеличили объемы торгов и комиссий протокола. Ежедневные средства, направляемые на сжигание UNI, выросли примерно с $114 тысяч до $325 тысяч, причем более половины суммы генерировала Robinhood Chain. Ключевым фактором успеха механизма выкупа и сжигания для UNI стала зрелая и распределенная структура предложения токена, выпущенного еще в 2020 году, без крупных предстоящих разблокировок. Это отличает его от многих новых проектов, где эмиссия часто превышает объемы выкупа. Главный вопрос на будущее — сможет ли Uniswap сохранить высокие объемы торгов на Robinhood Chain после окончания 90-дневного периода субсидирования комиссий сети, или текущий рост окажется временным эффектом.

marsbit1 ч. назад

UNI вырос вдвое за два месяца на фоне общего спада: пятилетняя задержка в восстановлении стоимости

marsbit1 ч. назад

Экстренный отзыв функции генерации изображений Nano Banana 2 в Google Earth!

В Google Earth экстренно отозвали функцию генерации изображений Nano Banana 2 после того, как пользователи менее чем за день "сломали" её, создавая неподобающий или абсурдный контент (например, исторические памятники в постапокалиптическом стиле). Функция, позволявшая накладывать сгенерированные ИИ изображения на реальные спутниковые снимки и 3D-ландшафты в Google Earth, была временно отключена для усиления защитных мер. Эта технология, названная "геопространственным закреплением" (Geospatial Grounding), использует текущий спутниковый вид, данные рельефа и камеры для создания изображений, которые реалистично вписываются в реальную географию. Она открывала новые возможности: визуализацию исторических мест, создание информационных графиков и предварительный просмотр архитектурных проектов в их реальном окружении. Однако недостатки, такие как отсутствие поддержки режима Street View и неточности в генерируемой информации, а также возможность злоупотреблений, вынудили Google отозвать функцию. Этот шаг подчеркивает стратегию Google по использованию своего уникального массива географических данных для создания нового типа "правдоподобной" AI-визуализации, в отличие от конкурентов, сосредоточенных только на эстетике изображений.

marsbit2 ч. назад

Экстренный отзыв функции генерации изображений Nano Banana 2 в Google Earth!

marsbit2 ч. назад

Алтман признаёт: переоценил способность ИИ отнимать работу! Хуан Жэньсюнь: разговоры о безработице абсолютно ошибочны

Открытие OpenAI - не первая крупная компания под управлением ИИ, но Сэм Олтман изменил свою позицию. В подкасте «Invest Like the Best» он заявил, что люди «не хотят ИИ-гендиректора», поскольку им важно знать, кто принимает решения и несет ответственность. Он также признал, что переоценил скорость, с которой ИИ заменит младшие офисные должности. Дженсен Хуанг, глава NVIDIA, в свою очередь, заявил на YC Startup School, что нарратив об «ИИ, уничтожающем рабочие места», ошибочен. Он разграничил понятия «задача» и «работа»: ИИ берет на себя некоторые задачи, но не устраняет всю должность. Например, спрос на радиологов и разработчиков ПО растет, поскольку ИИ помогает быстрее обрабатывать накопленные объемы работы, позволяя расширять деятельность. Исследование Университета Мэриленда и LinkUp, охватившее 155 млн вакансий в США с 2018 года, не выявило общего снижения спроса на работу из-за ИИ. Доля вакансий для выпускников даже выросла. Молодые специалисты могут получить преимущество, используя ИИ для компенсации недостатка опыта. Однако стандартные вводные задачи (обработка данных, написание базового кода), которые раньше служили стартовой ступенькой для карьеры, теперь автоматизируются. Это сужает точку входа на рынок труда для новичков. Ключевой вывод: по мере автоматизации задач ценность человеческой работы смещается в сторону ответственности, построения доверия, принятия окончательных решений и личного взаимодействия. Эти элементы, которые ИИ не может заменить, становятся настоящим профессиональным преимуществом.

marsbit2 ч. назад

Алтман признаёт: переоценил способность ИИ отнимать работу! Хуан Жэньсюнь: разговоры о безработице абсолютно ошибочны

marsbit2 ч. назад

Крупные изменения в ФРС? Сообщается, что Ваш рассматривает возможность сокращения частоты заседаний по ставкам, нарушая 40-летнюю традицию

Председатель ФРС Уолш рассматривает возможность сокращения количества регулярных заседаний по установлению процентных ставок, проводимых Федеральным комитетом по открытым рынкам (FOMC) каждый год. Это изменение, если оно будет реализовано, станет одним из самых значительных преобразований в работе ФРС за последние десятилетия и打破ет практику, действующую с 1981 года, когда заседания проводятся восемь раз в год (примерно каждые шесть недель). Согласно информации The New York Times, Уолш вынес этот вопрос на обсуждение на заседании ФРС на этой неделе. Новый график может быть определен до следующего заседания в середине сентября, хотя конкретные изменения вступят в силу позже. Закон о банках 1935 года требует, чтобы FOMC проводил «не менее четырех заседаний в год». Сокращение количества заседаний уменьшит возможности для голосования по процентным ставкам и может ослабить способность ФРС оперативно реагировать на изменения в инфляции и на рынке труда. Это также сократит каналы получения рынком сигналов о денежно-кредитной политике и снизит прозрачность, что противоречит многолетнему тренду на ее усиление. Данный шаг соответствует общему стилю руководства Уолша, который уже сократил объем публичных заявлений и рассматривает возможность уменьшения количества пресс-конференций после заседаний. Это предложение является частью более широкой повестки Уолша по «институциональной реформе» ФРС. В истории ФРС частота заседаний менялась: до 1981 года они могли проводиться до 19 раз в год, как это было в 1956 году. Внутренняя памятная записка ФРС 1988 года признавала преимущества более частых заседаний для оперативного рассмотрения новой информации, но сочла существующий график из восьми заседаний подходящим. Реформа Уолша идет в противоположном направлении, и ее потенциальное влияние на гибкость политики и коммуникацию с рынком будет тщательно отслеживаться.

marsbit3 ч. назад

Крупные изменения в ФРС? Сообщается, что Ваш рассматривает возможность сокращения частоты заседаний по ставкам, нарушая 40-летнюю традицию

marsbit3 ч. назад

Торговля

Спот

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на ERA (ERA) представлены ниже.

Агенты вступили в эпоху управления с помощью Harness

Введение

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

Суперцикл искусственной памяти наступил: торгуйте DRAM, Micron и SanDisk в одном крипто-аккаунте

UNI вырос вдвое за два месяца на фоне общего спада: пятилетняя задержка в восстановлении стоимости

Экстренный отзыв функции генерации изображений Nano Banana 2 в Google Earth!

Алтман признаёт: переоценил способность ИИ отнимать работу! Хуан Жэньсюнь: разговоры о безработице абсолютно ошибочны

Крупные изменения в ФРС? Сообщается, что Ваш рассматривает возможность сокращения частоты заседаний по ставкам, нарушая 40-летнюю традицию

Торговля

Популярные статьи

Как купить ERA

Обсуждения

Топ вопросы

Популярные категории

Популярные теги