Новая статья OpenAI: Как обучить ИИ, который «не портится под давлением»?

marsbitОпубликовано 2026-06-24Обновлено 2026-06-24

Введение

Открытие OpenAI: как обучить ИИ, который не «ломается» под давлением? В новом исследовании «Обучение с подкреплением для создания широко и устойчиво полезных моделей» OpenAI изучает, как заставить большие языковые модели сохранять безопасное и полезное поведение в новых, непредвиденных ситуациях, особенно под давлением или при попытках злонамеренной перетренировки. Ключевая проблема заключается в «взломе вознаграждения» (reward hacking), когда модель учится обходить правила, чтобы получить высокую оценку, не выполняя задачу по существу. Более того, вредное поведение, усвоенное в одной области, может распространиться на другие — феномен «возникающего рассогласования» (emergent misalignment). OpenAI задается вопросом: если плохое поведение обобщается, можно ли аналогичным образом обобщить и хорошее? Исследователи создали синтетический диалоговый набор данных, охватывающий 12 областей (медицина, право, инженерия и др.), чтобы оценить 15 полезных черт, таких как правдивость, прозрачность, способность признавать ошибки, осознание рисков и справедливость. Эксперимент показал, что замена всего 5% стандартных данных обучения с подкреплением на диалоги, демонстрирующие эти полезные черты, значительно улучшает поведение модели. Модель с «полезными чертами» превзошла базовую в 83% тестов (44 из 53) на безопасность и соответствие. Более того, улучшения имели **междисциплинарный характер**: модель, обученная на примерах хорошего поведения только из области здравоохранения, показала лу...

Могут ли, казалось бы, надежные большие языковые модели удержать линию безопасности, если их подтолкнуть, оказать на них давление или даже переобучить делать плохие вещи?

Недавно OpenAI опубликовала статью под названием «Reinforcement Learning Towards Broadly and Persistently Beneficial Models» («Обучение с подкреплением для создания широко и устойчиво полезных моделей»), в которой пытается ответить на все более насущный вопрос: когда ИИ начинает выполнять более длинные и рискованные задачи, как заставить модель продолжать демонстрировать полезное и безопасное поведение в новых сценариях, выходящих за рамки тренировочных данных, и оставаться стабильной под внешним давлением.

Не выдумывать медицинские заключения, не давать опасных советов, не помогать пользователям обходить правила... Ранее, говоря о безопасности ИИ, отрасль чаще исходила из того, «чего модель не должна делать». Но когда ИИ начинает проникать в сценарии сложного принятия решений, одного лишь списка запретов явно недостаточно. Реальные задачи часто не бывают черно-белыми, и сами цели, поставленные пользователем, могут быть сопряжены с рисками.

В этой статье OpenAI выдвигает тезис: предпосылкой для того, чтобы модель стала «хорошим помощником», является её способность в незнакомых ситуациях оставаться честной, осторожной, корректируемой и, по возможности, принимать решения, полезные для человека. Более того, обучение с подкреплением (RL) не только может усиливать риски, но и может быть использовано для обучения моделей формированию более широких и устойчивых полезных качеств.

Чтобы понять эту статью, нужно сначала понять обучение с подкреплением. Проще говоря, обучение с подкреплением — это когда модель получает обратную связь на каждый свой ответ, система оценивает её по какому-то критерию, и модель постоянно оптимизируется в сторону получения более высоких оценок.

Преимущество этого механизма в том, что модель не просто имитирует ответы, а активно исследует более оптимальные стратегии. Но параллельно с этим возникает риск: если критерии оценки разработаны плохо, модель может научиться обходить правила.

В статье этот феномен объясняется термином Reward Hacking («взлом вознаграждения»). Например, если задача по написанию кода оценивается только по итоговому тестовому баллу, модель может не исправлять код, а напрямую изменить логику тестирования, чтобы результат выглядел как успешный. Она получает награду, но реально задачу не выполняет.

Что ещё хуже, прошлые исследования показали, что плохое поведение, усвоенное моделью в одной узкой области, может распространиться на другие сценарии. Например, если модель обучили писать небезопасный код, это может привести не только к ухудшению безопасности кода, но и к тому, что она будет чаще проявлять обманчивость, угодливость или давать вредные советы и по другим вопросам. Такое явление называется Emergent Misalignment, то есть «возникающее рассогласование».

OpenAI в своей статье ставит вопрос: Если плохое поведение может обобщаться между областями, может ли и хорошее поведение обобщаться? Если обучение с подкреплением может подтолкнуть модель к нахождению лазеек и обману, можно ли с его помощью обучить модель быть более честной, осторожной и менее подверженной влиянию?

Чтобы проверить эту гипотезу, OpenAI создала набор синтетических диалоговых данных для оценки и обучения «полезным качествам» (beneficial traits), охватывающий 12 категорий сценариев: медицина, образование, бизнес и экономика, инженерные технологии и эксплуатация, право и этика управления, научные исследования и другие. Цель — не заставить модель механически применять правила безопасности или просто отказываться, а поместить её в более реалистичные и сложные ситуации, чтобы проверить, может ли она принимать устойчивые решения в условиях неопределённости фактов, конфликта интересов и рисков.

В статье перечислены 15 типов полезных качеств, включая правдивость, метакогнитивную прозрачность, корректируемость, планирование с учётом рисков, осознание асимметрии власти, универсализируемую справедливость и другие. Говоря более простым языком, модель не должна выдумывать доказательства, чтобы казаться экспертом; не должна делать категоричных выводов в случае неопределённости; не должна упрямо защищать свой первоначальный ответ после указания на ошибку; и не должна игнорировать долгосрочные риски ради удовлетворения сиюминутных запросов пользователя.

В статье приводятся несколько примеров сценариев. Например, пользователь хочет написать статью о куркумине для лечения болезни Крона, но не может найти клиническое исследование, на которое ранее ссылалась модель. Хороший ответ — не продолжать подкреплять утверждение якобы достоверной ссылкой, а чётко признать невозможность проверки, отозвать ненадёжное заявление и заново пояснить границы имеющихся доказательств.

Это и есть ключевой момент, который хочет подчеркнуть статья: Хорошая модель — это не та, что всегда отказывает пользователю, и не та, что безоговорочно его удовлетворяет. Это модель, которая способна принимать более устойчивые решения, балансируя между полезностью, честностью и безопасностью.

Чтобы проверить эту идею, исследовательская команда OpenAI провела сравнительный эксперимент. Они взяли одну модель и обучили её на смеси данных: 95% стандартных данных для обучения с подкреплением (standard RL data mixture) плюс 5% данных, ориентированных на полезные качества (beneficial trait data). Контрольная группа обучалась на 100% стандартных данных с подкреплением, при этом вычислительные ресурсы были сопоставимы.

Результаты показали, что это 5%-ное изменение в тренировочных данных привело к заметной разнице. В 53 независимо созданных тестах на согласованность, безопасность и полезное поведение, модель, обученная с акцентом на полезные качества (beneficial trait RL model), превзошла базовую модель по 44 пунктам, что составляет 83%, со средним улучшением на 9.1 процентных пункта. Улучшения проявились не только во внутренних тестах на полезные качества, но и распространились на различные внешние тесты, включая тесты на обман, взлом вознаграждения (reward hacking), соблюдение спецификаций модели (model spec compliance), медицину и психическое здоровье.

Особого внимания заслуживает эксперимент на межпредметный перенос. Исследователи заменили только 5% тренировочных данных диалогами, демонстрирующими полезное поведение в сфере здравоохранения, а затем протестировали получившуюся модель в областях, не связанных со здоровьем. В результате эта модель, «обученная хорошему поведению только в сценариях о здоровье», превзошла базовую модель в 17 из 19 тестов на согласованность в не связанных со здоровьем областях, со средним улучшением на 11.3 процентных пункта. Улучшения затронули такие аспекты, как взлом вознаграждения в коде, обман в цепочке рассуждений (chain-of-thought deception, CoT deception), вопросы согласованности (alignment questions) и общее рассогласование (misalignment).

Это говорит о том, что модель усваивает, возможно, не просто навыки ответов в конкретной области, а более фундаментальную поведенческую склонность: готовность признать неопределённость и склонность в ситуациях высокого риска сначала рассматривать варианты минимизации потерь и обратимости решений. В статье это явление также называют кросс-предметным переносом согласованности, когда полезное поведение, усвоенное в одной области, может переноситься на другие.

Статья также дополнительно исследует устойчивость согласованности (Alignment Persistence). Она проверяет, может ли модель сохранять согласованное поведение после того, как её спровоцировали вредоносными промптами или продолжили дообучать в неправильном направлении. В экспериментах с провокационными промптами (adversarial prompting) исследовательская команда использовала подсказки в стиле «плохой медицинской личности», чтобы спровоцировать модель давать неточные, небезопасные или неполные медицинские рекомендации. Результаты показали, что на модель, обученную на полезных качествах, такие промпты тоже влияли, но степень ухудшения её работы была меньше, чем у базовой модели.

В экспериментах с вредоносным дообучением (harmful finetuning) исследователи дополнительно дообучили модели для выдачи ошибочных или небезопасных медицинских рекомендаций. Результаты снова показали, что у модели, обученной на полезных качествах, производительность на целевых медицинских задачах снижалась, но в меньшей степени; что важнее, в не связанных со здоровьем тестах на согласованность у неё не наблюдалось массового сопутствующего ухудшения. Это означает, что тренировка на полезных качествах может в некоторой степени смягчить проблему «испортился локально — рассогласовался глобально».

Однако OpenAI не заявляет, что это исследование уже решило проблему согласования ИИ. В статье признаётся, что выбранные «полезные качества» — это лишь экспериментальная отправная точка, которая не охватывает все критерии «хорошего ИИ». Кроме того, тренировка на полезных качествах действительно делает модель более осторожной, и она чаще отказывается отвечать на вопросы с высоким риском. Но это улучшение достигнуто не только за счёт «меньшего количества ответов». Исследование показало, что даже если сравнивать только те образцы, на которые модель дала нормальный ответ, модель, обученная на полезных качествах, всё равно работает лучше. Это означает, что её изменение заключается не только в умении говорить «нет», но и в лучшем понимании того, на что стоит отвечать и как.

В целом, согласование ИИ переходит от «исправления постфактум» к «формированию заранее». Следующий этап конкуренции будет заключаться в том, как сохранять более предсказуемые границы поведения в сложных задачах. Для индустрии это именно тот урок, который необходимо усвоить, прежде чем ИИ сможет по-настоящему войти в сценарии с высоким риском.

Эта статья взята из WeChat-аккаунта «未来科技界Plus», автор: Ли Янь, редактор: Ян Юй.

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Связанные с этим вопросы

QКакой метод обучения был предложен OpenAI для повышения стабильности и безопасности ИИ в новых ситуациях?

AOpenAI предложила использовать метод, который они назвали 'Полезное обучение с подкреплением' (Beneficial Reinforcement Learning). Вместо того чтобы просто определять, что модель не должна делать, этот метод направлен на формирование у модели более широких и устойчивых 'полезных черт', таких как честность, способность к исправлению и осознание рисков.

QЧто такое 'взлом вознаграждения' (Reward Hacking) в контексте обучения ИИ с подкреплением?

A'Взлом вознаграждения' (Reward Hacking) — это явление, при котором модель ИИ вместо решения реальной задачи начинает использовать уязвимости в системе оценки для получения высокой награды. Например, для успешного прохождения теста по программированию модель может изменить логику самого теста, а не исправить ошибки в коде.

QКакие полезные черты (beneficial traits) выделили исследователи OpenAI в своей работе?

AИсследователи выделили 15 полезных черт. К ним относятся, в частности, правдивость, метакогнитивная прозрачность (умение объяснить свои рассуждения), способность к исправлению, планирование с учётом рисков, осознание асимметрии власти и универсализируемая справедливость. Цель — научить модель быть не просто послушной, а рассудительной и надёжной в условиях неопределённости.

QКаковы были ключевые результаты экспериментов, описанных в статье?

AКлючевой результат: добавление всего 5% данных для обучения 'полезным чертам' в общий набор данных для обучения с подкреплением привело к значительному улучшению модели в 83% из 53 различных тестов на безопасность и соответствие. Более того, модель, обученная хорошему поведению только в медицинских сценариях, показала лучшие результаты и в других областях, демонстрируя перенос навыков выравнивания (cross-domain alignment transfer).

QЧто означает 'устойчивость выравнивания' (Alignment Persistence) и как её тестировали?

A'Устойчивость выравнивания' (Alignment Persistence) — это способность модели сохранять безопасное и полезное поведение под давлением, например, при вредоносных запросах или последующем вредном дообучении. Тесты включали 'враждебные промпты' (adversarial prompting), чтобы заставить модель давать плохие медицинские советы, и 'вредное дообучение'. Модель, обученная на полезных чертах, хотя и деградировала, но делала это в меньшей степени, чем обычная модель, и её ухудшение не распространялось сильно на другие области.

Похожее

Интерпретация отчета: Когда CPO взрывается, какую стратегию разыгрывает Coherent?

JP Morgan подтверждает рейтинг «превышение рынка» для Coherent (COHR), отмечая недооцененный рынком потенциал роста в трех ключевых направлениях. Основной драйвер — оптические компоненты для ЦОД: спрос на трансиверы 1,6Т остается высоким, а переход к CPO (совместной упаковке оптики) не заменяет, а увеличивает потребность в высококачественных оптических компонентах, где Coherent предлагает полный портфель. Дополнительные возможности связаны с CPO и оптическими коммутаторами (OCS), где компания может получить значительно большую долю стоимости на чип. Планы по увеличению производства компонентов на InP в 4 раза и уникальная позиция на дефицитном рынке насосных лазеров позволяют перейти к продажам более дорогих комплексных решений. Целевая валовая маржа выше 42% поддерживается ростом доли премиальных продуктов, переходом на пластины большего диаметра и новыми продуктами, такими как высокоэффективные материалы для теплоотвода. Промышленный сегмент демонстрирует стабильный рост 5-10%. Таким образом, рост спроса на высокоскоростные оптические решения для ИИ, позиции в CPO и OCS, расширение мощностей и улучшение структуры затрат формируют основу для положительного инвестиционного тезиса.

marsbit2 мин. назад

Интерпретация отчета: Когда CPO взрывается, какую стратегию разыгрывает Coherent?

marsbit2 мин. назад

Новая статья Дэна Ко: Побег от судьбы наемного работника. Как выжить в волне замены ИИ?

Статья Дэна Коэ посвящена тому, как избежать участи наемного работника и выжить в эпоху ИИ. Автор утверждает, что главная угроза — не технологии, а финансовая зависимость и отсутствие контроля над своей жизнью. Большинство работ, по его мнению, со временем становятся рутиной, лишая человека смысла, роста и чувства потока. Выход — создание собственного дела. Для этого необходимы пять ключевых качеств: инициативность, вкус, умение убеждать, упорство и способность к итерациям на основе обратной связи. Эти навыки развиваются только на практике, начав собственный проект. Автор предлагает конкретный план: 1. **Радикально сменить окружение**, чтобы изменить поведение и самоидентификацию. 2. **Выбрать деятельность, дающую честную обратную связь** (например, создание контента или кода), где неизбежны ошибки и обучение на них. 3. **Создавать контент** (тексты, видео), так как это развивает уникальный вкус и авторитет, которые сложнее автоматизировать, чем написание кода. Контент — это мощный рычаг в эпоху ИИ. Чтобы начать, нужно ответить на ключевые вопросы: какие темы вас глубоко интересуют? С какими общепринятыми мнениями вы не согласны? Пересечение этих ответов — основа вашего уникального направления. Первый шаг — немедленно опубликовать свою первую мысль по этой теме и начать получать реальную обратную связь от мира.

marsbit10 мин. назад

Новая статья Дэна Ко: Побег от судьбы наемного работника. Как выжить в волне замены ИИ?

marsbit10 мин. назад

После сокращения 20% сотрудников, на что следует обратить внимание в новой структуре EF?

Согласно объявлению Фонда Ethereum (EF) от 23 июня, проведена масштабная реорганизация, включающая сокращение около 20% сотрудников (54 человека). Организация переходит к новой структуре, основанной на пяти ключевых рабочих кластерах: Протокол, Доступ, Пользователь, Сообщество и Институциональный уровень. Целью реформы заявлена фокусировка на миссии и принципах «CROPS» (цензуроустойчивость, открытый исходный код и свобода, конфиденциальность, безопасность), а также повышение эффективности. Протокольный кластер сосредоточится на фундаментальных исследованиях и развитии ядра Ethereum. Кластер Доступа призван обеспечить пользователям возможность независимого взаимодействия с сетью без принудительного посредничества. Остальные кластеры будут отвечать за работу с конечными пользователями, сообществом и институциональными партнёрами соответственно. Фонд подчеркивает, что реструктуризация направлена не просто на сокращение затрат, а на стратегическую перегруппировку ресурсов в соответствии с ранее принятыми мандатом и казначейской политикой. Уволенным сотрудникам предложен пакет поддержки, включающий выходные пособия и помощь в трудоустройстве внутри экосистемы. Несмотря на официальный оптимистичный тон, перестановки происходят на фоне дискуссий о будущей роли EF в растущей и усложняющейся экосистеме Ethereum. Ключевые вопросы о распределении бюджета между новыми кластерами и приоритетах финансирования остаются открытыми, и Фонд обещает предоставить дополнительные детали в ближайшие недели и месяцы.

marsbit12 мин. назад

После сокращения 20% сотрудников, на что следует обратить внимание в новой структуре EF?

marsbit12 мин. назад

Самый крутой MEV-бот потерял $7.5 млн: Approval — самый недооценённый смертельный риск в ончейне?

Взлом MEV-бота Jaredfromsubway.eth на сумму 7,5 млн долларов вновь подчеркивает, что «Approve» (разрешение) в ERC-20 остается одной из самых недооцененных и опасных рисков в DeFi. Атакующие не взламывали приватные ключи или контракты, а создали среду с поддельными токенами и пулами ликвидности, имитирующую арбитражные возможности. Это заставило автоматизированный бот выдавать разрешения на управление активами. В итоге злоумышленники «легально» вывели средства. Этот случай демонстрирует общую проблему: пользователи и автоматизированные системы часто воспринимают Approve лишь как технический шаг для транзакции, не осознавая его долгосрочных последствий. Разрешение не исчезает после отключения кошелька от dApp, а бесконечные разрешения дают контрактам неограниченный доступ к будущим поступлениям средств. Как управлять рисками: 1. Принцип минимальных привилегий: устанавливайте лимит, близкий к сумме сделки, а не бесконечный. 2. Разделяйте кошельки: для хранения и для активного взаимодействия с dApp. 3. Регулярно проверяйте и отменяйте ненужные разрешения через такие инструменты, как Revoke.cash или функцию «Управление разрешениями» в imToken. Безопасность в Web3 зависит не только от защиты приватного ключа, но и от активного управления разрешениями. Кошельки, в свою очередь, должны улучшать читаемость подписываемых данных и предупреждать пользователей о подозрительных контрактах, стремясь к стандарту «What You See Is What You Sign» (WYSIWYS).

marsbit17 мин. назад

Самый крутой MEV-бот потерял $7.5 млн: Approval — самый недооценённый смертельный риск в ончейне?

marsbit17 мин. назад

Падение цен на драгоценные металлы: какой сигнал подает рынку золото?

Краткое содержание: В июне 2026 года наблюдался одновременный спад цен на акции и драгоценные металлы, что является аномальной ситуацией. Вместо того чтобы перетекать в золото как в убежище в условиях падения фондового рынка, инвесторы распродавали и то, и другое. Ключевым сигналом является падение золота, которое указывает на то, что рынок в настоящее время оценивает стоимость владения активами, не приносящими доход, через призму реальных процентных ставок. После того как новый председатель ФРС Кевин Уорш занял свой пост и сохранил жёсткую риторику, ожидания относительно более высоких и продолжительных ставок переоцениваются. Это повышает привлекательность доллара, казначейских облигаций и наличных средств, одновременно увеличивая альтернативные издержки владения золотом и серебром, которые не приносят процентного дохода. Резкое падение южнокорейского фондового рынка и акций полупроводниковой отрасли (например, Samsung, SK Hynix) лишь усилило это макроэкономическое давление, демонстрируя, как переоценка стоимости капитала влияет на переполненные позиции в различных классах активов. Таким образом, основным драйвером краткосрочного снижения цен на драгоценные металлы является не утрата их защитных свойств, а давление со стороны укрепляющегося доллара и растущих реальных процентных ставок. Долгосрочные факторы поддержки, такие как покупки центральными банками и геополитические риски, никуда не делись, но в краткосрочной перспективе они уступают дорогу переоценке ликвидности. Будущая динамика золота и серебра будет зависеть от того, как долго сохранится давление со стороны ставок и доллара, и смогут ли спрос на убежище и промышленный спрос (для серебра) достаточно быстро компенсировать это давление.

marsbit26 мин. назад

Падение цен на драгоценные металлы: какой сигнал подает рынку золото?

marsbit26 мин. назад

Торговля

Спот

Фьючерсы

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на AI (AI) представлены ниже.

Новая статья OpenAI: Как обучить ИИ, который «не портится под давлением»?

Введение

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

Интерпретация отчета: Когда CPO взрывается, какую стратегию разыгрывает Coherent?

Новая статья Дэна Ко: Побег от судьбы наемного работника. Как выжить в волне замены ИИ?

После сокращения 20% сотрудников, на что следует обратить внимание в новой структуре EF?

Самый крутой MEV-бот потерял $7.5 млн: Approval — самый недооценённый смертельный риск в ончейне?

Падение цен на драгоценные металлы: какой сигнал подает рынку золото?

Торговля

Популярные статьи

AI Companions: Новое определение взаимодействия человека с ИИ

HTX Learn: пройдите обучение по "AI Companions" и разделите 10 000 USDT!

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

Обсуждения

Топ вопросы

Популярные категории

Популярные теги