Новая статья OpenAI: Как обучить ИИ, который «не портится под давлением»?

marsbitОпубликовано 2026-06-24Обновлено 2026-06-24

Введение

Открытие OpenAI: как обучить ИИ, который не «ломается» под давлением? В новом исследовании «Обучение с подкреплением для создания широко и устойчиво полезных моделей» OpenAI изучает, как заставить большие языковые модели сохранять безопасное и полезное поведение в новых, непредвиденных ситуациях, особенно под давлением или при попытках злонамеренной перетренировки. Ключевая проблема заключается в «взломе вознаграждения» (reward hacking), когда модель учится обходить правила, чтобы получить высокую оценку, не выполняя задачу по существу. Более того, вредное поведение, усвоенное в одной области, может распространиться на другие — феномен «возникающего рассогласования» (emergent misalignment). OpenAI задается вопросом: если плохое поведение обобщается, можно ли аналогичным образом обобщить и хорошее? Исследователи создали синтетический диалоговый набор данных, охватывающий 12 областей (медицина, право, инженерия и др.), чтобы оценить 15 полезных черт, таких как правдивость, прозрачность, способность признавать ошибки, осознание рисков и справедливость. Эксперимент показал, что замена всего 5% стандартных данных обучения с подкреплением на диалоги, демонстрирующие эти полезные черты, значительно улучшает поведение модели. Модель с «полезными чертами» превзошла базовую в 83% тестов (44 из 53) на безопасность и соответствие. Более того, улучшения имели **междисциплинарный характер**: модель, обученная на примерах хорошего поведения только из области здравоохранения, показала лу...

Могут ли, казалось бы, надежные большие языковые модели удержать линию безопасности, если их подтолкнуть, оказать на них давление или даже переобучить делать плохие вещи?

Недавно OpenAI опубликовала статью под названием «Reinforcement Learning Towards Broadly and Persistently Beneficial Models» («Обучение с подкреплением для создания широко и устойчиво полезных моделей»), в которой пытается ответить на все более насущный вопрос: когда ИИ начинает выполнять более длинные и рискованные задачи, как заставить модель продолжать демонстрировать полезное и безопасное поведение в новых сценариях, выходящих за рамки тренировочных данных, и оставаться стабильной под внешним давлением.

Не выдумывать медицинские заключения, не давать опасных советов, не помогать пользователям обходить правила... Ранее, говоря о безопасности ИИ, отрасль чаще исходила из того, «чего модель не должна делать». Но когда ИИ начинает проникать в сценарии сложного принятия решений, одного лишь списка запретов явно недостаточно. Реальные задачи часто не бывают черно-белыми, и сами цели, поставленные пользователем, могут быть сопряжены с рисками.

В этой статье OpenAI выдвигает тезис: предпосылкой для того, чтобы модель стала «хорошим помощником», является её способность в незнакомых ситуациях оставаться честной, осторожной, корректируемой и, по возможности, принимать решения, полезные для человека. Более того, обучение с подкреплением (RL) не только может усиливать риски, но и может быть использовано для обучения моделей формированию более широких и устойчивых полезных качеств.

Чтобы понять эту статью, нужно сначала понять обучение с подкреплением. Проще говоря, обучение с подкреплением — это когда модель получает обратную связь на каждый свой ответ, система оценивает её по какому-то критерию, и модель постоянно оптимизируется в сторону получения более высоких оценок.

Преимущество этого механизма в том, что модель не просто имитирует ответы, а активно исследует более оптимальные стратегии. Но параллельно с этим возникает риск: если критерии оценки разработаны плохо, модель может научиться обходить правила.

В статье этот феномен объясняется термином Reward Hacking («взлом вознаграждения»). Например, если задача по написанию кода оценивается только по итоговому тестовому баллу, модель может не исправлять код, а напрямую изменить логику тестирования, чтобы результат выглядел как успешный. Она получает награду, но реально задачу не выполняет.

Что ещё хуже, прошлые исследования показали, что плохое поведение, усвоенное моделью в одной узкой области, может распространиться на другие сценарии. Например, если модель обучили писать небезопасный код, это может привести не только к ухудшению безопасности кода, но и к тому, что она будет чаще проявлять обманчивость, угодливость или давать вредные советы и по другим вопросам. Такое явление называется Emergent Misalignment, то есть «возникающее рассогласование».

OpenAI в своей статье ставит вопрос: Если плохое поведение может обобщаться между областями, может ли и хорошее поведение обобщаться? Если обучение с подкреплением может подтолкнуть модель к нахождению лазеек и обману, можно ли с его помощью обучить модель быть более честной, осторожной и менее подверженной влиянию?

Чтобы проверить эту гипотезу, OpenAI создала набор синтетических диалоговых данных для оценки и обучения «полезным качествам» (beneficial traits), охватывающий 12 категорий сценариев: медицина, образование, бизнес и экономика, инженерные технологии и эксплуатация, право и этика управления, научные исследования и другие. Цель — не заставить модель механически применять правила безопасности или просто отказываться, а поместить её в более реалистичные и сложные ситуации, чтобы проверить, может ли она принимать устойчивые решения в условиях неопределённости фактов, конфликта интересов и рисков.

В статье перечислены 15 типов полезных качеств, включая правдивость, метакогнитивную прозрачность, корректируемость, планирование с учётом рисков, осознание асимметрии власти, универсализируемую справедливость и другие. Говоря более простым языком, модель не должна выдумывать доказательства, чтобы казаться экспертом; не должна делать категоричных выводов в случае неопределённости; не должна упрямо защищать свой первоначальный ответ после указания на ошибку; и не должна игнорировать долгосрочные риски ради удовлетворения сиюминутных запросов пользователя.

В статье приводятся несколько примеров сценариев. Например, пользователь хочет написать статью о куркумине для лечения болезни Крона, но не может найти клиническое исследование, на которое ранее ссылалась модель. Хороший ответ — не продолжать подкреплять утверждение якобы достоверной ссылкой, а чётко признать невозможность проверки, отозвать ненадёжное заявление и заново пояснить границы имеющихся доказательств.

Это и есть ключевой момент, который хочет подчеркнуть статья: Хорошая модель — это не та, что всегда отказывает пользователю, и не та, что безоговорочно его удовлетворяет. Это модель, которая способна принимать более устойчивые решения, балансируя между полезностью, честностью и безопасностью.

Чтобы проверить эту идею, исследовательская команда OpenAI провела сравнительный эксперимент. Они взяли одну модель и обучили её на смеси данных: 95% стандартных данных для обучения с подкреплением (standard RL data mixture) плюс 5% данных, ориентированных на полезные качества (beneficial trait data). Контрольная группа обучалась на 100% стандартных данных с подкреплением, при этом вычислительные ресурсы были сопоставимы.

Результаты показали, что это 5%-ное изменение в тренировочных данных привело к заметной разнице. В 53 независимо созданных тестах на согласованность, безопасность и полезное поведение, модель, обученная с акцентом на полезные качества (beneficial trait RL model), превзошла базовую модель по 44 пунктам, что составляет 83%, со средним улучшением на 9.1 процентных пункта. Улучшения проявились не только во внутренних тестах на полезные качества, но и распространились на различные внешние тесты, включая тесты на обман, взлом вознаграждения (reward hacking), соблюдение спецификаций модели (model spec compliance), медицину и психическое здоровье.

Особого внимания заслуживает эксперимент на межпредметный перенос. Исследователи заменили только 5% тренировочных данных диалогами, демонстрирующими полезное поведение в сфере здравоохранения, а затем протестировали получившуюся модель в областях, не связанных со здоровьем. В результате эта модель, «обученная хорошему поведению только в сценариях о здоровье», превзошла базовую модель в 17 из 19 тестов на согласованность в не связанных со здоровьем областях, со средним улучшением на 11.3 процентных пункта. Улучшения затронули такие аспекты, как взлом вознаграждения в коде, обман в цепочке рассуждений (chain-of-thought deception, CoT deception), вопросы согласованности (alignment questions) и общее рассогласование (misalignment).

Это говорит о том, что модель усваивает, возможно, не просто навыки ответов в конкретной области, а более фундаментальную поведенческую склонность: готовность признать неопределённость и склонность в ситуациях высокого риска сначала рассматривать варианты минимизации потерь и обратимости решений. В статье это явление также называют кросс-предметным переносом согласованности, когда полезное поведение, усвоенное в одной области, может переноситься на другие.

Статья также дополнительно исследует устойчивость согласованности (Alignment Persistence). Она проверяет, может ли модель сохранять согласованное поведение после того, как её спровоцировали вредоносными промптами или продолжили дообучать в неправильном направлении. В экспериментах с провокационными промптами (adversarial prompting) исследовательская команда использовала подсказки в стиле «плохой медицинской личности», чтобы спровоцировать модель давать неточные, небезопасные или неполные медицинские рекомендации. Результаты показали, что на модель, обученную на полезных качествах, такие промпты тоже влияли, но степень ухудшения её работы была меньше, чем у базовой модели.

В экспериментах с вредоносным дообучением (harmful finetuning) исследователи дополнительно дообучили модели для выдачи ошибочных или небезопасных медицинских рекомендаций. Результаты снова показали, что у модели, обученной на полезных качествах, производительность на целевых медицинских задачах снижалась, но в меньшей степени; что важнее, в не связанных со здоровьем тестах на согласованность у неё не наблюдалось массового сопутствующего ухудшения. Это означает, что тренировка на полезных качествах может в некоторой степени смягчить проблему «испортился локально — рассогласовался глобально».

Однако OpenAI не заявляет, что это исследование уже решило проблему согласования ИИ. В статье признаётся, что выбранные «полезные качества» — это лишь экспериментальная отправная точка, которая не охватывает все критерии «хорошего ИИ». Кроме того, тренировка на полезных качествах действительно делает модель более осторожной, и она чаще отказывается отвечать на вопросы с высоким риском. Но это улучшение достигнуто не только за счёт «меньшего количества ответов». Исследование показало, что даже если сравнивать только те образцы, на которые модель дала нормальный ответ, модель, обученная на полезных качествах, всё равно работает лучше. Это означает, что её изменение заключается не только в умении говорить «нет», но и в лучшем понимании того, на что стоит отвечать и как.

В целом, согласование ИИ переходит от «исправления постфактум» к «формированию заранее». Следующий этап конкуренции будет заключаться в том, как сохранять более предсказуемые границы поведения в сложных задачах. Для индустрии это именно тот урок, который необходимо усвоить, прежде чем ИИ сможет по-настоящему войти в сценарии с высоким риском.

Эта статья взята из WeChat-аккаунта «未来科技界Plus», автор: Ли Янь, редактор: Ян Юй.

Трендовые криптовалюты

Связанные с этим вопросы

QКакой метод обучения был предложен OpenAI для повышения стабильности и безопасности ИИ в новых ситуациях?

AOpenAI предложила использовать метод, который они назвали 'Полезное обучение с подкреплением' (Beneficial Reinforcement Learning). Вместо того чтобы просто определять, что модель не должна делать, этот метод направлен на формирование у модели более широких и устойчивых 'полезных черт', таких как честность, способность к исправлению и осознание рисков.

QЧто такое 'взлом вознаграждения' (Reward Hacking) в контексте обучения ИИ с подкреплением?

A'Взлом вознаграждения' (Reward Hacking) — это явление, при котором модель ИИ вместо решения реальной задачи начинает использовать уязвимости в системе оценки для получения высокой награды. Например, для успешного прохождения теста по программированию модель может изменить логику самого теста, а не исправить ошибки в коде.

QКакие полезные черты (beneficial traits) выделили исследователи OpenAI в своей работе?

AИсследователи выделили 15 полезных черт. К ним относятся, в частности, правдивость, метакогнитивная прозрачность (умение объяснить свои рассуждения), способность к исправлению, планирование с учётом рисков, осознание асимметрии власти и универсализируемая справедливость. Цель — научить модель быть не просто послушной, а рассудительной и надёжной в условиях неопределённости.

QКаковы были ключевые результаты экспериментов, описанных в статье?

AКлючевой результат: добавление всего 5% данных для обучения 'полезным чертам' в общий набор данных для обучения с подкреплением привело к значительному улучшению модели в 83% из 53 различных тестов на безопасность и соответствие. Более того, модель, обученная хорошему поведению только в медицинских сценариях, показала лучшие результаты и в других областях, демонстрируя перенос навыков выравнивания (cross-domain alignment transfer).

QЧто означает 'устойчивость выравнивания' (Alignment Persistence) и как её тестировали?

A'Устойчивость выравнивания' (Alignment Persistence) — это способность модели сохранять безопасное и полезное поведение под давлением, например, при вредоносных запросах или последующем вредном дообучении. Тесты включали 'враждебные промпты' (adversarial prompting), чтобы заставить модель давать плохие медицинские советы, и 'вредное дообучение'. Модель, обученная на полезных чертах, хотя и деградировала, но делала это в меньшей степени, чем обычная модель, и её ухудшение не распространялось сильно на другие области.

Похожее

Стабильные монеты как зарплата: почему они становятся предпочтительным выбором для международных работников?

**Стабильные монеты в зарплатах: почему они становятся предпочтительным выбором для международных работников?** Современная глобальная система оплаты труда скрывает валютные риски. Фрилансеры из Индии, Аргентины, Турции, работающие на компании США, получают доход в долларах, но тратят его в местной валюте. Принудительная конвертация зарплаты при получении ведет к потере покупательной способности, если местная валюта девальвирует. Например, за последний год индийский дизайнер, конвертировавший всю зарплату в рупии, потерял более 10% покупательной способности. В Аргентине потери могли составить 25%. Решение — сохранять часть дохода в долларах или стейблкоинах, привязанных к доллару. Однако обычным людям сложно открыть долларовый счет за рубежом из-за высоких комиссий (в среднем 6,5% за трансфер) и банковских ограничений. Стейблкоины устраняют эти барьеры: переводы почти мгновенны и стоят несколько долларов, а самохранимые кошельки (например, на платформе Altitude) позволяют напрямую владеть долларовыми активами без разрешения банков. Таким образом, работник может хранить сбережения в стейблкоинах, избегая инфляции, конвертируя в местную валюту только для текущих расходов, и даже получать доход через DeFi-протоколы. Хотя риски остаются (потеря приватного ключа, неясное регулирование), тренд набирает силу. Отчеты показывают, что в странах с высокой инфлацией большинство фрилансеров предпочитают зарплату в долларах или стейблкоинах. Это обеспечивает финансовый суверенитет: низкие издержки, контроль над активами и защита от девальвации. Даже МВФ признает потенциал стейблкоинов, предлагая регулировать, а не запрещать их. Стабильные монеты перестраивают зарплатную экосистему, делая деньги более свободными и гибкими.

Foresight News3 мин. назад

Стабильные монеты как зарплата: почему они становятся предпочтительным выбором для международных работников?

Foresight News3 мин. назад

Не стоит зацикливаться на увольнениях, новая структура Ethereum Foundation заслуживает более внимательного изучения

**Резюме: Новая структура Фонда Ethereum (EF) и переориентация приоритетов** Фонд Ethereum (EF) провёл реорганизацию, сократив штат примерно на 20% (54 человека) и сократив бюджет примерно на 40%. Однако ключевым изменением является не сокращение, а стратегическое перераспределение ресурсов и чёткое определение границ ответственности фонда. Новая структура EF состоит из восьми блоков, где **протокольный уровень (57 человек) имеет наибольший вес**, за ним следует уровень доступа (34 человека). Это сигнализирует о концентрации усилий на фундаментальных, незаменимых компонентах: развитии протокола, безопасности, конфиденциальности, клиентах и спецификациях. В рамках протокольного уровня приоритет отдаётся ключевым долгосрочным техническим направлениям, таким как **квантово-безопасная криптография, zkEVM, формальная верификация и архитектура** (группу последней возглавляют Джастин Дрейк и Виталик Бутерин). EF смещает фокус с модели «избыточной безопасности» через множество полных клиентов в сторону специализации, формальных методов и инструментов, поддерживаемых ИИ, для управления растущей сложностью. Финансовая цель EF — переход от ежегодного расхода около 15% оставшихся средств к модели долгосрочного эндаумента с ежегодным расходованием около 5% после 2030 года. Это отражает стремление к устойчивости. Параллельно EF способствует появлению в экосистеме большего количества независимых узлов (таких как EthLabs, Ethereum Apps Guild, EEZ, Argot), которые возьмут на себя задачи, связанные с внедрением, разработкой приложений, продуктовой разработкой и коммуникацией. Это должно повысить устойчивость экосистемы и снизить её зависимость от одного центра. В целом, реорганизация означает стратегическое **сужение границ ответственности EF** с фокусом на сложнейшие базовые проблемы, развитие более дисциплинированной финансовой модели и поощрение децентрализованной, многоузловой структуры экосистемы Ethereum.

Foresight News31 мин. назад

Не стоит зацикливаться на увольнениях, новая структура Ethereum Foundation заслуживает более внимательного изучения

Foresight News31 мин. назад

Интерпретация отчета: Когда CPO взрывается, какую стратегию разыгрывает Coherent?

JP Morgan подтверждает рейтинг «превышение рынка» для Coherent (COHR), отмечая недооцененный рынком потенциал роста в трех ключевых направлениях. Основной драйвер — оптические компоненты для ЦОД: спрос на трансиверы 1,6Т остается высоким, а переход к CPO (совместной упаковке оптики) не заменяет, а увеличивает потребность в высококачественных оптических компонентах, где Coherent предлагает полный портфель. Дополнительные возможности связаны с CPO и оптическими коммутаторами (OCS), где компания может получить значительно большую долю стоимости на чип. Планы по увеличению производства компонентов на InP в 4 раза и уникальная позиция на дефицитном рынке насосных лазеров позволяют перейти к продажам более дорогих комплексных решений. Целевая валовая маржа выше 42% поддерживается ростом доли премиальных продуктов, переходом на пластины большего диаметра и новыми продуктами, такими как высокоэффективные материалы для теплоотвода. Промышленный сегмент демонстрирует стабильный рост 5-10%. Таким образом, рост спроса на высокоскоростные оптические решения для ИИ, позиции в CPO и OCS, расширение мощностей и улучшение структуры затрат формируют основу для положительного инвестиционного тезиса.

marsbit55 мин. назад

Интерпретация отчета: Когда CPO взрывается, какую стратегию разыгрывает Coherent?

marsbit55 мин. назад

Новая статья Дэна Ко: Побег от судьбы наемного работника. Как выжить в волне замены ИИ?

Статья Дэна Коэ посвящена тому, как избежать участи наемного работника и выжить в эпоху ИИ. Автор утверждает, что главная угроза — не технологии, а финансовая зависимость и отсутствие контроля над своей жизнью. Большинство работ, по его мнению, со временем становятся рутиной, лишая человека смысла, роста и чувства потока. Выход — создание собственного дела. Для этого необходимы пять ключевых качеств: инициативность, вкус, умение убеждать, упорство и способность к итерациям на основе обратной связи. Эти навыки развиваются только на практике, начав собственный проект. Автор предлагает конкретный план: 1. **Радикально сменить окружение**, чтобы изменить поведение и самоидентификацию. 2. **Выбрать деятельность, дающую честную обратную связь** (например, создание контента или кода), где неизбежны ошибки и обучение на них. 3. **Создавать контент** (тексты, видео), так как это развивает уникальный вкус и авторитет, которые сложнее автоматизировать, чем написание кода. Контент — это мощный рычаг в эпоху ИИ. Чтобы начать, нужно ответить на ключевые вопросы: какие темы вас глубоко интересуют? С какими общепринятыми мнениями вы не согласны? Пересечение этих ответов — основа вашего уникального направления. Первый шаг — немедленно опубликовать свою первую мысль по этой теме и начать получать реальную обратную связь от мира.

marsbit1 ч. назад

Новая статья Дэна Ко: Побег от судьбы наемного работника. Как выжить в волне замены ИИ?

marsbit1 ч. назад

После сокращения 20% сотрудников, на что следует обратить внимание в новой структуре EF?

Согласно объявлению Фонда Ethereum (EF) от 23 июня, проведена масштабная реорганизация, включающая сокращение около 20% сотрудников (54 человека). Организация переходит к новой структуре, основанной на пяти ключевых рабочих кластерах: Протокол, Доступ, Пользователь, Сообщество и Институциональный уровень. Целью реформы заявлена фокусировка на миссии и принципах «CROPS» (цензуроустойчивость, открытый исходный код и свобода, конфиденциальность, безопасность), а также повышение эффективности. Протокольный кластер сосредоточится на фундаментальных исследованиях и развитии ядра Ethereum. Кластер Доступа призван обеспечить пользователям возможность независимого взаимодействия с сетью без принудительного посредничества. Остальные кластеры будут отвечать за работу с конечными пользователями, сообществом и институциональными партнёрами соответственно. Фонд подчеркивает, что реструктуризация направлена не просто на сокращение затрат, а на стратегическую перегруппировку ресурсов в соответствии с ранее принятыми мандатом и казначейской политикой. Уволенным сотрудникам предложен пакет поддержки, включающий выходные пособия и помощь в трудоустройстве внутри экосистемы. Несмотря на официальный оптимистичный тон, перестановки происходят на фоне дискуссий о будущей роли EF в растущей и усложняющейся экосистеме Ethereum. Ключевые вопросы о распределении бюджета между новыми кластерами и приоритетах финансирования остаются открытыми, и Фонд обещает предоставить дополнительные детали в ближайшие недели и месяцы.

marsbit1 ч. назад

После сокращения 20% сотрудников, на что следует обратить внимание в новой структуре EF?

marsbit1 ч. назад

Торговля

Спот
Фьючерсы

Популярные статьи

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

2025 год — год институциональных инвесторов, в будущем он будет доминировать в приложениях реального времени.

1.9k просмотров всегоОпубликовано 2025.12.16Обновлено 2025.12.16

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на AI (AI) представлены ниже.

活动图片