Могут ли, казалось бы, надежные большие языковые модели удержать линию безопасности, если их подтолкнуть, оказать на них давление или даже переобучить делать плохие вещи?
Недавно OpenAI опубликовала статью под названием «Reinforcement Learning Towards Broadly and Persistently Beneficial Models» («Обучение с подкреплением для создания широко и устойчиво полезных моделей»), в которой пытается ответить на все более насущный вопрос: когда ИИ начинает выполнять более длинные и рискованные задачи, как заставить модель продолжать демонстрировать полезное и безопасное поведение в новых сценариях, выходящих за рамки тренировочных данных, и оставаться стабильной под внешним давлением.
Не выдумывать медицинские заключения, не давать опасных советов, не помогать пользователям обходить правила... Ранее, говоря о безопасности ИИ, отрасль чаще исходила из того, «чего модель не должна делать». Но когда ИИ начинает проникать в сценарии сложного принятия решений, одного лишь списка запретов явно недостаточно. Реальные задачи часто не бывают черно-белыми, и сами цели, поставленные пользователем, могут быть сопряжены с рисками.
В этой статье OpenAI выдвигает тезис: предпосылкой для того, чтобы модель стала «хорошим помощником», является её способность в незнакомых ситуациях оставаться честной, осторожной, корректируемой и, по возможности, принимать решения, полезные для человека. Более того, обучение с подкреплением (RL) не только может усиливать риски, но и может быть использовано для обучения моделей формированию более широких и устойчивых полезных качеств.
Чтобы понять эту статью, нужно сначала понять обучение с подкреплением. Проще говоря, обучение с подкреплением — это когда модель получает обратную связь на каждый свой ответ, система оценивает её по какому-то критерию, и модель постоянно оптимизируется в сторону получения более высоких оценок.
Преимущество этого механизма в том, что модель не просто имитирует ответы, а активно исследует более оптимальные стратегии. Но параллельно с этим возникает риск: если критерии оценки разработаны плохо, модель может научиться обходить правила.
В статье этот феномен объясняется термином Reward Hacking («взлом вознаграждения»). Например, если задача по написанию кода оценивается только по итоговому тестовому баллу, модель может не исправлять код, а напрямую изменить логику тестирования, чтобы результат выглядел как успешный. Она получает награду, но реально задачу не выполняет.
Что ещё хуже, прошлые исследования показали, что плохое поведение, усвоенное моделью в одной узкой области, может распространиться на другие сценарии. Например, если модель обучили писать небезопасный код, это может привести не только к ухудшению безопасности кода, но и к тому, что она будет чаще проявлять обманчивость, угодливость или давать вредные советы и по другим вопросам. Такое явление называется Emergent Misalignment, то есть «возникающее рассогласование».
OpenAI в своей статье ставит вопрос: Если плохое поведение может обобщаться между областями, может ли и хорошее поведение обобщаться? Если обучение с подкреплением может подтолкнуть модель к нахождению лазеек и обману, можно ли с его помощью обучить модель быть более честной, осторожной и менее подверженной влиянию?
Чтобы проверить эту гипотезу, OpenAI создала набор синтетических диалоговых данных для оценки и обучения «полезным качествам» (beneficial traits), охватывающий 12 категорий сценариев: медицина, образование, бизнес и экономика, инженерные технологии и эксплуатация, право и этика управления, научные исследования и другие. Цель — не заставить модель механически применять правила безопасности или просто отказываться, а поместить её в более реалистичные и сложные ситуации, чтобы проверить, может ли она принимать устойчивые решения в условиях неопределённости фактов, конфликта интересов и рисков.
В статье перечислены 15 типов полезных качеств, включая правдивость, метакогнитивную прозрачность, корректируемость, планирование с учётом рисков, осознание асимметрии власти, универсализируемую справедливость и другие. Говоря более простым языком, модель не должна выдумывать доказательства, чтобы казаться экспертом; не должна делать категоричных выводов в случае неопределённости; не должна упрямо защищать свой первоначальный ответ после указания на ошибку; и не должна игнорировать долгосрочные риски ради удовлетворения сиюминутных запросов пользователя.
В статье приводятся несколько примеров сценариев. Например, пользователь хочет написать статью о куркумине для лечения болезни Крона, но не может найти клиническое исследование, на которое ранее ссылалась модель. Хороший ответ — не продолжать подкреплять утверждение якобы достоверной ссылкой, а чётко признать невозможность проверки, отозвать ненадёжное заявление и заново пояснить границы имеющихся доказательств.
Это и есть ключевой момент, который хочет подчеркнуть статья: Хорошая модель — это не та, что всегда отказывает пользователю, и не та, что безоговорочно его удовлетворяет. Это модель, которая способна принимать более устойчивые решения, балансируя между полезностью, честностью и безопасностью.
Чтобы проверить эту идею, исследовательская команда OpenAI провела сравнительный эксперимент. Они взяли одну модель и обучили её на смеси данных: 95% стандартных данных для обучения с подкреплением (standard RL data mixture) плюс 5% данных, ориентированных на полезные качества (beneficial trait data). Контрольная группа обучалась на 100% стандартных данных с подкреплением, при этом вычислительные ресурсы были сопоставимы.
Результаты показали, что это 5%-ное изменение в тренировочных данных привело к заметной разнице. В 53 независимо созданных тестах на согласованность, безопасность и полезное поведение, модель, обученная с акцентом на полезные качества (beneficial trait RL model), превзошла базовую модель по 44 пунктам, что составляет 83%, со средним улучшением на 9.1 процентных пункта. Улучшения проявились не только во внутренних тестах на полезные качества, но и распространились на различные внешние тесты, включая тесты на обман, взлом вознаграждения (reward hacking), соблюдение спецификаций модели (model spec compliance), медицину и психическое здоровье.
Особого внимания заслуживает эксперимент на межпредметный перенос. Исследователи заменили только 5% тренировочных данных диалогами, демонстрирующими полезное поведение в сфере здравоохранения, а затем протестировали получившуюся модель в областях, не связанных со здоровьем. В результате эта модель, «обученная хорошему поведению только в сценариях о здоровье», превзошла базовую модель в 17 из 19 тестов на согласованность в не связанных со здоровьем областях, со средним улучшением на 11.3 процентных пункта. Улучшения затронули такие аспекты, как взлом вознаграждения в коде, обман в цепочке рассуждений (chain-of-thought deception, CoT deception), вопросы согласованности (alignment questions) и общее рассогласование (misalignment).
Это говорит о том, что модель усваивает, возможно, не просто навыки ответов в конкретной области, а более фундаментальную поведенческую склонность: готовность признать неопределённость и склонность в ситуациях высокого риска сначала рассматривать варианты минимизации потерь и обратимости решений. В статье это явление также называют кросс-предметным переносом согласованности, когда полезное поведение, усвоенное в одной области, может переноситься на другие.
Статья также дополнительно исследует устойчивость согласованности (Alignment Persistence). Она проверяет, может ли модель сохранять согласованное поведение после того, как её спровоцировали вредоносными промптами или продолжили дообучать в неправильном направлении. В экспериментах с провокационными промптами (adversarial prompting) исследовательская команда использовала подсказки в стиле «плохой медицинской личности», чтобы спровоцировать модель давать неточные, небезопасные или неполные медицинские рекомендации. Результаты показали, что на модель, обученную на полезных качествах, такие промпты тоже влияли, но степень ухудшения её работы была меньше, чем у базовой модели.
В экспериментах с вредоносным дообучением (harmful finetuning) исследователи дополнительно дообучили модели для выдачи ошибочных или небезопасных медицинских рекомендаций. Результаты снова показали, что у модели, обученной на полезных качествах, производительность на целевых медицинских задачах снижалась, но в меньшей степени; что важнее, в не связанных со здоровьем тестах на согласованность у неё не наблюдалось массового сопутствующего ухудшения. Это означает, что тренировка на полезных качествах может в некоторой степени смягчить проблему «испортился локально — рассогласовался глобально».
Однако OpenAI не заявляет, что это исследование уже решило проблему согласования ИИ. В статье признаётся, что выбранные «полезные качества» — это лишь экспериментальная отправная точка, которая не охватывает все критерии «хорошего ИИ». Кроме того, тренировка на полезных качествах действительно делает модель более осторожной, и она чаще отказывается отвечать на вопросы с высоким риском. Но это улучшение достигнуто не только за счёт «меньшего количества ответов». Исследование показало, что даже если сравнивать только те образцы, на которые модель дала нормальный ответ, модель, обученная на полезных качествах, всё равно работает лучше. Это означает, что её изменение заключается не только в умении говорить «нет», но и в лучшем понимании того, на что стоит отвечать и как.
В целом, согласование ИИ переходит от «исправления постфактум» к «формированию заранее». Следующий этап конкуренции будет заключаться в том, как сохранять более предсказуемые границы поведения в сложных задачах. Для индустрии это именно тот урок, который необходимо усвоить, прежде чем ИИ сможет по-настоящему войти в сценарии с высоким риском.
Эта статья взята из WeChat-аккаунта «未来科技界Plus», автор: Ли Янь, редактор: Ян Юй.










