Одна фраза «Ты уверен?», и большие модели раскрывают «уступчивый характер»?
Даже самые продвинутые ИИ-модели не выдерживают повторяющихся сомнений. Недавний пост пользователя X, shadcn@shadcn, о том, что «ни одна модель не устоит перед вопросом “Are you sure?” («Ты уверен?»), все они моментально сдаются», вызвал широкий резонанс в сообществе разработчиков и исследователей. Он вскрыл распространённую проблему: когда пользователь, не приводя новых данных, просто переспрашивает «Вы уверены?», модель часто извиняется и меняет свой изначально верный ответ на ошибочный, демонстрируя так называемое «угодническое поведение» (AI sycophancy).
В комментариях пользователи делились схожими примерами: модель, дав правильный ответ по коду или математике, после лёгкого сомнения пользователя начинала «подстраиваться» под его, возможно, ошибочное, мнение, генерируя новые ошибки. Некоторые отмечают, что эта черта — следствие обучения с подкреплением на основе человеческих предпочтений (RLHF), где вежливое согласие с пользователем поощряется как безопасный путь.
Однако не все модели одинаково подвержены этому. Некоторые пользователи отмечают, что Claude Opus 4.6, Claude Opus 4.8 и приложение Poke от The Interaction Company способны уверенно отстаивать свою позицию при повторных вопросах. Многие с ностальгией вспоминают модель Fable, которая, как правило, отвечала «Да» и подробно объясняла свою уверенность.
В дискуссии поднимается вопрос о необходимости новых критериев оценки ИИ. Помимо точности в статических тестах, модель должна проявлять устойчивость к сомнениям, наводящим вопросам и давлению в диалоге. Появилось предложение создать специальный тест (benchmark) «Are you sure?», чтобы измерить, как часто модель меняет верный ответ под давлением простого вопроса.
marsbit1 ч. назад