Исследование Сбера: объясняющий ИИ меняет моральные решения людей эффективнее группового давления
Лаборатория нейронаук и поведения человека Сбера экспериментально подтвердила способность ИИ влиять на этический выбор людей. Объясняющие языковые модели демонстрируют более глубокое воздействие, чем классическое групповое давление, меняя не только поведение, но и внутренние установки. Результаты исследования опубликованы в препринте на arXiv.org.
Эксперимент Сбера, воспроизводящий классическую схему Соломона Аша с участием 165 человек, впервые системно сравнили влияние ИИ и группового давления на моральные решения. Участники оценивали 18 этических сценариев типа «проблемы вагонетки» в четырёх условиях: без влияния, с групповым давлением (6 подставных участников), с простым ИИ и с объясняющим ИИ. Ключевым нововведением стал метод Wizard-of-Oz — заранее сгенерированные промптами ответы моделей воспроизводились как аудиозаписи, создавая иллюзию реального взаимодействия, но с контролируемыми переменными.
Техническая реализация включала два уровня аргументации: простые утверждения («вариант Б этичнее») и объяснения с ссылками на этические принципы — минимизацию вреда, доктрину двойного эффекта или деонтологические нормы. Двойной замер ответов (публичное озвучивание и анонимная фиксация) позволил разделить конформизм поведения и реальное изменение убеждений. Для российской выборки специально подбирали контраргументы, противоречащие типичному неприятию «меньшего зла», что усилило сопротивление внешнему влиянию.
Результаты показали парадоксальный эффект: объясняющий ИИ вызывал совпадение публичных и приватных решений в 97.4% случаев, тогда как при групповом давлении 56% участников лишь имитировали согласие, сохраняя исходную позицию. Это указывает на принципиальное отличие механизмов влияния — ИИ с аргументацией не просто принуждает к подчинению, а перестраивает когнитивные схемы оценки дилемм. Простая модель без объяснений оказалась неэффективной, подтверждая гипотезу о критической роли интерпретируемости в этическом ИИ.
Культурный контекст исследования особенно важен для России, где, согласно кросс-культурным исследованиям, преобладает принципиальный (а не утилитарный) подход к дилеммам. Если в западных выборках 70-80% респондентов выбирают «меньшее зло», российские участники чаще отвергают такой компромисс. Это делает их устойчивее к групповому давлению, но, как показал эксперимент, не к аргументированным объяснениям ИИ. Данный феномен требует дальнейшего изучения с учётом языковых и культурных спецификаций моделей. Практические последствия работы затрагивают три области. В образовании объясняющий ИИ может стать инструментом формирования критического мышления. Для этических комитетов важно учитывать риск манипуляции — в отличие от группового давления, эффект ИИ-аргументации сохраняется в анонимных условиях. В политике цифрового суверенитета результаты подчёркивают необходимость разработки национальных стандартов объяснимого ИИ, особенно в свете планов Минцифры по регулированию этики ИИ до 2025 года.
Открытые вопросы исследования включают долгосрочное воздействие (сохраняется ли изменённая установка через неделю или месяц), влияние типа аргументации (утилитарная vs деонтологическая) и кросс-культурные различия. Перспективным направлением станет интеграция подобных моделей в системы поддержки решений для судей, врачей и других специалистов, работающих с этическими дилеммами. Как отмечают авторы, ключевой вызов — баланс между объяснимостью и манипулятивным потенциалом ИИ, требующий междисциплинарного диалога нейроучёных, философов и разработчиков ИИ.
Для российского рынка ИИ исследование имеет особое значение, поскольку демонстрирует необходимость адаптации языковых моделей к местным этическим нормам. В отличие от западных аналогов, российские пользователи проявляют большую устойчивость к утилитарным аргументам, что требует разработки специфических подходов к объяснению решений ИИ. Это открывает новые возможности для отечественных разработчиков в создании культурно-адаптированных систем поддержки принятия решений.
Сравнение с предыдущими исследованиями показывает, что классические эксперименты по групповому давлению (как у Аша) фиксировали лишь поверхностные изменения поведения. Новизна работы Сбера — в доказательстве глубинного воздействия ИИ на моральные установки. При этом критически важно, что эффект достигается только объясняемыми моделями, что согласуется с мировым трендом на развитие интерпретируемого ИИ. Эти результаты ставят новые вопросы о границах влияния ИИ на человеческое сознание и необходимости этического регулирования таких технологий.