web analytics

Новые исследования показывают, что большие языковые модели демонстрируют предвзятость социальной идентичности

Policy

У людей есть врожденная потребность различать «нас» и «их». Десятилетия исследований социальной психологии показали, что люди проявляют предубеждения против аутгруппы и более склонны верить в истории, которые благоприятствуют их группе. Существуют ли эти врожденные предубеждения социальной идентичности также в больших языковых моделях? 


Новая исследовательская работа, написанная Тяньчэном Ху, Ярой Кириченко, Стивом Ратье, Найджелом Коллиером, Сандером ван дер Линденом и Джоном Рохсенбеком, опубликованная в Nature, исследует этот вопрос и обнаруживает, что «LLM проявляют паттерны предубеждений социальной идентичности, подобно людям».

Предыдущие исследования предвзятости ИИ показали, что LLM склонны «демонстрировать человеческие предвзятости в отношении определенных защищенных групп, таких как пол, этническая принадлежность или религиозная ориентация». Тем не менее, мало что известно о том, кодируют ли LLM более общую человеческую предвзятость, разделяющую социальный мир на отдельные категории «мы» и «они». Поскольку эти предвзятости могут быть закодированы в языке, используемом для обучения LLM, авторы утверждают, что LLM могут непреднамеренно усиливать эти предвзятости, которые имеют последствия «для важных социальных проблем, таких как межгрупповые конфликты и политическая поляризация».

Чтобы изучить, проявляют ли LLM человеческие предубеждения внутригруппового фаворитизма и аутгрупповой враждебности, исследователи давали подсказки для завершения предложений 77 различным LLM, включая базовые LLM, такие как GPT 3, а также LLM, настроенные на выполнение определенных инструкций, таких как GPT 4. Они сгенерировали 2000 предложений, начинающихся с «We are» (представляющих внутригрупповые подсказки) и «They are» (представляющих аутгрупповые подсказки), и позволили моделям завершить эти предложения. Полученные завершения анализировались на предмет положительного, отрицательного или нейтрального настроения. Исследователи стремились определить, склонны ли LLM связывать положительные настроения с внутригрупповыми и отрицательные настроения с аутгрупповыми. Как отмечают авторы, «если внутригрупповые предложения с большей вероятностью будут классифицированы как положительные (по сравнению с нейтральными или отрицательными), чем аутгрупповые предложения, мы интерпретируем это как свидетельство того, что модель демонстрирует внутригрупповую солидарность. Если предложения, относящиеся к аутгруппе, с большей вероятностью будут классифицироваться как отрицательные (по сравнению с нейтральными или положительными), чем предложения, относящиеся к аутгруппе, это говорит о том, что модель демонстрирует враждебность по отношению к аутгруппе».

Исследователи обнаружили, что 52 из 56 протестированных моделей продемонстрировали внутригрупповую солидарность, в то время как только 6 из этих моделей воздержались от демонстрации враждебности к аутгруппе. Дальнейший анализ показал, что внутригрупповые предложения (начинающиеся с «We are») на 93% чаще были положительными, в то время как внегрупповые предложения на 115% чаще были отрицательными. Исследование также сравнило распространенность предвзятости между ответами LLM и сгенерированными людьми и обнаружило, что «предвзятость внутригрупповой солидарности 44 LLM была статистически такой же, как и средний человеческий показатель, в то время как 42 модели имели статистически схожую предвзятость враждебности к аутгруппе».

LLM обучаются на человеческих данных, поэтому неудивительно, что человеческие предубеждения отражаются в результатах LLM. В отдельном исследовании исследователи изучали, как состав обучающих данных формирует распространенность предубеждений в результатах LLM. Поскольку обучение LLM требует значительных вычислительных ресурсов, исследователи решили провести тонкую настройку предварительно обученных LLM, таких как GPT-2, BLOOM и BLOOMZ, с использованием набора данных сообщений в Twitter от республиканцев и демократов США. После тонкой настройки модели продемонстрировали значительно более сильную внутригрупповую солидарность и внегрупповую враждебность по сравнению с их предварительно настроенными версиями. В частности, внутригрупповые предложения на 361% чаще оказывались положительными, а внегрупповые предложения на 550% чаще оказывались отрицательными — это значительно выше, чем 86% и 83% увеличения, наблюдаемые в тех же моделях до тонкой настройки. Интересно, что исследование показало, что, хотя после точной настройки все предложения с меньшей вероятностью будут положительными, предложения, относящиеся к аутгруппе, по-прежнему имеют сильную негативную окраску, что свидетельствует об асимметричном эффекте.

Чтобы оценить, могут ли изменения в обучающих данных потенциально смягчить предвзятость социальной идентичности, исследователи «тонко настраивали GPT-2 семь раз с полными данными, с 50% внутригрупповых положительных предложений (или аутгрупповых отрицательных, или и того, и другого) и с 0% внутригрупповых положительных предложений (или аутгрупповых отрицательных, или и того, и другого)». Они обнаружили, что полностью партийные данные увеличивают предвзятость социальной идентичности, особенно для республиканцев, в то время как 0% как внутригрупповых положительных, так и аутгрупповых отрицательных предложений значительно снижают предвзятость. Как отмечают авторы, «когда мы настраиваемся с 0% как внутригрупповых положительных, так и аутгрупповых отрицательных предложений, мы можем смягчить предвзятость до уровней, аналогичных или даже более низких, чем исходная предварительно обученная модель GPT-2, при этом внутригрупповая солидарность снижается почти до уровня паритета (без предвзятости)». Это показывает, что тонкая настройка LLM и/или минимизация предвзятого языка могут значительно улучшить нейтральность выходных данных LLM.

Исследователи также интересовались, переносится ли предвзятость, обнаруженная в контролируемых экспериментах, на реальный разговор. Они изучили WildChat и LMSYS-Chat-1M, два набора данных с открытым исходным кодом, содержащие реальные разговоры между людьми и LLM. Они обнаружили статистически значимую внутригрупповую солидарность и внегрупповую враждебность как в предложениях, сгенерированных пользователями, так и в предложениях, сгенерированных моделью. Предложения LLM, касающиеся внутригруппы, на 80% чаще были положительными, в то время как предложения, касающиеся внегруппы, на 57% чаще были отрицательными. Интересно, что пользователи WildChat и LMSYS-Chat-1M продемонстрировали сопоставимые предвзятости: предложения, касающиеся внутригруппы, на 86% чаще были положительными, а предложения, касающиеся внегруппы, на 158% чаще были отрицательными, что показывает, что люди и LLM существенно не различаются в проявлении предвзятости социальной идентичности.

Результаты показывают, что «языковые модели демонстрируют как внутригрупповую солидарность, так и враждебность к аутгруппе в одинаковой степени, отражая средние показатели человеческого уровня». Интересно, что ориентированные на потребителя LLM, такие как Chat GPT, которые были настроены с помощью человеческой обратной связи, демонстрируют меньшую враждебность к аутгруппе по сравнению с необученными моделями. Таким образом, человеческая обратная связь может помочь смягчить предвзятость социальной идентичности. Авторы также показывают, что при тонкой настройке на партийных данных LLM «становятся примерно в пять раз более враждебными по отношению к общей (неспецифической) аутгруппе».

В целом, эти результаты показывают, что системы ИИ не застрахованы от человеческих предубеждений, и в некоторой степени эти предубеждения неизбежны, учитывая, что LLM обучаются на человеческих данных. Однако, как показывает это исследование, «методы выравнивания, такие как тонкая настройка инструкций и настройка предпочтений, эффективны для снижения предубеждений социальной идентичности». Поскольку LLM принимаются по всему миру, будущие исследования по этой теме должны показать, можно ли обобщить эти результаты на неанглийские языки и другие географические контексты.

Похожие чтения

Источник:
https://www.techpolicy.press/new-research-finds-large-language-models-exhibit-social-identity-bias/

Rate article
( No ratings yet )

Leave a Reply