web analytics

Оценка использования больших языковых моделей в качестве синтетических социальных агентов в исследованиях социальных наук

Sztuczna Inteligencja (ИИ/AI)

В социальных науках большие языковые модели (БЛМ) все чаще используются в качестве синтетических агентов в различных приложениях, от расширения возможностей опросов до обеспечения работы многоагентных симуляций. Поскольку сильное прогнозирование с учетом условий, логарифмические вероятности токенов и повторная выборка имитируют байесовские рабочие процессы, их результаты могут быть неверно интерпретированы как апостериорные данные из согласованной модели. Однако прогнозирование не равнозначно вероятностному подходу, а точные точки не подразумевают калиброванную неопределенность. В данной статье изложены меры предосторожности, которые следует принимать при интерпретации результатов БЛМ, и предложен прагматический подход к социальным наукам, в котором БЛМ используются в качестве высокопроизводительных средств сопоставления шаблонов для квазипрогностической интерполяции при явно заданных условиях области применения, а не в качестве замены вероятностного вывода. Вводятся практические меры предосторожности, такие как независимые выборки, предварительно зарегистрированные базовые линии, валидация с учетом надежности и калибровка подгрупп, чтобы исследователи могли заниматься полезным прототипированием и прогнозированием, избегая при этом ошибок категоризации.

1Введение

Появление больших языковых моделей (LLM) и их потенциал выступать в роли homo silicus вызвало значительный интерес в различных социальных науках .50Исследователи начали использовать эти модели для моделирования человеческих популяций, поведения и социальных взаимодействий .36,39,49,55,56Растущая популярность этого направления предполагает, что мы , возможно, находимся на пороге смены парадигмы в социальных исследованиях, но она также поднимает насущные вопросы о целесообразности такого подхода.

Критическая эпистемологическая ошибка может заключаться в том, как мы интерпретируем результаты LLM. Необходимо признать, что рассматривать ответы LLM как случайные выборки из четко определенного распределения генеральной совокупности может быть крайне ошибочно. LLM действительно генерируют текст вероятностным образом, выбирая каждое слово на основе изученных вероятностных распределений, но они не являются механизмами вероятностного вывода в строгом байесовском смысле. В ортодоксальных методах прогнозирования неопределенность количественно оценивается и распространяется через модели, как в байесовских подходах, где априорные распределения обновляются в апостериорные при наличии новых данных .48,57В отличие от этого , LLM не поддерживает и не обновляет апостериорное распределение убеждений при получении новых подсказок; у него нет явной модели неопределенности или дисперсии в моделируемых явлениях. Его «вероятностный» результат на самом деле является следствием предварительно обученных статических весов и алгоритмов выборки, таких как температура или топ- k / p , а не механизмом обновления, который включает новые данные. Когда LLM получает указание действовать, например, как 30-летний фермер со Среднего Запада или образованный городской избиратель, он не использует фактическое демографическое распределение населения. Скорее, LLM действует как сложная система сопоставления образов, которая имитирует то, что такой человек мог бы сказать, основываясь на следах в обучающих данных LLM. Если LLM на самом деле не рассуждают о распределении убеждений людей так, как это делают социологи, то что именно выводится, когда их результаты рассматриваются как выборки из популяции?

В данной статье рассматриваются два центральных вопроса, вытекающих из этого несоответствия: каковы статистические ограничения ценности использования LLM в качестве синтетических агентов в социальных исследованиях и каково будущее агентов LLM в этой области?

2LLM как прогностические синтетические агенты

В недавних работах LLM-as-respondent рассматривается как недорогой заменитель реальной выборки людей в опросах и лабораторных исследованиях.36] смоделировать демографические субпопуляции , используя в качестве основы для GPT-3 подробную предысторию, и сравнить полученные с помощью LLM кремниевые выборки с распределением данных опросов населения.34[ Предлагаются эксперименты, в которых модели генерируют множество реакций, подобных реакциям участников, на классические результаты исследований в экономике и психологии, документируя как воспроизведение результатов, так и систематические искажения. ]56Авторы представляют систему автоматизации опросов, которая использует LLM для разработки, проведения и анализа опросов. Они подтверждают эффективность подхода на основе данных, полученных от людей, показывая, что ответы, сгенерированные с помощью LLM, точно воспроизводят закономерности, наблюдаемые в Общем социальном опросе США (GSS).

В других исследованиях модели LLM оцениваются как инструменты прогнозирования социально-поведенческих результатов .49] показывают, что GPT-4 может предсказывать направление и относительную силу эффектов лечения в широком диапазоне экспериментов в области социальных наук, включая неопубликованные исследования, и во многих случаях делает это более надежно, чем эксперты-люди .44Аналогичным образом исследователи обнаружили, что модели LLM могут предсказывать результаты экономических полевых экспериментов, но они также выявляют важные «слепые пятна», особенно в областях, затрагивающих такие чувствительные социальные категории, как пол, этническая принадлежность или нормы .65] Создаются созданные с помощью ИИ образы персонажей для моделирования экспериментов по изучению влияния СМИ, воспроизводится большинство основных результатов и демонстрируются потенциал и ограничения экспериментальной репликации на основе LLM.

Кроме того, в агентно-ориентированных исследованиях LLM-модели встраиваются в многоагентные симуляции для изучения динамики взаимодействия, переходя от LLM-модели как респондента к LLM-модели как агенту .55] показывают, что агенты, обладающие расширенными возможностями памяти, планирования и рефлексии, воспроизводят правдоподобное социальное поведение на микро- и мезоуровне в экспериментальных средах, которые, по мнению некоторых, могут служить полигонами для выдвижения гипотез или прототипирования вмешательств. В то же время, амбициозные утверждения о том, что базовые модели могут «предсказывать и моделировать поведение человека в любом эксперименте, выражаемом языком» [38Эти исследования уже вызвали резкую методологическую критику, что подчеркивает активную дискуссию о том, что именно прогнозируется.

3Иллюзия вероятностного подхода в программах магистратуры по праву

LLM-модели генерируют ответы путем авторегрессионного прогнозирования токенов на основе изученных закономерностей распределения из больших наборов данных, обусловленных пользовательскими запросами .42] . В моделях с линейным моделированием используются различные методы выборки, такие как масштабирование температуры, top -k и top- p , которые вносят изменчивость и обеспечивают гибкость в выходных данных модели .41,60Изменение этих метрик приводит к изменению выходного текста, даже при сохранении неизменности подсказок. Полученный текст отражает условную правдоподобность в рамках модели, а не основан на четко определенном апостериорном распределении по популяции людей.

В определенных контролируемых условиях LLM-ы могут научиться имитировать оптимальный байесовский предиктор для данной задачи .54Однако в этих условиях также существует «феномен забывания», когда модель сначала учится обобщать данные как байесовская, но затем возвращается к запоминанию своих исходных данных по мере продолжения обучения. Это говорит о том, что, хотя трансформеры могут научиться быть байесовскими предикторами, эта способность зависит от среды обучения, а не является неотъемлемым свойством модели.

Основной принцип статистического моделирования с независимыми и одинаково распределенными (iid) или, в более общем смысле, взаимозаменяемыми данными заключается в том, что порядок представления наблюдений не должен влиять на выводы. Данные социальных наук, такие как ответы на опросы или результаты экспериментов, обычно рассматриваются как взаимозаменяемые. Однако повторные запросы к моделям LLM могут не пройти этот тест на инвариантность.

[46Они связывают эту неудачу с нарушением ключевого условия байесовского обучения, которое они называют мартингальным свойством распределения прогнозов (эквивалентно, инвариантностью прогноза/CID). Для последовательности случайных переменныхЗяСвойство мартингала гласит, что математическое ожидание следующего значения, с учетом всех предыдущих значений, равно математическому ожиданию значения, находящегося гораздо дальше в будущем, при той же истории. Для моделипМ, любойн, любойк1и всез,

пМ(Зн+1=з|З1:н)=пМ(Зн+к=з|З1:н). (1)

Это свойство гарантирует, что прогностическое распределение модели в среднем инвариантно относительно импутации пропущенных выборок из собственного распределения. При нарушении этого свойства предсказания модели становятся несогласованными и неоднозначными. Если вероятностные убеждения агента согласованы, то их можно представить в виде байесовских вероятностей. Другими словами, модель или агент являются байесовскими тогда и только тогда, когда их вероятностные назначения согласованы и взаимозаменяемы/условно одинаково распределены (CID) [45Теоретически, линейная модель прогнозирования ( LLM ) могла бы быть байесовской, если бы было доказано, что она выдает согласованные прогнозы, но на данный момент нет убедительных доказательств того, что это происходит на практике. LLM может выдавать разные предельные прогнозы для 100-го участника в смоделированном исследовании в зависимости от того, был ли он сначала импутирован для 51-го или 99-го участника. Такая зависимость от порядка подрывает доверие к данным, полученным с помощью LLM, в сценариях, где порядок наблюдений, как известно, не имеет значения.

Нарушение свойства мартингала приводит к явлению, которое [46Это явление называется «интроспективной галлюцинацией». Оно возникает, когда модель систематически изменяет свои собственные прогнозы в среднем, задавая себе вопросы и генерируя новые точки данных для добавления к своему контексту. Это прямое следствие того, что прогнозы модели смещаются, а не сходятся, как это было бы в случае истинного байесовского апостериорного распределения. В исследовании были представлены конкретные диагностические методы для проверки этого явления. Например, тестовая статистика.Т1,гИзмеряет среднюю разницу между прогнозами на разных будущих временных шагах. Для системы, удовлетворяющей свойству мартингала, эта статистика должна быть центрирована вокруг нуля. Их эксперименты показали устойчивый ненулевой дрейф для таких моделей, как GPT-4, Llama-2 и Mistral-7B, особенно на более длинных последовательностях данных, что свидетельствует о таком небайесовском поведении .46] .

Это открытие имеет решающее значение для социальных ученых, надеющихся использовать синтетических агентов в своих исследованиях. Если модель LLM используется для моделирования популяции путем генерации одного агента за раз и добавления их в контекст, ее прогностическое распределение должно обновляться по мере введения большего количества агентов, поэтому последующие выборки могут законно отличаться от предыдущих. Однако не должно происходить того, чтобы прогнозы зависели от произвольного порядка генерации этих агентов. Эта нечувствительность к порядку является необходимым условием для однозначного прогнозирования при взаимозаменяемых данных .46В когерентной модели последовательность импутаций должна быть CID: перед наблюдением любого нового образца предсказание для 200-го агента должно быть таким же, как и для 20-го, и после того, как новый образец импутирован, распределение последовательно обновляется с учетом расширенной истории. Это требование является естественным обобщением взаимозаменяемости де Финетти [45] и была формализована в литературе по теории вероятностей, посвященной прогностическим характеристикам байесовских моделей [37,47Напротив , если предсказания модели LLM зависят от порядка импутации, а не только от информации, содержащейся в прошлых выборках, это подрывает достоверность смоделированных данных и создает риск внесения серьезных искажений в результаты исследований.

4Почему LLM, кажется, «предсказывают»?

Повышение реализма и улучшение прогностических возможностей LLM во многом обусловлены масштабом и архитектурой. По своей сути, LLM — это непревзойденные средства сопоставления образов. Они обучаются на огромных массивах данных, приближающихся по масштабу к интернету, который представляет собой значительную часть записанного человеческого языка и знаний. Как явные, так и скрытые в этих обучающих данных социальные модели, эвристики, предвзятости, установки и поведенческие тенденции, которые лежат в основе исследований в области социальных наук. Когда LLM просят предсказать поведение или отношение, он не выполняет статистический вывод. Вместо этого он использует усвоенные модели естественного языка. Степень, в которой естественный язык является точным представлением реальной жизни (например, [63) по-прежнему является предметом философских дебатов.

Однако в экспериментах линейные модели продемонстрировали способность «предсказывать» поведение человека .34,36,55,56] при различных стратегиях подсказок, управления и настройки. В каждом случае успех LLM зависит от его способности интерполировать данные из огромного массива уже имеющихся данных. В этих случаях, а потенциально и в других широко обсуждаемых и хорошо задокументированных социальных явлениях, сопоставление образов может оказаться достаточно эффективным для получения результатов, имитирующих реальность.

Производительность LLM подчиняется законам масштабирования, которые показывают, что по мере предсказуемого увеличения количества параметров модели и размера обучающего набора данных производительность на различных тестовых наборах данных улучшается .52] . Масштаб порождает возникающие возможности — способности, отсутствующие в меньших моделях, но спонтанно появляющиеся в больших моделях .62] . Более крупные модели, следовательно, должны позволять более точно моделировать человеческий диалог, что, в свою очередь, приведет к повышению «прогностической» способности. Среди этих возникающих явлений существует даже вероятностная мимикрия. Это привело к появлению конкурирующих объяснений того, как работает такая мимикрия. Ведущим теоретическим объяснением этого является неявный байесовский вывод [64] , согласно которому модель учится выводить высокоуровневую «скрытую концепцию» из примеров в задании. Поведение модели затем можно описать как байесовское обновление, когда она обуславливает свой результат этой выведенной концепцией. Альтернативное, более механистическое объяснение можно найти в [35] , которые подчеркивают, что эффективность трансформеров в контекстном обучении обусловлена ​​их способностью неявно имитировать вероятностные методы, а не явно выполнять байесовский вывод.

Помимо базовых моделей, большинство исследователей, использующих линейные модели обучения (LLM) в социальных науках, применяют дополнительные методы для точной настройки или управления результатами работы модели. Известно, что готовые LLM-модели выдают заведомо предвзятые результаты, основанные на предвзятых обучающих данных .58Методы, такие как тонкая настройка и обучение с подкреплением на основе обратной связи от человека (RLHF), уточняют выходные данные модели, оптимизируя их в соответствии с поведением человека в конкретных контекстах, например, при выполнении когнитивных задач или в поведенческих играх .38Это делает модели более эффективными собеседниками и более способными следовать инструкциям, но это процесс поведенческой адаптации, а не статистическая коррекция. Это различие поднимает фундаментальный вопрос для социальных наук: когда мы настраиваем модель для лучшего выполнения конкретной человеческой задачи, например, воспроизведения результатов опроса, создаем ли мы более обобщаемую модель человеческого поведения или просто более специализированную имитацию?

Этот вопрос ставит перед нами классическое академическое противоречие между объяснением и прогнозированием. Тонкая настройка модели LLM на конкретном наборе данных, например, в поведенческих экономических играх, действительно может сделать её очень эффективной в прогнозировании результатов в этом узком контексте. Однако эта оптимизация не гарантирует, что модель разработала более глубокое и обобщаемое понимание человеческих мотиваций, таких как справедливость, взаимность или стратегическое мышление. Вместо этого модель может переобучаться на статистических закономерностях обучающих данных, подобно регрессионной модели со слишком большим количеством параметров. Это создает хрупкий агент, который превосходно справляется со своей задачей, но может потерпеть сокрушительное поражение при столкновении с новым сценарием. В этом случае социологи могут усомниться в способности этого направления исследований дать представление о реальном и сложном человеческом поведении на более общем уровне анализа.

[46[Авторы ] предоставляют убедительные эмпирические доказательства этого компромисса. Они обнаружили, что модели с линейной архитектурой, прошедшие обширную настройку и согласование инструкций (например, GPT-3.5 и GPT-4), в целом показали худшие результаты в тестах на статистическую согласованность, чем более старые, менее настроенные базовые модели. Это говорит о том, что сам процесс улучшения способности модели к диалогу и выполнению инструкций может ухудшить ее соответствие фундаментальным байесовским принципам. Это поднимает провокационный методологический вопрос: является ли тонкая настройка модели с линейной архитектурой для воспроизведения набора данных формой социальной науки? Или это упражнение по созданию квазипрогностической системы поиска? Традиционная социальная наука стремится строить и проверять теории, которые могут объяснить поведение в различных контекстах. Если наши синтетические агенты настроены до такой степени, что они могут воспроизводить только те данные, на которых они обучались, мы рискуем попасть в замкнутый круг, который не открывает новых знаний и не предлагает обобщаемой теории.

В этом кроется предостережение для всей области исследований: единый, универсальный Homo silicus, скорее всего, окажется миражем. Агент, идеально настроенный на роль респондента в политических опросах, может оказаться плохой моделью для изучения когнитивных искажений, и оба варианта могут быть непригодны для исследования долгосрочной социальной динамики. Будущее моделирования на основе синтетических агентов потребует не универсального инструмента, а множества микроуровневых, предметно-ориентированных подходов, где исследователи будут открыто говорить об оптимизациях, которые они внесли, и критически оценивать возможность обобщения, которой они, возможно, пожертвовали.

5Создание надежных синтетических агентов

Учитывая вышеупомянутые предостережения, следует разработать некоторые практические рекомендации по применению синтетических агентов на основе LLM с научной строгостью. Во-первых, как уже подчеркивалось ранее, исследователи должны рассматривать агентов на основе LLM как высокоэффективные предикторы реакции человека в заданных условиях, а не как источники калиброванной вероятностной уверенности. Хорошим примером этого является то, как [36] операционализировать «алгоритмическую точность» — определяемую как степень, в которой обусловленная модель воспроизводит условную структуру ассоциаций между установками, демографическими характеристиками и поведением, наблюдаемыми в сопоставленных группах людей, а не просто сопоставляет маргинальные данные или поверхностный текст, — и проверять эти ассоциации на основе реальных опросов, генерируя одного виртуального субъекта для каждой предыстории. Это означает, что запросы от их агентов действуют скорее как локальная интерполяция, а не как апостериорные утверждения. Калибровка и валидность подгрупп должны активно измеряться и регистрироваться, а не просто предполагаться. Алгоритмическая точность является условной и демографически структурированной, поэтому точность может варьироваться в разных группах .36Исследователям следует сообщать о разбросе результатов синтезированных ответов и их точности относительно базовых показателей, полученных людьми, для каждой значимой подгруппы, а не только об общих средних значениях .

Эмпирически, [34] показывают, что их эксперименты Тьюринга воспроизводят известные эффекты, но повторные выборки демонстрируют «искажение сверхточности», или, точнее, коллапс дисперсии сверхточности. Ответы модели группируются слишком плотно и постоянно ближе к заданной истине, чем были бы реальные люди, поэтому отсутствует изменчивость, ожидаемая от человеческой популяции .40Также были отмечены неестественно низкая дисперсия и несовпадающие коэффициенты регрессии в данных опроса, сгенерированных с помощью LLM. Подобные отклонения от человеческой дисперсии следует отмечать в будущих исследованиях. Поскольку разброс искусственно мал, любые выводы в стиле апостериорного распределения на основе повторных выборок являются вводяще точными. Всякий раз, когда кремниевая выборка LLM слишком уверена или слишком однородна по сравнению с людьми, исследователям следует уменьшить вес этих синтетических данных или воздержаться от использования их в качестве надежного заменителя в статистическом анализе.

Любые выводы, сделанные на основе данных, смоделированных с помощью LLM, должны учитывать сдвиг распределения и то, что это результаты модели, а не выборки из человеческой популяции. Поскольку модели могут систематически отклоняться от мнений людей, наращивание синтетической выборки из самой себя может привести к слишком узким интервалам. Лучший подход — построить доверительные интервалы, отражающие несоответствие, и адаптивно ограничить эффективный размер симуляции .51] предоставляют структуру, которая выбирает размер на основе данных.к^и показывает, что увеличение k до очень больших значений может ухудшить охват, в то время как выбранныйк^обеспечивает практически номинальное покрытие. Это показывает, что соответствие данным, полученным от людей, должно определять узость интервала. Подобные методы не зависят от модели и используют синтетические данные для дополнения данных, полученных от людей, а не для их замены. Дополнение данных само по себе является многообещающим направлением. Например, синтетические агенты потенциально могут использоваться для предварительного тестирования инструментов, выявления проблем калибровки подгрупп, определения режимов отказов до начала полевых испытаний или для управления распределением выборки и анализом чувствительности. При этом можно собирать немногочисленные данные, полученные от людей, там, где они наиболее информативны. Это может повысить мощность и снизить затраты на этапе планирования исследования, сохраняя при этом данные, полученные от людей, в качестве стандарта для выводов.

Практический способ начать решение обсуждаемых статистических несоответствий — это создание агентов на основе данных об отдельных людях, а не на основе общих портретов. Например, [56] создают агентов, привязанных к интервью, и демонстрируют высокую степень согласованности с ответами респондентов на вопросы GSS и несколькими предварительно зарегистрированными повторами, приближаясь к надежности повторного тестирования у людей; проведенные исследования показывают, что преимущества обусловлены привязкой, а не своего рода стилистическим подражанием. Эти решения уточняют область применения и предоставляют естественные цели для проверки, однако [56Также отмечается неоднородность, обусловленная методом привязки и задачей, что предостерегает от обобщения за пределы исследуемой области. Кроме того, авторы обнаружили, что агенты, использующие интервью, уменьшают расхождения в предвзятости между политическими, расовыми и гендерными группами по сравнению с более простыми вопросами, касающимися только демографических данных, что указывает на улучшенную калибровку, хотя некоторые прогнозы для подгрупп все еще могут отклоняться от человеческой дисперсии. Точность алгоритма не является принципом «всё или ничего»; её следует количественно оценивать для каждой подгруппы, при этом любое превышение или недостаточное рассеивание и неточность калибровки относительно человеческих эталонов должны быть прозрачно зафиксированы.

Аналогичная логика может быть применена как к привязке к человеку, так и к привязке к задаче в больших масштабах .38Модель CENTAUR от ] дорабатывается на больших, поведенческих наборах данных, полученных в ходе отдельных испытаний, с явно заданными структурами и сообщает о генерализации за пределами предметной области. Эта прозрачность в определении задачи и строгое тестирование за пределами предметной области демонстрируют прогностическую структуру для агентов LLM. В то же время, даже такая мощная модель, как CENTAUR, остается ограниченной своей областью обучения, поэтому высокие результаты в экспериментальных задачах не позволяют делать широкие апостериорные выводы о человеческой природе в целом. Успех в точно настроенных задачах следует интерпретировать узко как высокоэффективный предиктор для этих контекстов, а не как универсальную модель для homo silicus . По мере совершенствования вычислительных ресурсов и инструментов, индивидуальная доработка может стать возможной для участников, давших согласие, но реальным узким местом являются продольные высококачественные персональные данные. Даже в этом случае контекст и обусловливание имеют ключевое значение, поскольку индивидуальная настройка в основном уменьшает межличностный шум и переносит неопределенность на внутриличностное состояние и формулировку задачи.

Помимо контекстно-зависимой тонкой настройки, протоколы выборки должны избегать самообусловливания в процессе выполнения запроса и защищать от влияния порядка предъявления запроса .36Шаблон «один субъект на одну предысторию » уже является примером такой независимости, в то время как [56Конвейеры обработки данных запрашивают данные у закрепленных агентов, не используя повторно ранее полученные синтетические результаты. В панельных оценках, где LLM-ы или люди оценивают ответы модели, простая смена места слева направо или порядка в списке может изменить предпочтительный ответ, даже если содержание идентично, поэтому фиксированный порядок может создать видимость сходимости, которая на самом деле является эффектом положения .43,59] . Исследования в стиле совета количественно оценивают этот риск, сообщая доверительные интервалы бутстрапа для рейтингов и показателей побед, которые проверяют, сохраняется ли очевидный победитель при повторной выборке голосов или элементов .53] . В сочетании с данными о предвзятости, связанной с позицией, длиной и собственными предпочтениями в ситуациях, когда LLM выступает в роли судьи, это обосновывает необходимость конкретных мер защиты в конвейерах обработки данных агентами .61,66] . Отсюда следует, что если агенты LLM рассматриваются как предикторы при явном обусловливании, а не как калиброванные апостериорные вероятности, то необходимо также применять проверки независимости, рандомизированный порядок элементов и фиксированные настройки декодирования, чтобы любое кажущееся совпадение отражало прогностический сигнал модели.

Стресс-тестирование синтетических агентов должно быть рутинной процедурой и открыто публиковаться, а исследователи должны учитывать пределы экстраполяции агентов. Агент LLM, хорошо справляющийся с задачами в рамках своей предметной области, такими как сопоставление известных результатов опросов, может показать худшие результаты при столкновении с другими новыми стимулами или даже с той же задачей, сформулированной по-другому .56Агенты , созданные на основе интервью, продемонстрировали высокую точность воспроизведения результатов GSS, однако более широкие оценки показывают, что такие агенты могут давать сбои за пределами узкой области, для которой они были настроены. Например, [65[ Провели одно из крупнейших на сегодняшний день исследований по воспроизведению результатов в разных задачах, смоделировав более 19 000 участников с использованием ИИ на основе модели Клода 3.5 по 133 поведенческим эффектам. Они обнаружили, что модели успешно воспроизвели около 76% известных основных эффектов, но только 27% эффектов взаимодействия, что указывает на резкое снижение надежности для более сложных или выходящих за пределы распределения паттернов. Аналогично, [44] Протестировали GPT-4/Claude на 319 реальных полевых экспериментах и ​​отметили высокую общую точность, но систематические сбои в исследованиях, включающих вмешательства, учитывающие гендерные, культурные или идентичностные особенности. Эти результаты подчеркивают, что надежность в подгруппах или контекстах варьируется в зависимости от задачи и стимула .34В рамках эксперимента Тьюринга этот вопрос исследуется путем введения новых стимулов наряду с классическими экспериментами. Хотя агенты на основе GPT точно воспроизвели известные результаты, такие как эффект подчинения Милграма, неожиданный поворот, подобный задаче оценки мудрости толпы, выявил вышеупомянутое искажение сверхточности, показав еще одно явное отклонение от ожидаемого поведения человека. Эти результаты постоянно вызывают одну из самых фундаментальных критических замечаний в отношении использования LLM в качестве социальных агентов — не воспроизводят ли LLM материал, усвоенный на этапе предварительного обучения, настройки или подсказок, вместо того, чтобы моделировать людей? Имеет ли это вообще значение? Это имеет значение, когда речь идет об обобщении, надежности подгрупп, причинно-следственной интерпретации или апостериорных представлениях о людях. Система, которая запоминает основные эффекты, все еще может давать сбои в таких вещах, как экстраполированные взаимодействия в измененных контекстах или в вмешательствах, чувствительных к идентичности, и она может давать ложно точные интервалы вокруг смещенного среднего значения. Это имеет меньшее значение, когда заявленная цель узкая, внутридоменная, прогнозирование при явном условии, что пересечение с прошлым материалом допустимо, если оно раскрыто, и если проверки за пределами домена пройдены.

Исследователи могут рассматривать это как проблему тестирования и отчетности. Стресс-тесты, такие как изменение формулировки подсказки, контекста или экспериментальной установки, должны стать стандартной частью проверки. В публикациях можно было бы включить сетку стресс-тестов, выходящих за пределы распределения, и сообщить, где нарушается предсказание имитации. Кроме того, исследованиям пошло бы на пользу, если бы авторы составили краткий сборник неудачных случаев, описывающих ситуации, когда синтетические агенты выдают неправдоподобные или предвзятые результаты под нагрузкой. Раскрывая эти режимы отказов, исследователи четко определяют границы достоверности своих агентов LLM. Надежное стресс-тестирование предотвращает чрезмерную уверенность в синтетических данных и помогает читателям точно понимать, когда и где можно доверять симуляциям, управляемым LLM, а когда нет.

Наконец, строгая воспроизводимость и полное раскрытие информации не являются необязательными при использовании данных синтетических агентов. Для повышения доверия исследователи должны раскрыть все ключевые детали своего конвейера моделирования LLM, включая шаблоны подсказок и сценарии персон/интервью, идентификаторы и версии моделей, параметры декодирования, такие как температура и максимальное количество токенов, а также любые случайные начальные значения, чтобы другие могли повторно выбрать и пересчитать все сообщаемые величины. equally важно продемонстрировать, что результаты не зависят от произвольных решений, таких как порядок вопросов или конкретный случайный выбор. Например, проверки независимости и инвариантности порядка, такие как перемешивание порядка подсказок и повторная генерация с новыми начальными значениями, могут выявить скрытые артефакты, такие как смещения положения или эффекты самосогласованности. Если синтетические данные из нескольких запусков или экземпляров модели агрегируются — что становится все более распространенной практикой для стабилизации результатов — авторы должны сообщить о любых наблюдаемых смещениях и объяснить, как ансамблирование повлияло на стабильность. Всякий раз, когда совокупность результатов LLM используется в качестве своего рода совета для повышения надежности, необходимо документировать вариативность результатов среди членов этого совета, а также степень, в которой усреднение или голосование изменяют результаты.

6Заключение

Данный анализ не призван показать, что у моделей с линейными моделями поведения (LLM) как синтетических агентов ограниченное будущее в социальных науках. Напротив, их потенциал огромен. По мере того, как масштабирование продолжает улучшать их возможности, их потенциал в качестве краткосрочных предикторов социальных явлений становится все более очевидным. Эффективно изучая сложные закономерности в обширных массивах данных о человеческом самовыражении, эти модели могут предлагать сложные квазиинтерполяции общественных взглядов и поведения. Более того, надежные синтетические агенты представляют собой захватывающую область исследований, которые либо этически нецелесообразны, либо практически невозможно провести в реальном мире, что может позволить исследователям изучать деликатные социальные динамики или проверять контрфактические сценарии. Однако этот потенциал может быть реализован только в том случае, если ограничения будут четко признаны. Доказательства того, что эти модели не являются принципиальными байесовскими рассуждениями и что их неопределенность остается неинтерпретируемым «черным ящиком», должны умерить энтузиазм. Будущее этих инструментов заключается не в создании единой, универсальной «LLM для социальных наук», а в тщательной разработке конкретных моделей, адаптированных к конкретным социальным вопросам на соответствующих уровнях анализа. Ценность этих моделей заключается в их использовании для руководства политикой и принятием решений по краткосрочным вопросам, где правдоподобная интерполяция существующих данных имеет важное значение. Хотя цель достижения полной механистической интерпретируемости в будущем остается недостижимой, в настоящее время эти модели работают как «черные ящики», внутренняя логика которых в значительной степени недоступна. Поэтому ответственный путь вперед заключается в том, чтобы использовать эти мощные новые инструменты не ради того, чем мы надеемся, что они когда-нибудь станут, а ради аналитических инструментов, которыми они являются уже сейчас.

Ссылки

  • [1]Гати Ахер, Роза И. Арриага и Адам Тауман Калаи«Использование больших языковых моделей для моделирования поведения нескольких людей и воспроизведения исследований с участием людей», 2023 г.arXiv: https://arxiv.org/abs/2208.10264
  • [2]Экин Акюрек, Бэйлин Ван, Юн Ким и Джейкоб Андреас«Обучение языку в контексте: архитектуры и алгоритмы», 2024 г.arXiv: https://arxiv.org/abs/2401.12973
  • [3]Лиза П. Аргил, Итан К. Басби, Нэнси Фулда, Джошуа Р. Гублер, Кристофер Райттинг и Дэвид Уингейт«Из одного — много: использование языковых моделей для имитации человеческих примеров»В журнале Political Analysis 31.3 , 2023, стр. 337–351.DOI: 10.1017/pan.2023.2
  • [4]Патриция Берти, Лука Прателли и Пьетро Риго«Предельные теоремы для условно одинаково распределенных случайных величин»В журнале «Анналы вероятности» 32.4 , 2004 г., стр. 2029–2052.DOI: 10.1214/009117904000000676
  • [5]Марсель Бинц и Эрик Шульц«Превращение больших языковых моделей в когнитивные модели», 2023 г.arXiv: https://arxiv.org/abs/2306.03917
  • [6]Марсель Бинц, Элиф Аката, Маттиас Бетге, Франциска Брендл, Фред Каллауэй, Джулиан Кода-Форно, Питер Даян, Кан Демиркан, Мария К. Экстайн, Ноэми Элтето, Томас Л. Гриффитс, Сюзанна Хариди, Акшай К. Джагадиш, Ли Цзи-Ан, Александр Кипнис, Сриджан Кумар, Тобиас Людвиг, Марвин Матони, Марсело Маттар, Алиреза Модиршанечи, Сурабхи С. Нат, Джошуа С. Петерсон, Милена Рмус, Эван М. Рассек, Танкред Саанум, Йоханнес А. Шуберт, Лука М. Шульце Бушофф, Нишад Сингхи, Синь Суй, Мирко Тальманн, Фабиан Тайс, Вуонг Труонг, Вишаал Удандарао, Константинос Вудурис, Роберт Уилсон, Кристин Витте Шучен Ву, Дирк Вульф, Хуадонг Сюн и Эрик Шульц«Базовая модель для прогнозирования и описания человеческого познания»В журнале Nature , 2025 год.DOI: 10.1038/s41586-025-09215-4
  • [7]Джеймс Бисби, Джошуа Д. Клинтон, Кэсси Дорфф, Брентон Кенкель и Дженнифер М. Ларсон«Синтетическая замена данным опросов, проводимых людьми? Опасности больших языковых моделей»В журнале Political Analysis 32.4 , 2024, стр. 401–416.DOI: 10.1017/pan.2024.5
  • [8]Риши Боммасани и др.«О возможностях и рисках фундаментальных моделей», 2022 г.arXiv: https://arxiv.org/abs/2108.07258
  • [9]Том Б. Браун, Бенджамин Манн, Ник Райдер, Мелани Суббиа, Джаред Каплан, Прафулла Дхаривал, Арвинд Нилакантан, Пранав Шьям, Гириш Састри, Аманда Аскелл, Сандхини Агарвал, Ариэль Герберт-Восс, Гретхен Крюгер, Том Хениган, Ревон Чайлд, Адитья Рамеш, Дэниел М. Зиглер, Джеффри Ву, Клеменс Винтер, Кристофер Хессе, Марк Чен, Эрик Сиглер, Матеуш Литвин, Скотт Грей, Бенджамин Чесс, Джек Кларк, Кристофер Бернер, Сэм МакКэндлиш, Алек Рэдфорд, Илья Суцкевер и Дарио Амодей«Языковые модели учатся с небольшим количеством попыток», 2020 г.arXiv: https://arxiv.org/abs/2005.14165
  • [10]Гуймин Харди Чен, Шуньянь Чен, Цзыче Лю, Фэн Цзян и Бенью Ван«Люди или юристы-магистры в роли судьи? Исследование предвзятости в суждениях», 2024 г.arXiv: https://arxiv.org/abs/2402.10669
  • [11]Яоюй Чен, Юхэн Ху и Инда Лу«Прогнозирование результатов полевых экспериментов с использованием больших языковых моделей», 2025 год.arXiv: https://arxiv.org/abs/2504.01167
  • [12]Бруно Финетти«Теория вероятности»Лондон: Wiley, 1974
  • [13]Фабиан Фальк, Цзию Ван и Крис Холмс«Является ли контекстное обучение в больших языковых моделях байесовским? Перспектива мартингейла», 2024 г.arXiv: https://arxiv.org/abs/2406.00793
  • [14]Сандро Фортини и Соня Петроне«Прогностические распределения: принципы и приложения»В байесовской теории и приложенияхОксфорд: Издательство Оксфордского университета, 2012, стр. 61–79
  • [15]Эндрю Гельман и Дженнифер Хилл«Анализ данных с использованием регрессионных и многоуровневых/иерархических моделей»Кембридж: Издательство Кембриджского университета, 2007 г.
  • [16]Лорен Хьюитт, Ашвини Ашоккумар, Исаак Гезае и Робб Уиллер«Прогнозирование результатов экспериментов в социальных науках с использованием больших языковых моделей», 2024 г.URL: https://samim.io/dl/Predicting%20results%20of%20social%20science%20experiments%20using%20large%20language%20models.pdf
  • [17]Джон Дж. Хортон«Крупные языковые модели как симулированные экономические агенты: чему мы можем научиться у homo silicus?», 2023 г.DOI: 10.3386/w31122
  • [18]Чэнпяо Хуан, Юхан Ву и Кайчжэн Ван«Количественная оценка неопределенности для моделирования опросов на основе LLM», 2025 г.arXiv: https://arxiv.org/abs/2502.17773
  • [19]Джаред Каплан, Сэм МакКэндлиш, Том Хенигэн, Том Б. Браун, Бенджамин Чесс, Ревон Чайлд, Скотт Грей, Алек Рэдфорд, Джеффри Ву и Дарио Амодей«Законы масштабирования для нейронных языковых моделей», 2020 г.arXiv: https://arxiv.org/abs/2001.08361
  • [20]Тианле Ли, Вэй-Лин Чан, Эван Фрик, Лиза Данлэп, Тяньхао Ву, Банхуа Чжу, Джозеф Э. Гонсалес и Ион Стойка«От краудсорсинговых данных к высококачественным бенчмаркам: конвейеры Arena-Hard и BenchBuilder», 2024 г.arXiv: https://arxiv.org/abs/2406.11939
  • [21]Мадхур Панвар, Кабир Ахуджа и Навин Гоял«Обучение в контексте с помощью байесовского подхода», 2024 г.arXiv: https://arxiv.org/abs/2306.04891
  • [22]Джун Сунг Пак, Джозеф С. О’Брайен, Кэрри Дж. Цай, Мередит Рингель Моррис, Перси Лян и Майкл С. Бернштейн«Генеративные агенты: интерактивные симулякры человеческого поведения», 2023 г.arXiv: https://arxiv.org/abs/2304.03442
  • [23]Джун Сунг Парк, Кэролин К. Зоу, Аарон Шоу, Бенджамин Мако Хилл, Кэрри Цай, Мередит Рингель Моррис, Робб Уиллер, Перси Лян и Майкл С. Бернштейн«Генеративные агентные симуляции 1000 человек», 2024 год.arXiv: https://arxiv.org/abs/2411.10109
  • [24]Жемчужина Иудеи«Причинно-следственная связь: модели, рассуждения и выводы»Кембридж: Издательство Кембриджского университета, 2009
  • [25]Шибани Сантуркар, Эсин Дурмус, Фейсал Ладхак, Чиноо Ли, Перси Лян и Тацунори Хасимото«Чье мнение отражают языковые модели?», 2023 г.arXiv: https://arxiv.org/abs/2303.17548
  • [26]Линь Ши, Чиюй Ма, Вэньхуа Лян, Синцзянь Дяо, Вэйчэн Ма и Соруш Восуги«Оценка судей: систематическое исследование предвзятости позиций в процессе судейства в рамках магистерской программы», 2025 г.arXiv: https://arxiv.org/abs/2406.07791
  • [27]Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Лайон Джонс, Эйдан Н. Гомес, Лукаш Кайзер и Илья Полосухин«Внимания вам вполне достаточно»В сборнике трудов конференции Advances in Neural Information Processing Systems 30 (NeurIPS 2017) , 2017, стр. 5998–6008.arXiv: https://arxiv.org/abs/1706.03762
  • [28]Коки Ватаока, Цубаса Такахаши и Рёкан Ри«Предвзятость, обусловленная собственными предпочтениями, у кандидатов на получение степени магистра права в качестве судьи», 2025 г.URL: https://openreview.net/forum?id=Ns8zGZ0lmM
  • [29]Джейсон Вэй, Йи Тай, Риши Боммасани, Колин Раффел, Баррет Зоф, Себастьян Боржо, Дэни Йогатама, Маартен Босма, Денни Чжоу, Дональд Мецлер, Эд Х. Чи, Тацунори Хашимото, Ориол Виньялс, Перси Лян, Джефф Дин и Уильям Федус«Возникающие возможности больших языковых моделей», 2022 г.arXiv: https://arxiv.org/abs/2206.07682
  • [30]Людвиг Витгенштейн«Философские исследования» в переводе Г. Э. М. Анскомб.Оксфорд: Блэквелл, 1953
  • [31]Сан Майкл Се, Адити Рагунатан, Перси Лян и Тенгю Ма«Объяснение контекстного обучения как неявного байесовского вывода», 2022 г.arXiv: https://arxiv.org/abs/2111.02080
  • [32]Лео Йейкелис, Каавья Пичаи, Джеймс Дж. Каммингс и Байрон Ривз«Использование больших языковых моделей для создания ИИ-персон для воспроизведения, обобщения и прогнозирования медиаэффектов: эмпирическая проверка 133 опубликованных результатов экспериментальных исследований», 2025 г.arXiv: https://arxiv.org/abs/2408.16073
  • [33]Ляньминь Чжэн, Вэй-Линь Чан, Инь Шэн, Сиюань Чжуан, Чжанхао Ву, Юнхао Чжуан, Цзы Линь, Чжуохан Ли, Дачэн Ли, Эрик П. Син, Хао Чжан, Джозеф Э. Гонсалес и Ион Стойка«Судейство магистерских диссертаций с использованием MT-Bench и Chatbot Arena», 2023 г.arXiv: https://arxiv.org/abs/2306.05685

Ссылки

  • [34]Гати Ахер, Роза И. Арриага и Адам Тауман Калаи«Использование больших языковых моделей для моделирования поведения нескольких людей и воспроизведения исследований с участием людей», 2023 г.arXiv: https://arxiv.org/abs/2208.10264
  • [35]Экин Акюрек, Бэйлин Ван, Юн Ким и Джейкоб Андреас«Обучение языку в контексте: архитектуры и алгоритмы», 2024 г.arXiv: https://arxiv.org/abs/2401.12973
  • [36]Лиза П. Аргил, Итан К. Басби, Нэнси Фулда, Джошуа Р. Гублер, Кристофер Райттинг и Дэвид Уингейт«Из одного — много: использование языковых моделей для имитации человеческих примеров»В журнале Political Analysis 31.3 , 2023, стр. 337–351.DOI: 10.1017/pan.2023.2
  • [37]Патриция Берти, Лука Прателли и Пьетро Риго«Предельные теоремы для условно одинаково распределенных случайных величин»В журнале «Анналы вероятности» 32.4 , 2004 г., стр. 2029–2052.DOI: 10.1214/009117904000000676
  • [38]Марсель Бинц, Элиф Аката, Маттиас Бетге, Франциска Брендл, Фред Каллауэй, Джулиан Кода-Форно, Питер Даян, Кан Демиркан, Мария К. Экстайн, Ноэми Элтето, Томас Л. Гриффитс, Сюзанна Хариди, Акшай К. Джагадиш, Ли Цзи-Ан, Александр Кипнис, Сриджан Кумар, Тобиас Людвиг, Марвин Матони, Марсело Маттар, Алиреза Модиршанечи, Сурабхи С. Нат, Джошуа С. Петерсон, Милена Рмус, Эван М. Рассек, Танкред Саанум, Йоханнес А. Шуберт, Лука М. Шульце Бушофф, Нишад Сингхи, Синь Суй, Мирко Тальманн, Фабиан Тайс, Вуонг Труонг, Вишаал Удандарао, Константинос Вудурис, Роберт Уилсон, Кристин Витте Шучен Ву, Дирк Вульф, Хуадонг Сюн и Эрик Шульц«Базовая модель для прогнозирования и описания человеческого познания»В журнале Nature , 2025 год.DOI: 10.1038/s41586-025-09215-4
  • [39]Марсель Бинц и Эрик Шульц«Превращение больших языковых моделей в когнитивные модели», 2023 г.arXiv: https://arxiv.org/abs/2306.03917
  • [40]Джеймс Бисби, Джошуа Д. Клинтон, Кэсси Дорфф, Брентон Кенкель и Дженнифер М. Ларсон«Синтетическая замена данным опросов, проводимых людьми? Опасности больших языковых моделей»В журнале Political Analysis 32.4 , 2024, стр. 401–416.DOI: 10.1017/pan.2024.5
  • [41]Риши Боммасани и др.«О возможностях и рисках фундаментальных моделей», 2022 г.arXiv: https://arxiv.org/abs/2108.07258
  • [42]Том Б. Браун, Бенджамин Манн, Ник Райдер, Мелани Суббиа, Джаред Каплан, Прафулла Дхаривал, Арвинд Нилакантан, Пранав Шьям, Гириш Састри, Аманда Аскелл, Сандхини Агарвал, Ариэль Герберт-Восс, Гретхен Крюгер, Том Хениган, Ревон Чайлд, Адитья Рамеш, Дэниел М. Зиглер, Джеффри Ву, Клеменс Винтер, Кристофер Хессе, Марк Чен, Эрик Сиглер, Матеуш Литвин, Скотт Грей, Бенджамин Чесс, Джек Кларк, Кристофер Бернер, Сэм МакКэндлиш, Алек Рэдфорд, Илья Суцкевер и Дарио Амодей«Языковые модели учатся с небольшим количеством попыток», 2020 г.arXiv: https://arxiv.org/abs/2005.14165
  • [43]Гуймин Харди Чен, Шуньянь Чен, Цзыче Лю, Фэн Цзян и Бенью Ван«Люди или юристы-магистры в роли судьи? Исследование предвзятости в суждениях», 2024 г.arXiv: https://arxiv.org/abs/2402.10669
  • [44]Яоюй Чен, Юхэн Ху и Инда Лу«Прогнозирование результатов полевых экспериментов с использованием больших языковых моделей», 2025 год.arXiv: https://arxiv.org/abs/2504.01167
  • [45]Бруно Финетти«Теория вероятности»Лондон: Wiley, 1974
  • [46]Фабиан Фальк, Цзию Ван и Крис Холмс«Является ли контекстное обучение в больших языковых моделях байесовским? Перспектива мартингейла», 2024 г.arXiv: https://arxiv.org/abs/2406.00793
  • [47]Сандро Фортини и Соня Петроне«Прогностические распределения: принципы и приложения»В байесовской теории и приложенияхОксфорд: Издательство Оксфордского университета, 2012, стр. 61–79
  • [48]Эндрю Гельман и Дженнифер Хилл«Анализ данных с использованием регрессионных и многоуровневых/иерархических моделей»Кембридж: Издательство Кембриджского университета, 2007 г.
  • [49]Лорен Хьюитт, Ашвини Ашоккумар, Исаак Гезае и Робб Уиллер«Прогнозирование результатов экспериментов в социальных науках с использованием больших языковых моделей», 2024 г.URL: https://samim.io/dl/Predicting%20results%20of%20social%20science%20experiments%20using%20large%20language%20models.pdf
  • [50]Джон Дж. Хортон«Крупные языковые модели как симулированные экономические агенты: чему мы можем научиться у homo silicus?», 2023 г.DOI: 10.3386/w31122
  • [51]Чэнпяо Хуан, Юхан Ву и Кайчжэн Ван«Количественная оценка неопределенности для моделирования опросов на основе LLM», 2025 г.arXiv: https://arxiv.org/abs/2502.17773
  • [52]Джаред Каплан, Сэм МакКэндлиш, Том Хенигэн, Том Б. Браун, Бенджамин Чесс, Ревон Чайлд, Скотт Грей, Алек Рэдфорд, Джеффри Ву и Дарио Амодей«Законы масштабирования для нейронных языковых моделей», 2020 г.arXiv: https://arxiv.org/abs/2001.08361
  • [53]Тианле Ли, Вэй-Лин Чан, Эван Фрик, Лиза Данлэп, Тяньхао Ву, Банхуа Чжу, Джозеф Э. Гонсалес и Ион Стойка«От краудсорсинговых данных к высококачественным бенчмаркам: конвейеры Arena-Hard и BenchBuilder», 2024 г.arXiv: https://arxiv.org/abs/2406.11939
  • [54]Мадхур Панвар, Кабир Ахуджа и Навин Гоял«Обучение в контексте с помощью байесовского подхода», 2024 г.arXiv: https://arxiv.org/abs/2306.04891
  • [55]Джун Сунг Пак, Джозеф С. О’Брайен, Кэрри Дж. Цай, Мередит Рингель Моррис, Перси Лян и Майкл С. Бернштейн«Генеративные агенты: интерактивные симулякры человеческого поведения», 2023 г.arXiv: https://arxiv.org/abs/2304.03442
  • [56]Джун Сунг Парк, Кэролин К. Зоу, Аарон Шоу, Бенджамин Мако Хилл, Кэрри Цай, Мередит Рингель Моррис, Робб Уиллер, Перси Лян и Майкл С. Бернштейн«Генеративные агентные симуляции 1000 человек», 2024 год.arXiv: https://arxiv.org/abs/2411.10109
  • [57]Жемчужина Иудеи«Причинно-следственная связь: модели, рассуждения и выводы»Кембридж: Издательство Кембриджского университета, 2009
  • [58]Шибани Сантуркар, Эсин Дурмус, Фейсал Ладхак, Чиноо Ли, Перси Лян и Тацунори Хасимото«Чье мнение отражают языковые модели?», 2023 г.arXiv: https://arxiv.org/abs/2303.17548
  • [59]Линь Ши, Чиюй Ма, Вэньхуа Лян, Синцзянь Дяо, Вэйчэн Ма и Соруш Восуги«Оценка судей: систематическое исследование предвзятости позиций в процессе судейства в рамках магистерской программы», 2025 г.arXiv: https://arxiv.org/abs/2406.07791
  • [60]Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Лайон Джонс, Эйдан Н. Гомес, Лукаш Кайзер и Илья Полосухин«Внимания вам вполне достаточно»В сборнике трудов конференции Advances in Neural Information Processing Systems 30 (NeurIPS 2017) , 2017, стр. 5998–6008.arXiv: https://arxiv.org/abs/1706.03762
  • [61]Коки Ватаока, Цубаса Такахаши и Рёкан Ри«Предвзятость, обусловленная собственными предпочтениями, у кандидатов на получение степени магистра права в качестве судьи», 2025 г.URL: https://openreview.net/forum?id=Ns8zGZ0lmM
  • [62]Джейсон Вэй, Йи Тай, Риши Боммасани, Колин Раффел, Баррет Зоф, Себастьян Боржо, Дэни Йогатама, Маартен Босма, Денни Чжоу, Дональд Мецлер, Эд Х. Чи, Тацунори Хашимото, Ориол Виньялс, Перси Лян, Джефф Дин и Уильям Федус«Возникающие возможности больших языковых моделей», 2022 г.arXiv: https://arxiv.org/abs/2206.07682
  • [63]Людвиг Витгенштейн«Философские исследования» в переводе Г. Э. М. Анскомб.Оксфорд: Блэквелл, 1953
  • [64]Сан Майкл Се, Адити Рагунатан, Перси Лян и Тенгю Ма«Объяснение контекстного обучения как неявного байесовского вывода», 2022 г.arXiv: https://arxiv.org/abs/2111.02080
  • [65]Лео Йейкелис, Каавья Пичаи, Джеймс Дж. Каммингс и Байрон Ривз«Использование больших языковых моделей для создания ИИ-персон для воспроизведения, обобщения и прогнозирования медиаэффектов: эмпирическая проверка 133 опубликованных результатов экспериментальных исследований», 2025 г.arXiv: https://arxiv.org/abs/2408.16073
  • [66]Ляньминь Чжэн, Вэй-Линь Чан, Инь Шэн, Сиюань Чжуан, Чжанхао Ву, Юнхао Чжуан, Цзы Линь, Чжуохан Ли, Дачэн Ли, Эрик П. Син, Хао Чжан, Джозеф Э. Гонсалес и Ион Стойка«Судейство магистерских диссертаций с использованием MT-Bench и Chatbot Arena», 2023 г.arXiv: https://arxiv.org/abs/2306.05685

Источник:
https://arxiv.org/html/2509.26080v1

Оцените статью
( Пока оценок нет )

Добавить комментарий