Но они могут быть полезны и в другом качестве: в качестве моделей.
Эли Маккоун-Доусон
Через несколько недель после второй победы Дональда Трампа на президентских выборах я поехал на поезде из Лондона ( где я тогда жил ) в Оксфорд, чтобы посетить конференцию по опросам общественного мнения и прогнозам выборов 2024 года . Большинство участников были социологами или учеными, но я также посмотрел презентации компаний Aaru и Electric Twin , которые занимаются тем, что взаимозаменяемо называют синтетической выборкой, кремниевой выборкой или созданием синтетических аудиторий. Если не вдаваться в жаргон стартапов, это означает, что они используют большие языковые модели (LLM) для имитации ответов на опросы общественного мнения, позволяя агентам искусственного интеллекта брать на себя роль респондентов.
Я уже слышал об Aaru благодаря нескольким статьям с броскими заголовками вроде «Нет людей — нет проблем: чат-боты с искусственным интеллектом предсказывают выборы лучше, чем люди», опубликованным за несколько месяцев до дня выборов. Ребята из компании делали громкие, а некоторые даже сказали бы, надуманные заявления, например: «В течение двух лет мы смоделируем весь мир — от того, как выращивают урожай на Украине, до того, как это повлияет на добычу нефти в Ираке, торговлю через Малаккский пролив и выборы мэра Балтимора». Когда Семафор спросил соучредителей Aaru — Кэмерона Финка и Неда Коха — о моем начальнике, они сказали: «Мы уважаем всех, кто был до нас». Нейт (как он часто делает ) поделился своими мыслями в Твиттере:
Нейт Сильвер@ NateSilver538NateSilver538
Ха-ха, жаль, что нет способа открыть короткую позицию по этому бизнесу, это, пожалуй, худший вариант использования ИИ, о котором я когда-либо слышал.
Бен Смит @semaforbensemaforben
Извините, @NateSilver538 https://t.co/xNTCJwSMmh
23:57 · 20 сентября 2024 г. · 539 тыс. просмотров Views
87 ответов Replies· 52 репоста Reposts· 1,5 тыс. лайков Likes
Финк и Кох довольно доброжелательно отнеслись к этой переписке, когда мы разговаривали в Оксфорде. Они даже предложили выслать мне одну из футболок с цитатой Нейта, которую, по-видимому, они сделали. Я так и не воспользовался этим предложением, о чем теперь немного жалею.
Тем не менее, метод «кремниевой выборки» всё чаще используется в публичных опросах. В марте Axios сообщило , что «большинство людей доверяют своим врачам и медсёстрам», основываясь на результатах исследования Aaru — не упомянув при этом , что «люди» в этом предложении на самом деле были магистрами права. Примерно в то же время Институт общественного мнения «увеличил» свою онлайн-выборку из 373 реальных респондентов с помощью 114 агентов ИИ.¹ ( Спойлер : даже соучредитель Electric Twin не считает такой подход особенно оправданным.) Компании, занимающиеся опросами общественного мнения, такие как Qualtrics и Ipsos, также разрабатывают панели синтетических данных.
Итак, что же нам следует думать об этих… «опросах»? Давайте сразу проясним один момент: что бы это ни было, это не опросы в том смысле, в котором этот термин обычно определяется.
С одной стороны, использование LLM-ов для создания, по сути, фальшивых респондентов в опросах звучит как самая глупая идея на свете, которая лишь несовершенно воспроизведет реальные опросы, внося при этом всевозможные искажения. С другой стороны, учитывая, что LLM-ы улучшаются с поразительной, возможно, даже тревожной скоростью , может быть, я динозавр в свои 24 года, потому что я все еще хочу полагаться на опросы, которые общаются с реальными людьми.
Я не собираюсь утверждать, что синтетические выборки совершенно бесполезны. На самом деле, как я вернусь к этому позже, есть доказательства того, что некоторые методы могут быстро и дешево воспроизводить основные результаты опросов. Но маркетинг некоторых компаний может быть несколько оптимистичным. «К моменту следующих всеобщих выборов традиционных опросов не будет», — сказал Финк в 2024 году . До промежуточных выборов осталось всего 206 дней, и, учитывая, что мне все еще приходится каждый день собирать множество опросов, я бы сказал, что ему следовало бы проверить этот прогноз на выборке агентов ИИ перед интервью. 2
Чтобы понять, почему синтетические выборки не могут заменить опросы, вот краткое объяснение того, как они работают. Простейшая версия этих моделей включает в себя использование модели LLM (например, ChatGPT или Claude), присвоение ей демографического профиля (например, белая женщина с высшим образованием, проживающая в Юте и зарабатывающая 70 000 долларов в год), а затем просьбу ответить на вопрос опроса. Этот процесс повторяется несколько тысяч раз с использованием различных демографических профилей, и в итоге получается выборка синтетических ответов на вопросы опроса.
Модели, используемые частными компаниями, на самом деле гораздо сложнее, чем эта, обычно потому, что они учитывают больше демографических характеристик каждого агента и предоставляют им дополнительную информацию. Например, Aaru предоставляет агентам набор новостей и информации, которые они, вероятно, будут потреблять , в то время как Electric Twin использует собственные данные своих клиентов об аудитории, которую они пытаются воспроизвести. Бен Уорнер, соучредитель Electric Twin, объяснил мне это так: «У нас есть большой объем данных о… например, 5000 человек. Можем ли мы сделать точный прогноз того, как они ответят на другой вопрос?»
Тем не менее, даже без упоминания стоимости, скорости или точности, должно быть очевидно, почему синтетические выборки не могут заменить опросы общественного мнения. Опросы общественного мнения — это, по сути, процесс сбора данных. Мы можем использовать опросы для прогнозирования результатов выборов, используя их в качестве основы для прогнозов , но главная цель опроса — не прогнозирование, а сбор новых данных о том, что думают и чувствуют люди . С другой стороны, метод выборочного анализа с использованием синтетических выборок не дает новых данных. Это просто модель: вы вводите обучающие данные LLM, демографические данные и множество другой информации, и она выдает прогноз того , что показал бы опрос.
Мы здесь любим модели , но модели — это не опросы. Это различие является важным философским камнем преткновения для большинства социологов, с которыми я общаюсь. «Я думаю, что политикам следует держаться подальше от [синтетической выборки], потому что мы пытаемся… представить голос народа», — сказала Натали Джексон, вице-президент GQR Insights. Демократический социолог Джон Хагнер сказал мне: «Я невероятно скептически отношусь к этой идее. Я не думаю, что это исследование. В этом случае вы просите машину сказать вам то, во что вы уже верите». Хагнер видел несколько презентаций ранних экспериментов по синтетической выборке, но пока что, «если это используется в кампании, люди держат это в строжайшей тайне» .
Мы можем игнорировать (откровенно абсурдное) предположение о том, что синтетическая выборка не подвержена отдельному набору искажений . Важно то, что существует существенная разница между использованием взвешивания и других статистических методов на основе реальных данных опросов и использованием модели для прогнозирования результатов опроса. Последний метод гораздо ближе к прогнозам выборов или таким методам, как MRP — потенциально полезным моделям, но не замене опросов. 4
Справедливости ради, другие компании, занимающиеся синтетической выборкой, вполне довольны различием между опросами и моделями. Уорнер сравнил опросы и синтетическую выборку с разными инструментами в ящике для инструментов. «Я думаю, наша ошибка заключается в том, что мы считаем, что эти новые инструменты должны либо работать точно так же, либо каким-то образом заменить старые инструменты», — сказал он. «Вместо того чтобы думать так: хорошо, у нас всегда был молоток, у нас всегда была отвертка, теперь у нас есть пила. Но не стоит использовать пилу, чтобы пытаться заменить молоток».
Небольшой комментарий от Нейта.
Эли не попросил у меня комментария — довольно невежливо с его стороны, не правда ли? Но поскольку я редактирую этот рассказ, я решил добавить несколько кратких мыслей, вместо того чтобы вкладывать слова в его уста.
Помимо часто вводящего в заблуждение маркетинга, больше всего меня беспокоит в шумихе вокруг «опросов» с использованием ИИ то, что по мере того, как инструменты ИИ делают статистический анализ дешевле и/или лучше (обратите внимание, что это не синонимы), это фактически увеличивает сравнительную ценность сбора оригинальных данных . Можно обучить модель делать разумную оценку того, что сказал бы какой-нибудь труднодоступный респондент в опросе — скажем, молодой чернокожий мужчина, проголосовавший за Трампа. (Такой человек соответствует ряду критериев избирателя, которого обычно трудно охватить в опросах.) Действительно, это тесно связано с тем, что уже делают модели, подобные прогнозу Silver Bulletin. Они, по сути, сглаживают неточности в зашумленных данных опросов, делая выводы на основе прошлых моделей голосования, национальных опросов или опросов в других штатах.
Но вы на самом деле не узнаете , что думают эти избиратели, если не будете общаться с ними напрямую. Если в этой подгруппе произойдет изменение мнения, вы этого не заметите. Поэтому, если бы я руководил избирательной кампанией, я бы вложил больше средств в поиск репрезентативной выборки этих избирателей. А затем я бы нанял несколько умных аналитиков — возможно, с помощью Клода и др. — чтобы на основе этих конфиденциальных данных, к которым у моих конкурентов нет доступа, определить последствия для стратегии кампании. -Нейт Сильвер
Насколько хороши эти модели?
Если синтетические опросы представляют собой всего лишь новый тип моделей, то следующий очевидный вопрос заключается в том, насколько точны эти модели. Ответ на этот вопрос во многом зависит от того, кого вы спросите.
С одной стороны, существует максималистский аргумент о том, что синтетическая выборка лучше и точнее , чем реальные опросы. «Это невероятно сложная задача — обратиться к кому-то и сказать: „Мы будем точнее предсказывать поведение людей, чем вы, даже если вы общаетесь со своими клиентами напрямую“», — недавно заявил Кох в интервью CNBC . По его мнению, синтетическая выборка — это не пила для молотка опросов, это «магия».
После выборов Финк заявил Семафору, что вполне доволен результатами, поскольку они «находятся в пределах погрешности», — термин, который бессмысленен применительно к «выборке» агентов ИИ. И, конечно же, Аару утверждает, что их модели улучшились с 2024 года , так что теперь они якобы точнее, чем опросы общественного мнения? Тем не менее, их более весомый аргумент — это стоимость: «Мы значительно быстрее и дешевле, чем традиционные опросы, и при этом точнее», — сказал Финк . Первые два утверждения, несомненно, верны, но третье выводит нас на противоположный конец спектра.
И Джексон, и Хагнер скептически относятся к надежности этих моделей в чем-либо, выходящем за рамки воспроизведения общих результатов опросов. «Я просто… не думаю, что машины — это то, что нам нужно, когда мы ищем тонкие нюансы. Мой пример — это люди в Аризоне и Неваде в 2024 году, которые голосовали за Трампа и голосовали за расширение абортов в своих штатах на референдумах», — сказал Джексон. Хагнер выявил аналогичную проблему : «Сообщения, которые поступали с совещаний, на которых я присутствовал, говорят о том, что в ходе первых экспериментов не удается добиться от респондентов такой же расистской, сексистской или, откровенно говоря, негативной позиции, как от людей».
Когда я спросил Уорнера об этих исследованиях, он ответил на эти статьи, что тот факт, что у ученых не получается заставить работать метод синтетической выборки, не означает, что этот метод не работает в целом. «На самом деле, аргумент таков: хорошо, ваш метод не работает. Это не значит, что […] для этого сложного набора инструментов, который требует больших инвестиций, много времени и много денег, вы не сможете заставить его работать».
Честно говоря, я отчасти сочувствую этому аргументу, потому что учёные не очень-то хорошо умеют делать прогнозы на выборах . Обычно самые точные прогнозы дают те, кто непосредственно заинтересован в исходе событий. Аргумент Уорнера заключается в том, что подход, используемый Electric Twin, — который включает, например, создание нескольких прогнозов для каждого синтетического респондента с использованием различных моделей и подсказок, а затем усреднение этих прогнозов для получения окончательного результата, подобного ансамблевому прогнозу , — даёт лучшие результаты, чем более простые академические модели.
Уорнер поделился со мной сравнением своего метода с методом, описанным в недавней научной статье , и Electric Twin действительно смог добиться более точного воспроизведения результатов. Но даже при этом он признал, что синтетическая выборка «не является хрустальным шаром». «Если бы вы спросили меня, считаю ли я, что использование других источников данных будет точнее, чем вопрос о том, за кого человек будет голосовать, я бы, вероятно, ответил «нет». Но если бы вы спросили меня: «Будет ли ваша система полезна для моделирования явки избирателей сегодня?», я бы ответил «да».
Но, к лучшему или к худшему, похоже, этот метод уже набирает популярность в мире маркетинговых исследований. Большинство клиентов, о которых сейчас говорит Аару, — это такие компании, как EY и McDonald’s .
Это не значит, что ИИ не появится и в других аспектах процесса политических опросов. Специалисты по опросам уже используют его для кодирования открытых ответов в анкетах, а некоторые компании, такие как YouGov, тестируют использование специалистов с магистерской степенью для задавания вопросов респондентам .
Более тревожным является то, что одной из опасностей для реальных опросов является возможность внедрения агентов ИИ в онлайн-опросы. Большинство онлайн-опросов используют различные проверки для предотвращения этого, но существуют противоречивые данные об эффективности этих фильтров и о том, насколько распространены в настоящее время агенты ИИ в онлайн-панелях . Если когда-нибудь таких агентов станет невозможно обнаружить, это может означать конец онлайн-опросов, но решение не состоит в замене всех респондентов на ChatGPT.
Можно утверждать, что Финк имел в виду следующие президентские выборы, но (а) я также уверен, что реальные опросы общественного мнения будут проводиться и в 2028 году, и (б) в этом случае ему следовало бы попросить магистра права дать определение понятию «всеобщие выборы».
Действительно, Silver Bulletin не включает в свои прогнозы или средние значения «опросы», проведенные MRP, и мы считаем крайне вводящим в заблуждение, когда их специалисты описывают их таким образом, что создается впечатление, будто были собраны оригинальные данные в большом количестве штатов или избирательных округов Конгресса.
В недавнем отчете компаний Aaru и EY были приведены два примера того, как синтетическая оценка оказывается ближе к реальному эталону, чем опрос, — но к этим выводам следует отнестись с осторожностью, поскольку отчет больше похож на рекламу и не предполагает каких-либо предварительных прогнозов.