Синтетические исследования – это обещание, но с подвохом

Бренды стремительно внедряют синтетические аналитические данные, полученные с помощью ИИ, — но без контроля и проверки результаты могут вводить в заблуждение. Необходимо найти баланс между скоростью и точностью.

Мы наблюдаем конфликт между экономическим давлением, требующим быстрых и дешевых результатов исследований, и научной потребностью в строгости. Сотни, если не тысячи, реалистичных персонажей могут быть созданы за считанные минуты поставщиками, обещающими убедительные результаты. Но зачастую они функционируют как методологические «черные ящики», выдавая результаты, которые невозможно проверить, которые могут содержать скрытые предубеждения и незаметно вводить в заблуждение при принятии решений.

Рынок синтетических данных быстро растет, и, по прогнозам, его стоимость увеличится с примерно 267 миллионов долларов в 2023 году до более чем 4,6 миллиардов долларов к 2032 году . Обусловленный спросом на мгновенные аналитические данные в условиях постоянно развивающейся экономики, 95% лидеров в области аналитики планируют использовать синтетические данные в течение следующего года, и их привлекательность очевидна. Ключевыми факторами являются скорость, масштабируемость, экономическая эффективность и возможность получения аналитических данных от нишевых аудиторий.

Для перехода от чисто экспериментального подхода к надежной и масштабируемой практике синтетического тестирования организациям необходимо напрямую решать эти риски. Существует несколько подходов, которые могут помочь преодолеть скептицизм и создать более устойчивую модель. Важно определить ключевые проблемные области и напрямую их устранить.

Хотя экономия средств и скорость получения аналитических данных являются вескими причинами для внедрения, остается ряд проблем. Наиболее успешные организации понимают сильные и слабые стороны различных инструментов синтетического анализа и знают, когда их следует использовать.

Почему нельзя просто задать свои исследовательские вопросы в ChatGPT? Распространенное заблуждение в синтетических исследованиях заключается в том, что предоставление модели LLM подробной предыстории гарантирует репрезентативный результат. Недавние крупномасштабные эксперименты показывают обратное.

Первоначальные исследования показывают, что побуждение специалистов с магистерской степенью, таких как ChatGPT, Claude или Gemini, к созданию большего количества контента для каждой целевой аудитории приводит к предвзятости/однородности, а не к созданию разнообразного набора результатов. Например, целевые аудитории, использованные для прогнозирования результатов президентских выборов в США 2024 года (с подробными предысториями, предоставленными специалистом с магистерской степенью), показали победу демократов во всех штатах и не отражали политического разнообразия населения.

Это явление выявляет проблему, известную как «отмывание предвзятости», — распространенную проблему в ИИ, затрагивающую все, от распознавания лиц до синтетических исследований, поскольку модели с низкой степенью детализации обучаются на данных из интернета, которые непропорционально отражают западное, образованное, индустриализованное, богатое, демократическое (WEIRD) мировоззрение. Требование к моделям представлять собой разнообразные образы приводит к получению статистического среднего значения, отфильтрованного через эту предвзятость, «отмывая» исключение как нейтральность ИИ.

Кроме того, синтетические респонденты могут страдать от «принципа Поллианны», или склонности лингвистов к чрезмерной доброжелательности и позитивному отношению к запросам пользователей. Большинство пользователей чат-интерфейсов на основе генеративного ИИ, вероятно, сталкивались с этим: идеи встречают одобрением типа «отличная идея» или «хороший выбор», а не объективной оценкой.

Например, в тесте на удобство использования, сравнивающем результаты синтетических и реальных респондентов , синтетические пользователи сообщили о завершении всех онлайн-курсов. В то время как реальные пользователи могли бы сообщить о прекращении обучения на большинстве онлайн-курсов, синтетические пользователи сообщили о завершении.

Высокий процент отсева среди реальных пользователей подтвердил, что синтетические респонденты пытались сказать то, что, по их мнению, хотели услышать экспериментаторы. Такое подхалимство может привести к тому, что некачественные концепции продуктов будут одобрены полезными агентами искусственного интеллекта.

Contents

Тонкая настройка обеспечивает контекст, которого не хватает синтетическим подходам.
Как добиться наилучших результатов с помощью синтетических материалов
Тренировка на синтетических моделях, тестирование на реальных.
Использование принципов управления и прозрачности
Доверяй, но проверяй

Тонкая настройка обеспечивает контекст, которого не хватает синтетическим подходам.

Разве модели LLM не обучаются на достаточно широком наборе информации, чтобы создавать реалистичные сценарии использования практически в любой ситуации? Наиболее эффективный способ привести синтетических респондентов в соответствие с реальностью — это тонкая настройка с использованием собственных данных. Хотя модели LLM общего назначения обеспечивают неплохие базовые оценки для существующих продуктов, они испытывают трудности с новыми проблемами и недостаточно представленными сегментами.

В одном эксперименте команда исследователей опросила базовую модель GPT о вымышленной зубной пасте со вкусом блинов и столкнулась лицом к лицу с принципом Поллианны. Без обучающих данных модель предполагала, что людям понравится эта паста — другими словами, она галлюцинировала предпочтение новизны. После того как исследователи доработали модель на основе данных прошлых опросов о предпочтениях в отношении зубной пасты, результат корректно изменился на отрицательный.

В другом исследовании, посвященном желательности встроенного проектора в ноутбуках, базовая модель переоценила готовность платить в три раза. После доработки с использованием данных опроса, проведенного на стандартных ноутбуках, ошибка была исправлена, и результаты синтетического анализа совпали с результатами, полученными людьми.

Как добиться наилучших результатов с помощью синтетических материалов

Конкурентное преимущество в исследованиях с использованием синтетических моделей заключается не в самой модели — которая становится товаром массового потребления — а в уникальном контексте, который её формирует. Например, компания Dollar Shave Club использовала синтетические панели, основанные на данных по категориям товаров, для проверки новых сегментов клиентов за считанные дни, а не месяцы, достигнув результатов, которые имитировали поведение человека, при гораздо меньших затратах усилий.

Несколько подходов помогут вам добиться наилучших результатов в исследованиях в области синтеза.

Тренировка на синтетических моделях, тестирование на реальных.

Для решения некоторых из этих проблем индустрия маркетинговых исследований предложила общеотраслевую методологию валидации, известную как train-synthetic, test-real (TSTR). В этом подходе модели обучаются на синтетических данных и проверяются на прогностическую достоверность на отложенной выборке реальных данных. Первые результаты оказались положительными.

В исследовании, проведенном Стэнфордским университетом и Google DeepMind, цифровые агенты, обученные на данных интервью, воспроизвели ответы людей на опросы с точностью 85%, а социальные факторы — с корреляцией 98%.

Этот подход учитывает недостатки использования исключительно готовых моделей LLM в качестве отправной точки, а также риски принятия результатов синтеза за чистую монету без проверки. Используя методы синтеза на ранних этапах и проверяя их с помощью реальных данных, команды могут сэкономить время и средства, одновременно повышая уверенность в результатах.

Использование принципов управления и прозрачности

Для успешного проведения синтетических исследований исследователям и читателям следует избегать заблуждения о синтетической личности — убеждения, что студенты магистратуры обладают эквивалентом человеческой психологии и личностных черт.

Вместо этого необходим более строгий подход к проверке, подкрепленный механизмами управления, хорошо документированными процессами и прозрачностью используемых методов.

Контрольный список для обеспечения прозрачности персон может помочь исследователям в работе с синтетическими персонами:

Область применения: конкретная задача, которую должен выполнять данный персонаж.
Целевая аудитория: демографическая целевая группа, которую призван представлять данный образ, в отличие от использования общих описаний.
Происхождение данных: Использовались ли существующие наборы данных повторно или модифицировались для создания персон.
Экологическая валидность: отражает ли экспериментальное взаимодействие реальные условия использования.

Прозрачность решает две задачи. Она устраняет этические проблемы, связанные с раскрытием информации, и укрепляет доверие, демонстрируя, как работают синтетические подходы и в чем они несовершенны. По мере роста влияния синтетических источников информации различение реального и синтетического контента станет критически важным.

Доверяй, но проверяй

Реалистичный подход к синтетическим исследованиям означает отказ от убеждения, что модели LLM по своей сути отражают человеческую психологию, и вместо этого сосредоточение внимания на эмпирическом сравнении, тонкой настройке и прозрачности.

Источник:
https://martech.org/synthetic-research-is-a-promise-with-a-catch/

Синтетические исследования – это обещание, но с подвохом

Тонкая настройка обеспечивает контекст, которого не хватает синтетическим подходам.

Как добиться наилучших результатов с помощью синтетических материалов

Тренировка на синтетических моделях, тестирование на реальных.

Использование принципов управления и прозрачности

Доверяй, но проверяй

Похожее

Leave a ReplyCancel reply

Your message has been sent