web analytics

Сравнение GPT-4 и языковых моделей с открытым исходным кодом в борьбе с дезинформацией

Последние модели больших языков (LLM) показали свою эффективность для обнаружения дезинформации. Однако выбор LLM для экспериментов сильно различается, что приводит к неопределенным выводам. В частности, известно, что GPT-4 силен в этой области, но он имеет закрытый исходный код, потенциально дорог и может демонстрировать нестабильность между различными версиями.


Между тем альтернативные программы LLM дали неоднозначные результаты. В этой работе мы показываем, что Zephyr-7b представляет собой жизнеспособную альтернативу, преодолевающую ключевые ограничения широко используемых подходов, таких как Llama-2 и GPT-3.5. Это предоставляет исследовательскому сообществу надежный вариант использования открытого исходного кода и показывает, что модели с открытым исходным кодом постепенно догоняют эту задачу. Затем мы подчеркиваем, что GPT-3.5 демонстрирует нестабильную производительность, поэтому эта широко используемая модель может давать вводящие в заблуждение результаты при обнаружении дезинформации. Наконец, мы проверяем новые инструменты, включая подходы к структурированному выводу и последнюю версию GPT-4 (Turbo), показывая, что они не снижают производительность, тем самым открывая их для будущих исследований и потенциально открывая более сложные конвейеры для предотвращения дезинформации.

Введение

С экспоненциальным ростом цифровых коммуникаций и все более сложной дезинформацией, управляемой искусственным интеллектом (Zhou et al.2023 год) , определение надежности и целостности онлайн-контента стало важным. Поскольку дезинформация продолжает представлять собой серьезную социальную проблему, роль продвинутых языковых моделей в обнаружении и устранении дезинформации становится все более важной. В этой статье рассматривается эффективность современных моделей, в частности GPT-4, в обнаружении дезинформации и сравнивается их производительность с другими появляющимися моделями с открытым исходным кодом.

В частности, в этой статье освещается важное событие в этой области: появление меньших моделей с открытым исходным кодом, в частности, доработанных версий Mistral-7B, таких как Zephyr альфа и бета, которые начинают приближаться по производительности к GPT-4. Хотя GPT-4 продолжает лидировать в определенных задачах, разрыв сокращается: модели с открытым исходным кодом, такие как Zephyr, достигают уровня GPT-4 в обнаружении дезинформации в наборах данных фейковых новостей LIAR, LIAR-New и CT-FAN-22. . Эта тенденция особенно примечательна, поскольку она предполагает, что более мелкие и более доступные модели начинают предлагать жизнеспособную альтернативу более крупным запатентованным системам в таких важных областях, как обнаружение дезинформации.

Мы также подчеркиваем, насколько сильно различается производительность разных моделей, и демонстрируем, что определенные типы подсказок могут давать очень плохие результаты. Помимо альтернативных моделей с открытым исходным кодом, которые, как мы обнаружили, оказались нежизнеспособными, мы показываем, что производительность GPT-3.5 сильно различается. Это особенно примечательно, потому что это, вероятно, наиболее широко используемая в последнее время степень магистра права в этой области (Чен и Шу).2023б) . Наши результаты показывают, что существует значительный риск того, что общие выводы, сделанные на основе GPT-3.5, могут быть ограничены тонкостями конкретной используемой подсказки и их будет нелегко обобщить на несколько разные установки или разные модели.

Еще одним заметным вкладом этого исследования является использование структурированного вывода JSON как в проприетарных (GPT-4), так и в моделях с открытым исходным кодом, что, насколько нам известно, представляет собой первый случай, когда подобный эксперимент представлен в литературе. Применение этого структурированного вывода открывает возможность более систематического анализа и надежного анализа прогнозов, сделанных этими моделями, в последующих приложениях. В наших экспериментах мы особенно сосредоточились на реализации «вызова функций» с помощью GPT-4 и аналогичных форматов структурированного вывода в моделях с открытым исходным кодом, используя библиотеки вывода, которые поддерживают наложение произвольных грамматик. При использовании GPT-4 мы заметили, что производительность при вызове функций сопоставима с традиционными методами.

Наш основной вклад:

  • Мы показываем, что в отличие от предыдущих альтернатив GPT-4, Zephyr обеспечивает производительность, постоянно соответствующую или превосходящую SLM и другие SOTA до эпохи искусственного интеллекта, на нескольких наборах данных.

  • Мы показываем, что GPT-3.5 очень чувствителен к деталям формулировок, используемых в подсказках. Это представляет собой важное ограничение, поскольку выводы, сделанные с помощью модели, могут быть основаны на входных данных, а не отражать истинную эффективность LLM и более широко применимых методов.

  • Мы показываем, как можно получить структурированные выходные данные без снижения производительности, что делает синтаксический анализ более систематическим и надежным и позволяет использовать более сложные системы. Мы также показываем, что производительность GPT-4-1106 аналогична предыдущим версиям GPT-4. Эти результаты обеспечивают необходимую проверку, чтобы открыть новые инструменты для исследований в этой области.

Сопутствующие работы

В этом разделе мы сначала обсудим широко используемые модели OpenAI для обнаружения дезинформации, которые могут обеспечить высокую производительность, но также имеют несколько ключевых ограничений. Затем мы обсуждаем альтернативы с открытым исходным кодом.

API OpenAI для обнаружения дезинформации

GPT-4 стал современной моделью обнаружения и классификации дезинформации (Pelrine et al.2023 год; Квелле и Бовет2023 год) , демонстрируя превосходную производительность на нескольких широко используемых наборах данных фейковых новостей. Таким образом, в сочетании с методами повышения произвольной производительности LLM в этой области, такими как HiSS (Чжан и Гао2023 год) , GPT-4 может иметь самую высокую производительность. Однако у него также есть несколько недостатков. Его производительность может быть весьма чувствительна к используемой версии (Pelrine et al.2023 год; Чен, Захария и Цзоу2023 год) . А поскольку это модель с закрытым исходным кодом, ее использование может быть дорогостоящим, и многие инструменты или методы, требующие доступа к весам модели, не могут быть применены для повышения ее производительности.

Чтобы избежать ограничения стоимости, многие исследования (Чен и Шу2023б; Чжан и Гао2023 год; Карамансьон2023 год; Ху и др.2023 год; Мотыги, Алтай и Бермео2023 год) вместо этого сосредоточились на GPT-3.5, который примерно в 10 раз дешевле. Но это тоже имеет ограничение: хотя оно и продвинуто во многих отношениях, оно дало неоднозначные результаты в обнаружении дезинформации. Некоторые работы достигли высочайшего уровня исполнения (Чжан и Гао2023 год) или обнаружили, что он соответствует GPT-4 или превосходит его (Yu et al.2023 год) , в то время как другие получают смешанные результаты (Pelrine et al.2023 год; Чен и Шу2023а) или что это явно хуже, чем маленькие языковые модели (Hu et al.2023 год) . Следовательно, хотя в некоторых случаях эта модель является эффективным способом снижения затрат, она может быть рискованной альтернативой GPT-4, что потенциально может привести к ошибочным выводам об эффективности обнаружения дезинформации в различных LLM или методах. В наших экспериментах мы подтверждаем, что это действительно реальная проблема, и демонстрируем, что некоторые модели с открытым исходным кодом могут обеспечивать гибкость и производительность, которых не хватает моделям с закрытым исходным кодом, таким как GPT-3.5 и GPT 4.

Модели с открытым исходным кодом

Модели с открытым исходным кодом решают некоторые ограничения OpenAI и других закрытых моделей: они более настраиваемы, нет риска неожиданных обновлений версий или сбоев платы, и во многих случаях они могут быть намного дешевле. Однако производительность этих моделей вызывает серьезную озабоченность. Предыдущие исследования оценивали эффективность различных больших языковых моделей, таких как Llama и Llama-2, в обнаружении дезинформации. Однако эти исследования часто давали неоднозначные результаты, указывая на то, что не все модели, особенно с открытым исходным кодом, одинаково эффективны в этой области (Yu et al.2023 год; Чен и др.2023 год) . Признавая этот пробел, наше исследование направлено на поиск модели с открытым исходным кодом, которая может соответствовать или даже превосходить тесты производительности, установленные патентованными моделями, такими как GPT-4, в наборах данных для обнаружения дезинформации.

При выборе подходящей модели с открытым исходным кодом для наших экспериментов мы решили сосредоточиться на Zephyr (Tunstall et al.2023 год) , доработанная версия недавно вышедшей модели Мистраля. Несмотря на относительно небольшой размер в 7 миллиардов параметров, было показано, что в некоторых тестах он превосходит модели с 13B и даже 70B параметрами (Jiang et al.2023 год), а также несколько других показателей в таблице лидеров Open LLM (Beeching et al.2023 год) . Его недавний выпуск гарантирует, что модель будет подвергнута воздействию современных данных, что имеет решающее значение для постоянно меняющегося ландшафта дезинформации. Кроме того, сравнительная производительность Zephyr с более крупными моделями, несмотря на его меньший размер, дает уникальную возможность понять эффективность и результативность моделей с открытым исходным кодом в обнаружении дезинформации. Мы также пытались экспериментировать с версиями Llama-2 с точной настройкой инструкций (Touvron et al.2023 год) . Однако эти модели последовательно работали хуже, чем варианты Mistral, и значительно хуже, чем GPT-4, и эта тенденция отражена и в других исследованиях (Yu et al.2023 год) .

Использование моделей с открытым исходным кодом для обнаружения дезинформации ценно по нескольким причинам. Модели с открытым исходным кодом обеспечивают большую доступность и прозрачность, позволяя исследователям и разработчикам тщательно изучать и отслеживать внутреннюю работу модели. В свою очередь, это потенциально может улучшить подходы к объяснению, которые требуют доступа к исходным весам модели (Szczepański et al.2021 год) . Эта прозрачность, а также расширенные гарантии конфиденциальности жизненно важны для построения доверия, что важно для приложений по обнаружению дезинформации (Mohseni et al.2021 год) . Более того, модели с открытым исходным кодом могут быть адаптированы и улучшены более широким сообществом, что потенциально приведет к большему прогрессу в этой области. Например, в этой статье напрямую используется возможность ограничения генерации и декодирования локально запускаемых моделей для обеспечения структурированного вывода JSON, что упрощает обработку в последующих приложениях (Geng et al.2023 год) . Дополнительные методы, такие как DoLa (Chuang et al.2023 год) потенциально может быть применено к локальным моделям, чтобы уменьшить галлюцинации и повысить достоверность в последующих исследованиях.

Методология

Модели с открытым исходным кодом

Для оценки локальных моделей, в частности Zephyr, мы использовали подсказку, имитирующую формат структурированного вывода, используемый при вызове функций с помощью GPT-4. Это приглашение было тщательно разработано, чтобы соответствовать шаблону, наблюдаемому на этапе тонкой настройки инструкций этих моделей, что обеспечивает последовательность в процессе оценки. Точная подсказка доступна в Приложении.

Если не указано иное, модели, запускавшиеся локально, были квантованы с использованием формата квантования Q5_KM. Этот метод квантует модели до 5 бит, что экономит память и место для хранения, вызывая при этом минимальные потери на путаницу (Деттмерс и Зеттлмойер).2023 год) . Квантование модели является важным фактором в практических приложениях, где оптимизация ресурсов является приоритетом.

Вызов функций с помощью GPT-4

Мы запрашиваем LLM аналогично подсказке «Объясни, затем оцени» из (Pelrine et al.2023 год) , но предоставить функцию для вывода с использованием API вызова функций OpenAI вместо общего неструктурированного чата. Точные подсказки подробно описаны в Приложении.

Базовые показатели

Мы сравниваем с несколькими LLM и подходами из литературы. В частности, мы рассматриваем подсказки Score Zero-Shot («Оценка»), Binary Zero-Shot («Двоичный») и «Объясни, затем оцени» из (Pelrine et al.2023 год) . В этом предыдущем исследовании представлены результаты по двум версиям GPT-4 и некоторые результаты по GPT-3.5. Мы также опираемся на (Ю и др.2023 год) , который использует подсказку «Оценка» и предоставляет дополнительные результаты для GPT-3.5, а также результаты для Llama-2. Наконец, мы рассматриваем подсказку о нулевом выстреле из (Hu et al.2023 год) («Ноль»), который предоставил результаты по GPT-3.5. Это приглашение очень похоже на двоичное приглашение — оба запрашивают двоичный вывод и являются почти перефразированием друг друга.

Данные и оценка

Мы используем стандартные наборы данных с входным текстом и метками достоверности: LIAR (Ван2017 год) , LIAR-New (Pelrine et al.2023 год) и CT-FAN-22 (английский) (Köhler et al.2022 год) . Первые два состоят из коротких утверждений (одно или два предложения), тогда как последний имеет на входе значительно более длинные статьи (часто тысячи токенов). Для LIAR-New и CT-FAN (которые имеют несбалансированные классы) мы сообщаем оценку макроса F1, а для LIAR мы сообщаем точность. Эти метрики являются стандартными мерами для оценки производительности этих наборов данных (Pelrine et al.2023 год) .

Полученные результаты

Сравнение моделей

Таблица 1:Модель производительности на LIAR и LIAR-New. Результаты над вертикальной линией взяты из литературы, а ниже — из наших экспериментов.
Модель ЛЖЕЦ-Новый ЛЖЕЦ
GPT-4-0314 «Объясни, затем оцени» (Pelrine et al.2023 год) 65,5 68,4
GPT-4-0613 Объясните, затем оцените (Pelrine et al.2023 год) 65,3 64,9
Оценка GPT-4-0314 (Pelrine et al.2023 год) 60,4 64,9
Оценка GPT-3.5-0301 (Pelrine et al.2023 год) 61,1 67,3
GPT-3.5-0613 Бинарный (Pelrine et al.2023 год) 55,7 53,6
Лама-2-13Б (Ю и др.2023 год) 50,0
Лама-2-70Б (Ю и др.2023 год) 49,1
GPT-4-0314 Ноль 67,9 67,6
GPT-4-0613 Ноль 66,7 65,1
GPT-3.5-0301 Бинарный 63,2 65,5
Оценка GPT-3.5-0613 58,6 62,2
GPT-3.5-0301 Ноль 54,5 57,3
GPT-3.5-0613 Ноль 44,1 53,7
zephyr-7b-alpha Объясни-Тогда-Оцени 62,2 62,8
zephyr-7b-beta Объясни-Тогда-Оцени 63,2 62,9
зефир-7b-бета Ноль 61,4 58,8
Mistral-7B-Instruct-v0.1 (f16) Объясните-тогда-оцените 59,2 57,1
OpenOrca-Platypus2-13B Объясните, затем оцените 55,5 55,7

Результаты таблицы  1 показывают, что Zephyr является жизнеспособной моделью с открытым исходным кодом в этой области. Он не только находится в пределах пары баллов от результатов GPT-4 «Объясни, затем оценивай», но также превосходит GPT-4 Score Zero-Shot на LIAR-New. Другие модели с открытым исходным кодом дают плохие результаты (например, производительность Llama-2 здесь почти случайна), поэтому Zephyr предоставляет надежный, проверенный вариант для контекстов, где важен LLM с открытым исходным кодом. Также важно отметить, что Zephyr превосходит гораздо более крупные модели, такие как в 10 раз большую версию Llama-2 70B.

В LIAR модели GPT-4 демонстрируют немного большее преимущество перед Zephyr, особенно благодаря конструкции «Объясни, затем оцени». Это расхождение может частично быть связано с более поздними обучающими данными Zephyr, которые не дают столь существенной выгоды в этом контексте, как набор данных LIAR-New (поскольку набор данных LIAR-New был создан для включения данных после даты прекращения знаний GPT-4, но не выходит за рамки Зефира). Между тем, GPT-3.5 дает нестабильные результаты. В некоторых случаях это дает превосходную производительность, например, версия 0301 на LIAR с подсказкой Score. Однако в других случаях его производительность ужасна, например, во всех случаях с приглашением Zero. Хотя производительность GPT-4 варьируется, она не в одинаковой степени, и Zephyr тоже не испытывает такого падения производительности при появлении подсказки Zero. Следовательно, использование GPT-3.5 требует осторожности, например, использования подсказок, о которых известно, что он работает, или тщательного тестирования различных подсказок.

Таблица 2:Исполнение модели на CT-FAN. Результаты Zephyr с нулевым выстрелом находятся на одном уровне или даже лучше, чем у самых мощных известных моделей, отличных от OpenAI. Хотя это и не так мощно, как у OpenAI, это показывает, что эта альтернатива с открытым исходным кодом по-прежнему жизнеспособна при более длинных входных данных.
Модель Английский Немецкий
GPT-4-0314 Оценка Zero-Shot (Pelrine et al.2023 год) 42,8 38,7
GPT-3.5-0301 Оценка Zero-Shot (Ю и др.2023 год) 43,7
Пред. Английский SOTA (Табуби, Несир и Хаддад2022 год) 33,9
Пред. Немецкая SOTA (Тран и Крушвиц2022 год) 29,0
RoBERTa-Large (Pelrine et al.2023 год) 26,8
Лама-2-13Б (Ю и др.2023 год) 21.2
Лама-2-70Б (Ю и др.2023 год) 25,4
zephyr-7b-beta Объясни-Тогда-Оцени 33,0 30,0

В Таблице  2 мы исследуем производительность нескольких моделей в наборе данных CT-FAN. Здесь модель Zephyr-7b-beta достигает производительности, сравнимой с SOTA, не поддерживающим OpenAI, как на английском, так и на немецком языке. Поскольку эти старые подходы точно настроены на CT-FAN, а Zephyr — нет, это показывает, что Zephyr дает разумные результаты, чего опять же нельзя сказать о таких альтернативах, как Llama-2. Тем не менее, эта производительность заметно ниже, чем ее относительная производительность в наборах данных LIAR и LIAR-New. Снижение производительности CT-FAN можно объяснить несколькими факторами, включая сложность и разнообразие набора данных, а также гораздо больший размер подсказки по сравнению с LIAR и LIAR-New. CT-FAN с его детальным и насыщенным контекстом контентом, возможно, проверяет пределы возможностей Zephyr, подчеркивая проблемы, с которыми сталкиваются модели с открытым исходным кодом при обработке более сложных сценариев дезинформации. Этот контраст с производительностью GPT-4-0314 позволяет предположить, что, хотя модели с открытым исходным кодом, такие как Zephyr, сокращают разрыв в определенных областях, они по-прежнему отстают в более сложных задачах обнаружения дезинформации. Тем не менее, поскольку Zephyr-7b действительно обеспечивает сопоставимую или лучшую производительность, чем предыдущие обученные модели SOTA, не относящиеся к OpenAI, мы приходим к выводу, что это по-прежнему жизнеспособная базовая модель для работы с данными такого типа.

Вызов функций GPT-4

Таблица 3:Сравнение вызовов функций GPT-4. Это не ухудшает производительность и по неизвестным причинам значительно улучшает ее с помощью 1106 на CT-FAN.
Модель ЛЖЕЦ-Новый ЛЖЕЦ CT-FAN (английский)
GPT-4-0314 «Объясни, затем оцени» (Pelrine et al.2023 год) 65,5 68,4 43,4
GPT-4-0613 Объясните, затем оцените (Pelrine et al.2023 год) 65,3 64,9 42,5
GPT-4-0613 Вызов функций 64,0 65,5 42,3
GPT-4-1106 Вызов функций 67,7 63,3 49,6

Затем мы расширим наш подход к структурированным подсказкам на GPT-4 посредством вызова функций, стремясь понять, какое влияние это может оказать на производительность. Наши результаты, как показано в таблице 2, показывают, что вызов функций с помощью GPT-4 эффективно поддерживает высокий уровень производительности, приближаясь или превосходя результаты метода «Объясни, затем оцени». Это демонстрирует возможность получения структурированных результатов без значительного ущерба для точности модели при обнаружении дезинформации.

Обновления GPT-4

Таблица 4:Сравнение GPT-4-1106 с GPT-4-0314 с помощью подсказки Score (последний из (Pelrine et al.2023 год) ) Новая версия GPT-4 имеет хорошую производительность и улучшена на основе более поздних данных (LIAR-New).
Модель LIAR-New ЛЖЕЦ CT-FAN английский CT-FAN немецкий
GPT-4-0314 60,5 64,9 42,8 38,7
GPT-4-1106-preview 64,9 62,4 43,1 35,7

Результаты таблицы 3, демонстрирующие производительность последней итерации GPT-4, GPT-4-1106, показывают, что она хорошо конкурирует со своим предшественником, который показал самые высокие показатели в (Pelrine et al.2023 год) , GPT-4-0314, по различным критериям обнаружения дезинформации. Примечательно, что GPT-4-1106 демонстрирует значительно улучшенную производительность на наборе данных LIAR-New с показателем F1 64,9, что потенциально отражает его обучение на более поздних данных (набор данных LIAR-New основан на политических заявлениях, сделанных после основного ограничения знаний более старые версии GPT-4, поэтому многие примеры могут отражать более поздние события). Однако в наборе данных LIAR он немного отстает от GPT-4-0314, который набрал 64,9 балла по сравнению с 62,4 балла у GPT-4-1106.

Поскольку (Пельрин и др.2023 год; Чен, Захария и Цзоу2023 год) показало, что производительность GPT-4 может значительно снизиться между версиями, эта проверка имеет решающее значение перед использованием новейшей версии в этом домене. Наши результаты показывают, что, хотя самая последняя версия GPT-4 существенно не уступает по производительности, она также не превосходит своих предшественников заметно, несмотря на более поздние данные обучения. С одной стороны, этот результат открывает возможности для использования новой модели и ее функций, таких как более низкая стоимость и API-интерфейс Assistants. С другой стороны, это предлагает возможности для небольших моделей с открытым исходным кодом, чтобы преодолеть разрыв, поскольку GPT-4 не имеет значительного прогресса в этой области. Поскольку эти модели продолжают развиваться и совершенствоваться, они вскоре могут конкурировать с возможностями патентованных моделей, таких как GPT-4, особенно в конкретных контекстах, таких как обнаружение дезинформации.

Обсуждение

Подводя итог, можно сказать, что данная статья раскрывает нюансы ситуации, в которой как проприетарные модели, так и модели с открытым исходным кодом демонстрируют различные возможности обнаружения дезинформации, причем некоторые модели явно превосходят другие. Не все модели, независимо от того, являются ли они открытыми или проприетарными, демонстрируют одинаковую способность обнаруживать дезинформацию. Это очевидно из разочаровывающих и непоследовательных результатов таких моделей, как GPT-3.5 и Llama-2, в широко применяемых тестах обнаружения дезинформации, что подчеркивает необходимость тщательного выбора и оценки моделей в этой области.

Ключевым выводом этого исследования является появление меньших моделей с открытым исходным кодом, в частности версий Zephyr, которые в этом контексте начинают приближаться к производительности GPT-4. Это подчеркивает значительный сдвиг в сторону демократизации передовых технологий искусственного интеллекта. Преимущества моделей с открытым исходным кодом, такие как доступность, прозрачность и адаптируемость, особенно заметны в контексте обнаружения дезинформации — области, где доверие и проверяемость имеют первостепенное значение.

Кроме того, подход структурированного вывода JSON, примененный как к моделям GPT-4, так и к моделям с открытым исходным кодом, оказался полезной методологией систематического анализа и надежного анализа прогнозов дезинформации с прилагаемыми пояснениями. Прошлые исследования показали, что этот подход «Объясни, а затем оцени» повышает производительность за пределами простой базовой бинарной классификации (Pelrine et al.2023 год) . Этот метод особенно важен при применении к моделям с открытым исходным кодом, где ненадежное следование инструкциям может снизить в противном случае стабильную производительность в тестах по обнаружению дезинформации. Дальнейшие исследования могут расширить этот подход в приложениях, где может потребоваться более широкий диапазон результатов, например, при включении веб-поиска для использования дополнительного контекста и доказательств.

Однако важно признать, что не все модели одинаково эффективны. Различия в уровнях их производительности, продемонстрированные в наших экспериментах, подчеркивают необходимость целенаправленных текущих исследований в этой области. Многообещающие результаты таких моделей, как Zephyr, указывают на то, что некоторые модели с открытым исходным кодом становятся сильными конкурентами в тестах по обнаружению дезинформации, в то время как широко используемые альтернативы, такие как Llama-2, могут оказаться не столь эффективными для дальнейших исследований. Аналогично, GPT-3.5-turbo, пожалуй, наиболее часто используемый LLM в этой области. (Чен и Шу2023б) , но наши результаты показывают, что он очень чувствителен к подсказкам и, следовательно, может привести к неопределенным выводам. Например, противоречивые результаты в литературе, такой как (Pelrine et al.2023 год) (обнаружение, что LLM превзошли SLM) и (Hu et al.2023 год) (обнаружение обратного) может быть связано с особыми подсказками и использованием удивительно нестабильного GPT-3.5.

Заключение

В заключение, данное исследование расширяет прошлую работу по обнаружению дезинформации с использованием открытых и проприетарных продвинутых языковых моделей. Хотя запатентованные модели, такие как GPT-4, продолжают лидировать в определенных аспектах, развивающиеся возможности моделей с открытым исходным кодом открывают новые возможности и направления для исследований. Основным выводом является выявление модели с открытым исходным кодом Zephyr, которая демонстрирует конкурентоспособную эффективность в обнаружении дезинформации. Это представляет собой многообещающий инструмент для будущих исследований, способствующий более широким усилиям по борьбе с дезинформацией во все более сложной информационной среде. Мы также показали риски, связанные с наиболее часто используемым LLM для обнаружения дезинформации — GPT-3.5. Наконец, мы проверили новые инструменты, включая структурированный вывод и последнюю версию GPT-4.

Подтверждение того, что легкодоступные модели с открытым исходным кодом достигают эффективности, сопоставимой с современными системами обнаружения «фейковых новостей», мы надеемся, будет способствовать внедрению более надежных и распространенных систем предотвращения дезинформации в реальном мире. В будущей работе мы планируем изучить другие последние модели с открытым исходным кодом, такие как Qwen. (Bai et al.2023 год) . Мы также отмечаем, что наше исследование ограничивалось подходами с нулевым выстрелом. Подходы с небольшим количеством выстрелов и особенно с точной настройкой могут стать заслуживающими внимания областями для будущих исследований.

Благодарности

Эта работа частично финансировалась программой CIFAR AI Chairs и Berkeley SPAR. Мы благодарим SPAR за объединение сотрудников для начала проекта.

Вклад автора

Тайлер Верго руководил исследованиями, экспериментами и написанием статей для этого проекта. Жан-Франсуа Годбу и Рейхане Раббани консультировали проект, делясь идеями и отзывами. Келлин Пелрин курировала проект, предоставляя рекомендации и обратную связь на всех этапах.

Рекомендации

  • Бай и др. (2023)
  • Бай, Дж.; Бай, С.; Чу ý.; Кюи, З.; Данг, К.; Дэн, X.; Фан, Ю.; Ге, В.; Хан, Ю.; Хуанг, Ф.; Хуэй, Б.; Джи, Л.; Ли, М.; Лин, Дж.; Лин, Р.; Лю, Д.; Лю, Г.; Лу, К.; Лу, К.; Ма, Дж.; Мен, Р.; Рен, X.; Рен, X.; Тан, К.; Тан, С.; Ту, Дж.; Ван, П.; Ван, С.; Ван, В.; Ву, С.; Сюй, Б.; Сюй, Дж.; Ян, А.; Ян, Х.; Ян, Дж.; Ян, С.; Яо, Ю.; Ю, Б.; Юань, Х.; Юань, З.; Чжан, Дж.; Чжан, X.; Чжан, Ю.; Чжан, З.; Чжоу, К.; Чжоу, Дж.; Чжоу, X.; и Чжу, Т. 2023. Технический отчет Квен. Препринт arXiv arXiv:2309.16609 .
  • Бичинг и др. (2023)
  • Бичинг, Э.; Фурье, К.; Хабиб, Н.; Хан, С.; Ламберт, Н.; Раджани, Н.; Сансевьеро, О.; Танстолл, Л.; и Вольф, Т. 2023. Откройте таблицу лидеров LLM. https://huggingface.co/spaces/HuggingFaceH4/open˙llm˙leaderboard .
  • Карамансион (2023)
  • Карамансьон, К. М. 2023 г. Использование возможностей ChatGPT для уничтожения ложной/дезинформации: использование ChatGPT для обнаружения фейковых новостей. В 2023 году Всемирный конгресс IEEE по искусственному интеллекту и Интернету вещей (AIIoT) , 0042–0046.
  • Чен и Шу (2023a)
  • Чен, К.; и Шу, К. 2023a. Можно ли обнаружить дезинформацию, сгенерированную LLM? arXiv: 2309.13788.
  • Чен и Шу (2023b)
  • Чен, К.; и Шу, К. 2023b. Борьба с дезинформацией в эпоху магистратуры: возможности и проблемы. Препринт arXiv arXiv:2311.05656 .
  • Чен, Захария и Цзоу (2023)
  • Чен, Л.; Захария, М.; и Цзоу, Дж. 2023. Как поведение ChatGPT меняется с течением времени? arXiv: 2307.09009.
  • Чен и др. (2023)
  • Чен, М.; Вэй, Л.; Цао, Х.; Чжоу, В.; и Ху, С. 2023. Могут ли модели большого языка понимать контент и распространение для обнаружения дезинформации: эмпирическое исследование? arXiv: 2311.12699.
  • Чуанг и др. (2023)
  • Чуанг, Ю.-С.; Се, Ю.; Луо, Х.; Ким, Ю.; Гласс, Дж.; и Он, П. 2023. DoLa: декодирование путем контрастирования слоев повышает фактологичность в больших языковых моделях. arXiv: 2309.03883.
  • Деттмерс и Зеттлмойер (2023)
  • Деттмерс, Т.; и Зеттлмойер, Л. 2023. Аргументы в пользу 4-битной точности: законы масштабирования k-битного вывода. arXiv: 2212.09720.
  • Гэн и др. (2023)
  • Гэн, С.; Йосифоски, М.; Пейрар, М.; и Уэст, Р. 2023. Декодирование с ограничениями по грамматике для структурированных задач НЛП без точной настройки. arXiv: 2305.13971.
  • Мотыги, Алтай и Бермео (2023)
  • Хоэс, Э.; Алтай, С.; и Бермео, Дж. 2023. Использование ChatGPT для эффективной проверки фактов.
  • Ху и др. (2023)
  • Центр.; Шэн, Кью; Цао, Дж.; Ши, Ю.; Ли, Ю.; Ван, Д.; и Ци, П. 2023. Плохой актер, хороший советчик: изучение роли больших языковых моделей в обнаружении фейковых новостей. arXiv: 2309.12247.
  • Цзян и др. (2023)
  • Цзян, AQ; Саблероллес, А.; Менш, А.; Бэмфорд, К.; Шаплот, Д.С.; де лас Касас, Д.; Брессан, Ф.; Лендьел, Г.; Лэмпл, Г.; Солнье, Л.; Лаво, Л.Р.; Лашо, Массачусетс; Сток, П.; Скао, Т.Л.; Лавриль, Т.; Ван, Т.; Лакруа, Т.; и Сайед, З.Е., 2023 г. Мистраль 7Б. arXiv: 2310.06825.
  • Кёлер и др. (2022)
  • Келер, Дж.; Шахи, Г.К.; Штрус, Дж. М.; Виганд, М.; Сигел, М.; 0001, Т.М.; и Шютц, М. 2022. Обзор CLEF-2022 CheckThat! Лабораторная работа: Задача 3 по обнаружению фейковых новостей. В Фаджиоли, Г.; 0001, Н.Ф.; Хэнбери, А.; и Поттаст, М., ред., «Протоколы рабочих заметок CLEF 2022 — конференция и лаборатории форума по оценке», Болонья, Италия, 5–8 сентября 2022 г. , том 3180, Материалы семинара CEUR , 404–421. CEUR-WS.org.
  • Мохсени и др. (2021)
  • Мохсени, С.; Ян, Ф.; Пентьала, С.; Ду, М.; Лю, Ю.; Лупфер, Н.; Ху, Х.; Джи, С.; и Рэган, Э. 2021. Объяснения машинного обучения для предотвращения чрезмерного доверия к обнаружению фейковых новостей. В материалах международной конференции AAAI по Интернету и социальным сетям , том 15, 421–431.
  • Пелрин и др. (2023)
  • Пелрин, К.; Имуза, А.; Тибо, К.; Рексопроджо, М.; Гупта, К.; Кристоф, Дж.; Годбаут, Ж.-Ф.; и Раббани, Р. 2023. На пути к надежному предотвращению дезинформации: обобщение, неопределенность и GPT-4. arXiv: 2305.14928.
  • Квелле и Бовет (2023)
  • Квелле, Д.; и Бовет, А. 2023. Опасности и перспективы проверки фактов с помощью больших языковых моделей. arXiv: 2310.13549.
  • Щепаньский и др. (2021)
  • Щепаньский, М.; Павлицкий, М.; Козик Р.; и Хорас, М. 2021. Новый метод объяснения модели на основе BERT при обнаружении фейковых новостей. Научные отчеты , 11 (1).
  • Табуби, Несир и Хаддад (2022)
  • Табуби, Б.; Нессир, Массачусетс Б.; и Хаддад, Х. 2022. iCompass на CheckThat! 2022: объединение глубоких языковых моделей для обнаружения фейковых новостей. Рабочие заметки CLEF .
  • Туврон и др. (2023)
  • Туврон, Х.; Мартин, Л.; Стоун, К.; Альберт, П.; Альмахаири, А.; Бабаи, Ю.; Башлыков Н.; Батра, С.; Бхаргава, П.; Бхосале, С.; Бикель, Д.; Блечер, Л.; Феррер, CC; Чен, М.; Кукурулл, Г.; Эсиобу, Д.; Фернандес, Дж.; Фу, Дж.; Фу, В.; Фуллер, Б.; Гао, К.; Госвами, В.; Гоял, Н.; Хартшорн, А.; Хоссейни, С.; Час.; Инан, Х.; Кардас, М.; Керкез, В.; Хабса, М.; Клоуманн, И.; Коренев А.; Кура, PS; Лашо, Массачусетс; Лавриль, Т.; Ли, Дж.; Лискович, Д.; Лу, Ю.; Мао, Ю.; Мартине, X.; Михайлов Т.; Мишра, П.; Молибог, И.; Не, Ю.; Поултон, А.; Рейзенштейн, Дж.; Рунгта, Р.; Салади, К.; Шелтен, А.; Сильва, Р.; Смит, EM; Субраманиан, Р.; Тан, XE; Тан, Б.; Тейлор, Р.; Уильямс, А.; Куан, Дж. Х.; Сюй, П.; Ян, З.; Заров И.; Чжан, Ю.; Фан, А.; Камбадур, М.; Наранг, С.; Родригес, А.; Стойнич, Р.; Эдунов С.; и Сиалом, Т. 2023. Лама 2: Открытая основа и точно настроенные модели чата. arXiv: 2307.09288.
  • Тран и Крушвиц (2022)
  • Тран, Х.-Н.; и Крушвиц, Ю., 2022 г. ur-iw-hnt на CheckThat!-2022: межъязыковое суммирование текста для обнаружения фейковых новостей. В Фаджиоли, Г.; 0001, Н.Ф.; Хэнбери, А.; и Поттаст, М., ред., Труды рабочих заметок CLEF 2022 — Конференция и лаборатории Форума по оценке, Болонья, Италия, 5–8 сентября 2022 г. , том 3180, Материалы семинара CEUR , 740–748. CEUR-WS.org.
  • Танстолл и др. (2023)
  • Танстолл, Л.; Бичинг, Э.; Ламберт, Н.; Раджани, Н.; Расул, К.; Белкада, Ю.; Хуанг, С.; фон Верра, Л.; Фурье, К.; Хабиб, Н.; Саррацин, Н.; Сансевьеро, О.; Раш, утра; и Вольф, Т. 2023. Зефир: прямая перегонка LM Alignment. arXiv: 2310.16944.
  • Ван (2017)
  • Ван, Вайоминг, 2017 г. «Лжец, лжец в штанах горит»: новый эталонный набор данных для обнаружения фейковых новостей. В Барзилай, Р.; и Кан, М.-Ю., ред., Труды 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи) , 422–426. Ванкувер, Канада: Ассоциация компьютерной лингвистики.
  • Ю и др. (2023)
  • Ю, Х.; Ян, З.; Пелрин, К.; Годбаут, Дж. Ф.; и Раббани, Р. 2023. Открытые, закрытые или малоязыковые модели классификации текста? arXiv:2308.10092.
  • Чжан и Гао (2023)
  • Чжан, X.; и Гао, В., 2023 г. К проверке фактов новостных заявлений на основе LLM с помощью иерархического пошагового метода подсказок. arXiv:2310.00305.
  • Чжоу и др. (2023)
  • Чжоу, Дж.; Чжан, Ю.; Луо, К.; Паркер, AG; и Де Чоудхури, М. 2023. Синтетическая ложь: понимание дезинформации, генерируемой искусственным интеллектом, и оценка алгоритмических и человеческих решений. В материалах конференции CHI 2023 года по человеческому фактору в вычислительных системах , CHI ’23. АКМ.

Приложение: Подробные подсказки

Вызов функций с помощью GPT-4

Вызов функций — это функция, предоставляемая OpenAI API. Этот метод позволяет пользователям определять конкретные задачи или «функции» для выполнения модели. Вызов функции аналогичен вызову функции в традиционном программировании, где выполняется набор инструкций для возврата определенного результата. В контексте обнаружения дезинформации вызов функций особенно ценен, поскольку он обеспечивает структурированный и последовательный вывод, что является критически важным требованием для точного анализа информации и ее возможной обработки последующими приложениями.

Для наших экспериментов мы использовали структурированную подсказку, которая была разработана, чтобы помочь GPT-4 оценить правдивость утверждений и предоставить соответствующую оценку и объяснение. Этот подход был предназначен для проверки способности модели различать и формулировать точность информации в четкой и структурированной форме. Подсказка, показанная ниже, отражает формулировку, использованную в предыдущих исследованиях (Pelrine et al.2023 год) , но был адаптирован для контекста вызова функции.

1{
2  » name «: » detect_misinformation «, 
3  » description » : » Оцените правдивость утверждения » ,      
4  » параметры «: { 
5    « тип »: « объект », 
6    » характеристики «: { 
7      » счет «: { 
8        « тип »: « номер », 
9        » description «: » Оценка от 0 до 100, где 0 означает абсолютно ложное утверждение , а 100 – абсолютно верное , в зависимости от доступного контекста                      
10      },
11      » объяснение «: { 
12        » тип «: » строка «, 
13        » description » : » Объяснение оценки утверждения и итогового балла . Не рассчитывайте балл , пока не предоставите тщательный анализ . «                      
14      }
15    },
16    » обязательно «: оценка «, » объяснение «]  
17  }
18}
19
20сообщения =[{
21    » роль «: » пользователь «, 
22    » content » : » Оцените правдивость следующего утверждения : { утверждение } «        
23}]

Оценка локальной модели

Чтобы получить структурированный и анализируемый формат вывода, мы использовали библиотеку llama.cpp, которая позволяет задавать грамматику в форме Бэкуса-Наура. Эта функция сыграла важную роль в обеспечении вывода в допустимом формате JSON. Обеспечение вывода JSON концептуально похоже на подход к вызову функций с помощью GPT-4, направленный на оптимизацию процесса синтаксического анализа и анализа.

Там, где это возможно, мы создаем подсказки для моделей с открытым исходным кодом, настроенных с помощью инструкций, на основе шаблона подсказки, используемого во время точной настройки. Здесь мы основываем следующую подсказку на карточке модели Zephyr, опубликованной на веб-сайте HuggingFace.

1<| система |>
2Ваша задача дать оценку от 0 до 100, где 0 означает абсолютно ложное утверждение , а 100 абсолютно верное , но вы не должны указывать свою оценку до тех пор , пока не представите тщательный анализ . Верните объект JSON с двумя ключами .Сначала ваш анализ с помощью клавиши « объяснение » , затем оценка с помощью клавиши « оценка » .Оценка должна соответствовать анализу и вашей оценке правдивости утверждения .Вы всегда должны указывать оценку .                                                                         
3</s>
4<| пользователь |>
5Оцените правдивость следующего утверждения : { утверждение }       
6</s>
7<| помощник |>

Для CT-FAN и Zephyr-beta мы переключаемся на следующую подсказку, которая, как мы видим, обеспечивает более стабильную производительность при работе с более крупными подсказками.

1<| пользователь |>
2Оцените правдивость следующего утверждения : { утверждение < / s >       
3<| пользователь |>
4Ваша задача дать оценку от 0 до 100, где 0 означает абсолютно ложное утверждение , а 100 абсолютно верное , но вы не должны указывать свою оценку до тех пор , пока не представите тщательный анализ . Верните объект JSON с двумя ключами .Сначала ваш анализ с помощью клавиши « объяснение » , затем оценка с помощью клавиши « оценка » .Оценка должна соответствовать анализу и вашей оценке правдивости утверждения .Вы всегда должны указывать оценку . </ s >                                                                         
5<| помощник |>

Источник:
https://arxiv.org/html/2401.06920v1

Оцените статью
( Пока оценок нет )

Добавить комментарий