В эпоху цифровых технологий быстрое распространение новостей через платформы социальных сетей привело к появлению
серьезная проблема – распространение фейковых новостей. Это явление сеет путаницу среди
общественности и угрожает основам информированного дискурса и демократии. Решая этот вопрос,
настоящее исследование исследует применение представлений двунаправленного кодера от трансформаторов.
(BERT) модель обнаружения фейковых новостей. Благодаря своей архитектуре глубокого обучения и контекстному
понимания языка, BERT предлагает многообещающую основу для этой цели. Модель прошла обучение
и проверено на наборе данных, позволяющем различать «фейковые» и «правдивые» новости, достигая точности
79,88% и площадь под кривой рабочей характеристики приемника (ROC) (AUC) 0,87. Эти
показатели подчеркивают умение модели правильно классифицировать новостные статьи. Результаты исследования
продемонстрировать потенциал BERT в области обнаружения фейковых новостей, предоставляя новый инструмент для социальных сетей.
Несмотря на свою эффективность, исследование также подчеркивает ценность модели, ограничения, включая колебания точности проверки и склонность ошибочно классифицировать правдивые новости как фейковые, указание областей для будущего улучшения. Данное исследование способствует постоянным усилиям по обеспечению целостность новостного контента и предлагает основу для последующих исследований достоверности информации.
Распространение дезинформации, особенно в политической сфере, серьезно затрудняет целостность демократических процессов и информированный общественный дискурс [1]. Появление социальных медиа и онлайн-платформы экспоненциально усилили распространение и влияние дезинформации.[2]. Это потребовало разработки надежных и эффективных вычислительных инструментов для выявления и смягчить последствия ложной информации.
Актуальность этого вопроса иллюстрируется в контексте недавней глобальной политической нестабильности.
в первую очередь российское полномасштабное вторжение в Украину [3]. Эта война ознаменовалась не только
посредством физической конфронтации, но и информационной войны, в которой использовалась дезинформация, как стратегический инструмент влияния на общественное мнение, посеяния раздора и манипулирования нарративами[4].
Быстрое распространение ложной информации о конфликте, его истоках и продолжающееся развитие событий серьезно угрожает международному миру и стабильности. В таком сценарии быстро и точно отличать фактическую информацию от пропаганды приобретает первостепенное значение.
Этот конфликт иллюстрирует более широкие последствия дезинформации в международных отношениях.
и национальная безопасность [5]. Использование дезинформации в контексте российской войны на Украине
имело далеко идущие последствия, затрагивая не только воюющие страны, но имеждународные альянсы, экономическую стабильность и глобальную информационную экосистему [6]. В таких ситуациях ложные повествования могут привести к эскалации напряженности, увековечению враждебных действий и препятствованию дипломатическим усилия. Следовательно, существует острая потребность в современных инструментах, способных эффективно идентифицировать
и противодействие такой дезинформации.
В данной статье представлен новый подход к решению этой проблемы путем использования
Bidirectional Encoder Representations from Transformers (BERT) [7]. BERT – революционная разработка в области обработки естественного языка (NLP), предлагающая сложную механизм понимания контекста в тексте. Его архитектура глубокого обучения, предварительно обученная на обширном корпус текста, способен улавливать нюансы языка, что делает его идеальным кандидатом для обнаружение дезинформации в политических новостях.
Стимулом к этому исследованию послужила острая необходимость подтвердить достоверность
информация в политической сфере. Дезинформация в политических новостях может исказить общественное восприятие.
манипулировать результатами выборов и подрывать доверие к демократическим институтам. Таким образом, развиваются
эффективные инструменты противодействия дезинформации — это не только техническая задача, но и гражданский императив .
В этом исследовании исследуется применение модели BERT для конкретной задачи обнаружениядезинформация в политических новостных статьях. Предполагается, что расширенный язык BERT дадут возможность понимания, как могут быть использованы для различения между фактическими сообщениями и дезинформация. Обучая модель на наборе данных, включающем как аутентичные источники новостей, так и как известные распространители дезинформации, мы стремимся создать систему, способную проводить это различие с высокой точностью.
Продвигая применение BERT в политических новостях, это исследование способствует более широким усилиям по борьбе с дезинформацией и поддержанию целостности общественного дискурса в цифровой век.
2. Анализ текущих исследований
Обнаружение дезинформации, особенно в политических новостях, является динамичной областью исследований, отмеченных разнообразными методологиями и развивающимися технологиями. Текущие исследования в этом направлении в первую очередь фокусируется на использовании передовых вычислительных методов, включая машинные обучения и обработки естественного языка, для разработки систем, способных идентифицировать и классификация новостного контента на предмет его подлинности. В этом разделе критически анализируются современные научные работы, внесшие значительный вклад в эту область. Эти исследования имеют различные аспекты обнаружения фейковых новостей, начиная от разработки алгоритмических моделей и заканчивая изучение лингвистических и семантических закономерностей, характерных для дезинформации. Последующий анализ этих статей позволит углубиться в их методологию, выводы и последствия их
вклад в борьбу с дезинформацией в цифровую эпоху.
В статье [8] рассматривается важнейшая проблема распространения дезинформации, в том числе фейковых новостей.
пропаганда и теории заговора, которые представляют серьезную угрозу обществу потенциально изменение убеждений, поведения и политики. Авторы предлагают новую теоретическую модель для объяснения психологические факторы, лежащие в основе распространения дезинформации, и эффективные стратегии ее предотвращения и снижения. Эта модель объединяет идеи предыдущих исследований, охватывающих различные психологические аспекты, такие как партийная предвзятость, аналитическое мышление и потребность в хаосе. Модель структурирована по нескольким путям: рост веры в дезинформацию, ведущий к увеличению обмен, прямое увеличение обмена даже без укрепления убеждений, а также роль
психологические факторы риска, связанные с увеличением воздействия дезинформации, веры в нее и распространения дезинформации. Этот комплексный подход включает в себя данные психологии личности, когнитивной психология, политической психологии и политологии, обеспечивающие многогранное понимание феномена дезинформации и предложение мер вмешательства для различных заинтересованных сторон, включая пользователей, средств массовой информации, онлайн-платформы, политиков и учреждения.
Исследование [9], проведенное в виде двухволнового панельного опроса в Чили, фокусируется на пересечении
психологических, социальных и политических факторов в распространении фейковых новостей. Использование регрессии OLS в
модель лагированной зависимой переменной, исследование анализирует, как личные черты, такие как теорию заговора, доверие к другим, образование, пол, использование социальных сетей и политические взгляды влияют на распространение фейковых новостей, их убеждения и распространение. Ключевые результаты указывают на значительную взаимосвязь между
воздействием и верой в фейковые новости и их последующее распространение. В то же время частое использование социальных медиа неожиданно коррелирует с меньшей верой в фейковые новости. Ограничения исследования включают высокий процент отсева между волнами опросов и отсутствие различий между темами фейковых новостей.
Это исследование способствует пониманию многогранной природы распространения дезинформации, подчеркивая необходимость более всесторонних исследований в этой области.
Исследование [10] направлено на обнаружение фейковых новостей во время инфодемии COVID-19 с использованием нового
исходного метода. Этот подход анализирует сообщество распространителей новостей, в том числе посты и ретвиты, связанные отношениями подписчиков в Twitter. Исследование сочетает в себе сложные сетевые измерения и функции профиля пользователя в машинном обучении структуру для классификации твитов. Обширный сравнительный анализ с использованием одиннадцати моделей машинного обучения и двух моделей глубокого обучения показали, что объединение гибридных функций значительно превосходят отдельные сетевые или пользовательские функции. Наиболее эффективными моделями оказались Ensemble бусты. Модель CATBoost и модель глубокого обучения RNN, достигнув показателя AUC 98%. Методология и результаты подчеркивают эффективность включения как сетевой динамики, так и пользовательские профильные характеристики при выявлении дезинформации в контексте глобального кризиса в области здравоохранения.
В исследовании [11] представлен комплексный подход к выявлению фейковых новостей с использованием лингвистических средств анализа. Сосредоточив внимание на политическом контенте в социальных сетях, исследование включает 26 важных
лингвистические особенности, выбранные на основе коэффициента корреляции Пирсона. Эти функции включают в себя
сложность, индекс читабельности, психолингвистические и стилометрические особенности. В исследовании используются три
методы извлечения признаков – частота терминов, обратная частоте документов (tf-idf), количество векторизатор (CV) и хеш-векторизатор (HV) — для обработки данных. Модели машинного обучения были затем применимы к четырем различным наборам данных, достигнув высокой точности: 93,8% для случайных политических данных, 90 % для набора данных Buzzfeed, 86,9 % для набора данных Mc_Intire и 90,8 % с использованием набор данных Reuters. Эффективность системы подчеркивается ее улучшенной производительностью по сравнению с существующими современными методами. Будущая работа направлена на расширение диапазона лингвистических функций и наборов данных, изучение методов обнаружения фейковых новостей в реальном времени и различных архитектурных конструкций.
В исследовании [12] изучается противоречивая тенденция популярных и считающихся надежными источников новостей, получившие наибольшее количество пометок в социальных сетях. Исследование представляет «биполярную» модель, основанную
исходя из предположения, что поляризация пользователей существенно влияет на пометку новостей, включающие такие факторы, как эхо-камеры, предвзятость подтверждения и платформа, индуцированная поляризация. Модель предсказывает, что умеренные и правдивые источники новостей с большей вероятностью будут помечены из-за их более широкого распространения и, как следствие, воздействия на поляризованные группы пользователей. В напротив, поляризованные и потенциально неправдивые новости с меньшей вероятностью будут распространяться среди различных сегментах сети и, следовательно, реже помечаются. Результаты исследования показывают, что нейтральные новости преимущественно отмечаются в сильно поляризованной среде, что указывает на потенциальный недостаток в существующих механизмах пометки, используемых платформами социальных сетей для выявления дезинформация.
Текущая ситуация с обнаружением дезинформации показывает сложное взаимодействие между поведением пользователя, лингвистическими особенностям и методами машинного обучения. Проанализированные исследования варьируются от
изучение тонкостей поляризации пользователей в механизмах маркировки использования языковых функции обнаружения фейковых новостей, каждая из которых дает уникальное представление о многогранной природе дезинформация. Эти идеи подчеркивают необходимость в сложных, адаптивных моделях для ориентироваться в нюансах фейковых новостей. Это подводит нас к следующему этапу исследования: применению BERT. Расширенные возможности BERT в понимании языкового контекста в сочетании благодаря своей архитектуре глубокого обучения позиционирует его как многообещающее решение для решения проблем подчеркивают эти исследования. Интегрируя знания, полученные в результате текущих исследований, и используя
Благодаря мощной вычислительной мощности BERT мы стремимся разработать более эффективный и детальный подход к
выявление и борьба с дезинформацией в цифровой сфере.
3. Материалы и методы
3.1. BERT-модель
Модель BERT представляет собой значительный прогресс в NLP, особенно в области обнаружения фейковых новостей. Основная инновация BERT, разработанная исследователями Google, заключается в ее способности
понимать контекст слов в предложении двунаправленно, а не традиционный однонаправленый или последовательный подход [7]. Эта контекстуальная осведомленность имеет решающее значение для понимания тонкости и сложности языка, которые необходимы для точного обнаружения фейковых новостей.
BERT работает по принципу преобразователей — моделей, обрабатывающих слова о все остальные слова в предложении, а не по одному, по порядку. Это позволяет получить более целостное понимание структуры и значения предложения. Модель предварительно обучена на большом корпусе текста, что позволяет ему изучать различные языковые модели и нюансы. Эта предварительная подготовка включает в себя такие задачи, как предсказание пропущенных слов в предложении, что помогает модели понять контекст отношения между словами.
Для обнаружения фейковых новостей BERT можно настроить с помощью наборов данных для конкретных новостей. Эта тонкая настройка включает в себя обучение модели на наборе данных, содержащем как законные, так и фейковые новости, что позволяет ей изучить характеристики и закономерности, отличающие подлинные новости от дезинформации.
Сила BERT заключается в его способности часто понимать тонкие сигналы и языковые вариации, указывающие на фейковые новости, такие как преувеличенные заявления, противоречивая информация или сенсационные новости.
Применение BERT для обнаружения фейковых новостей включает в себя несколько этапов.
Во-первых, текстовое содержание новостных статей вводится в модель. Затем BERT обрабатывает это содержимое, учитывая
контекст каждого слова и предложения. Модель генерирует представления текста, которые улавливают, как его лингвистические свойства, так и изученные закономерности фейковых и законных новостей. Окончательно,
эти представления используются для классификации новостей как фейковых или подлинных. Одним из ключевых преимуществ BERT в этом контексте является его способность к передаче обучения. Имея предварительно обученный на большом количестве текста, он может эффективно адаптироваться к конкретному языку и стил новостных статей, даже при относительно небольшом объеме данных для точной настройки. Это делает его очень эффективным и точно выявляет фейковые новости даже в сценариях с ограниченными обучающими данными.
Однако важно отметить некоторые ограничения BERT в этом приложении. Хотя весьма эффективный для понимания языка, BERT требует значительных вычислительных ресурсов, которые может быть ограничением в некоторых средах. Кроме того, производительность модели может быть зависит от качества и репрезентативности обучающих данных. Предвзятый или несбалансированный наборы обучающих данных могут привести к менее точным классификациям.
В процессе обучения нашего классификатора на основе BERT модель обучается в течение нескольких эпох с использованием оптимизатора AdamW и линейного планировщика скорости обучения. Обучение включает в себя обратное распространение ошибки для корректировки весов на основе потерь, рассчитанных на основе прогнозов модели.
по сравнению с реальными этикетками. Производительность модели периодически оценивается при проверке набора данных, оценка точности и создание классификационных отчетов. Это обучение и оценка цикл итеративно улучшает способность модели классифицировать текст как истинный или ложный.
3.2. Данные
Для анализа мы использовали набор данных «Fake-Real News», доступный на Kaggle [13].
набор данных является ключевым ресурсом для исследований в области обнаружения дезинформации, специально предназначенным для обучение и оценка моделей машинного обучения для распознавания подлинных и ложных новостей
содержание. Этот набор данных полезен для практиков и исследователей естественного языка, уделяя особое внимание обнаружению фейковых новостей.
Набор данных, структурированный в табличном формате, состоит из двух отдельных файлов, один из которых содержит поддельные новостные статьи, а другие содержат реальные новости. Каждый файл тщательно организован с столбцы, представляющие различные атрибуты новостных статей, включая заголовок, тело текста и предмет. Столбец заголовка содержит заголовок каждой статьи, что является важным аспектом, поскольку заголовки часто предназначены для привлечения внимания и могут содержать элементы сенсации.
В текстовом столбце представлено полное содержание каждой статьи, представляющее всестороннюю информацию, источник лингвистического анализа для оценки контекста, стиля и подробного повествования, которые являются ключевыми в определение подлинности статьи. Кроме того, столбец «Тема» классифицирует статью по категориям различных областях, таких как политика или мировые события, предлагая понимание потенциального влияния предмет о достоверности новости.
Набор данных характеризуется объемной коллекцией статей, обеспечивающей богатый и разнообразный пул для анализа. Такая широта тем повышает универсальность набора данных, делая его применимо к различным новостным доменам. Его основная полезность заключается в содействии развитию и тестирование моделей машинного обучения для обнаружения фейковых новостей. Он поддерживает ряд аналитических подходы, от классификации текста до анализа настроений и распознавания лингвистических образов.
Однако пользователи этого набора данных должны знать его источник и временные рамки. Новостные статьи для поддержания актуальности модели и ее адаптивности к текущим тенденциям в новостях. Также крайне важно оценить набор данных на предмет потенциальных отклонений или дисбалансов, которые могут повлиять на эффективность и обобщаемость моделей, разработанных с использованием этого ресурса.
4. Результаты
В этом исследовании используется набор показателей производительности для оценки эффективности модели машинного обучения для классификации новостных статей на «фейковые» и «правдивые». Эти показатели включают в себя точность, прецизионность, полнота, показатель F1 и область под рабочей характеристикой приемника.
(ROC) кривая (AUC). Точность измеряет долю правильных прогнозов (оба верных) положительные и истинные отрицательные значения в общем наборе данных, что дает общее представление о модели.
Общая производительность. Точность оценивает точность модели путем измерения соотношения истинных положительных результатов к сумме истинных положительных и ложных положительных результатов, что отражает способность модели возвращать соответствующие результаты. Напомним, или чувствительность, оценивает полноту модели путем расчета коэффициента истинных положительных результатов к сумме истинных положительных и ложных отрицательных результатов, что указывает на возможности модели, чтобы найти все соответствующие экземпляры. Показатель F1 — это гармоническое среднее значение точности и полноты, предлагающее единую меру баланса между ними, что особенно полезно в контексте
несбалансированные наборы данных. Наконец, AUC представляет собой степень, в которой модель может различать
между классами по всем пороговым значениям, при этом более высокий AUC указывает на лучшую модель
производительность. Вместе эти показатели дают полную картину модели, способности классификации, подчеркивая ее сильные стороны и области для улучшения.
Результаты классификации фейковых новостей представлены в таблице 1.
Таблица 1
Эти результаты указывают на относительно высокую производительность модели в различении между
два класса, с немного лучшими показателями в определении класса настоящих новостей, чем класс фейковых
класс новостей. Общая точность и макросредние оценки демонстрируют надежность модели при решении этой задачи классификации.
На рисунке 1 показана потеря эпохи в модели, что иллюстрирует упадок модели машинного обучения в обучении за 15 эпох. По мере развития эпох линия резко снижается, показывая быстрое сокращение потерь на обучение, что говорит о том, что модель быстро учится на данных. Самый крутой спад происходит между эпохами 1 и 4, после чего кривая начинается
выравниваться, что указывает на более медленные темпы улучшения. К 5 эпохе потери значительно сократились и продолжает уменьшаться с предельной скоростью, выходя на плато по мере приближения к 15-й эпохе.
кривой предполагает, что модель достигает точки сходимости, когда дополнительное обучение
практически не дает улучшения в сокращении потерь, что указывает на то, что модель, возможно, достигла
его оптимальная производительность на наборе обучающих данных. В целом, график демонстрирует успешную
процесс обучения, в котором производительность модели с точки зрения ее способности минимизировать потери
функция существенно и последовательно улучшается на протяжении всего периода обучения.
Рисунок 1. Потери в обучении по эпохам
На рисунке 2 показана кривая точного отзыва, графическое представление, обычно используемое для оценить производительность бинарного классификатора. По мере увеличения полноты точность снижается. Предполагая, что, поскольку модель выявляет более высокую долю положительных случаев (истинно положительных случаев), он также начинает включать больше ложных срабатываний, что снижает точность.
Площадь под кривой (AUC) имеет значение 0,82, что указывает на высокий уровень общей производительности модели.
На рисунке 3 показана кривая рабочих характеристик приемника (ROC), которая представляет собой графический график,
иллюстрирует диагностические возможности системы двоичного классификатора, поскольку ее порог дискриминации равен
разнообразный. Кривая ROC показывает, что предложенная модель обеспечивает хорошую меру разделимости.
между двумя классами. Площадь под кривой ROC обозначена как 0,87, что количественно характеризует
общая способность классификатора различать положительные и отрицательные классы.
На рисунке 4 показан график, на котором отслеживается изменение точности проверки модели за 15 эпох.
График показывает значительную изменчивость точности от одной эпохи к другой. Точность
достигает максимума в определенные эпохи (около эпох 1, 5 и 11), достигая максимума чуть выше 0,805. В то же
времени, в других точках он резко падает, причем наиболее заметный провал приходится на эпоху 9, где
точность падает ниже 0,795. Общая тенденция не демонстрирует последовательного улучшения или
снижение точности по мере обучения.
На рисунке 5 показана матрица путаницы, из которой следует, что модель весьма эффективна при
обнаружение фейковых новостей, о чем свидетельствует высокий показатель TP для «Fake». Тем не менее, это также показывает место для улучшения, особенно в сокращении количества FN, где пропускаются фейковые новости, и FP, где
правдивые новости ошибочно помечаются как фейковые. Точность, полнота и общая точность модели могут быть
точно настроен, чтобы лучше сбалансировать производительность обоих классов.
5. Обсуждение
Фейковые новости стали одними из самых распространенных и коварных в современном обществе проблем, способствующие распространению дезинформации, которая просачивается через цифровую экосистему с пагубными последствиями. Ее актуальность выходит за рамки простого академического дискурса и затрагивает
саму ткань демократии, влияя на общественное мнение и формируя политические ландшафты по всему миру[14]. Распространение ложной информации повлияло на результаты выборов последствия, провоцируя социальные волнения и подрывая доверие общества к институтам. Следовательно, разработка эффективных инструментов для обнаружения и предотвращения распространения фейковых новостей – это не только технологический императив, но и социальный, требующий срочных и согласованных усилий.
В этой среде пересечение NLP и машинного обучения представляет собой благодатную почву для
инновации. Появление таких моделей, как BERT, которые могут обрабатывать нюансы человеческой деятельности.
язык с поразительной глубиной открыл новые возможности для выявления фейковых новостей [15].
Значение этого исследования заключается в его потенциале для поддержки алгоритмов, лежащих в основе социальных сетей.
курирование информации на медиа-платформе, тем самым повышая качество и надежность общего содержания. Поскольку социальные сети все больше проникают в повседневную жизнь миллиардов людей, Ответственность за контент становится первостепенной. Таким образом, практическое применение данного исследования перекликаются с острой необходимостью защитить информационный ландшафт от распространение лжи.
Кроме того, стремление усовершенствовать модели обнаружения фейковых новостей также имеет глубокие последствия для области NLP. Это подталкивает предметную область к более сложным моделям, которые может уловить не только семантические нити языка, но также его тонкие сигналы и скрытые значения, которые часто используются для дезинформации. Это исследование вносит вклад в совокупность знания в NLP. Это создает основу для дальнейших исследований, которые могут переопределить границы чего может достичь искусственный интеллект на службе истины.
В исследовании изучалось обнаружение фейковых новостей с использованием передовых методов машинного обучения.
дает глубокие результаты, которые требуют детального обсуждения. Достигнутая точность проверки
составил 79,88%, приличный показатель, предполагающий, что модель имеет большой потенциал для выявления
правдивость новостных статей. Эта точность обеспечивает основу для общей модели производительности, но не раскрывает тонкости его прогнозирующей силы в разных классах новостей.
При дальнейшем анализе результатов мы наблюдали точность 82 % для класса «fake» и 77 % для класса «fake».
класс «true». Эти цифры указывают на похвальный уровень точности, особенно в
выявление фейковых новостей. Хотя точность для класса «True» немного ниже, она по-прежнему существенна.
хотя это намекает на более консервативный подход модели к классификации новостей как правдивых.
Коэффициент запоминания 83% для «Фейкового» и 75% для «Правдивого» показывает, что модель более опытна в
выявлять фейковые новостные статьи, чем выявлять все подлинные новостные статьи, подтверждающие выводы
получено из показателей точности.
Показатель F1, представляющий собой сочетание точности и полноты, составляет 83% для «Фальшивки» и 76% для
«Правда» указывает на хорошо сбалансированную динамику, особенно в отношении «фейковых» новостей. Этот баланс
имеет решающее значение в сценариях, где релевантность результата (точность) и способность идентифицировать все
соответствующие элементы (напоминание) имеют решающее значение.
AUC кривой ROC, равная 0,87, усиливает дискриминационную способность модели. AUC ближе к 1 подразумевает, что модель имеет высокий уровень истинно положительных результатов по сравнению с уровнем ложноположительных результатов, демонстрируя его способность различать «фейковые» и «правдивые» новости. Столь высокая AUC указывает на надежный
модели по различным пороговым значениям, обеспечивая гибкость в развертывании модели на основе конкретных
потребности и компромиссы в реальных сценариях.
Однако матрица путаницы обеспечивает дополнительный уровень понимания, выявляя несоответствие в способности модели классифицировать «фейковые» и «правдивые» новости. В то время как истинный положительный показатель для «Фейка»
новостей много (611 из 733), модель также неправильно классифицировала значительное количество «правдивых»
статьи как «фейковые» (137 из 554), что может иметь существенное значение в контексте новостей, распространения и потребления.
Показатели производительности и матрица путаницы предполагают эффективную модель. Результаты
указывают на похвальную способность отмечать фейковые новости, что является основной целью в контексте
распространение дезинформации. Тем не менее, ошибочная классификация правдивых новостей как фейковых является нетривиальной проблемой. Это могло бы подорвать доверие к законным источникам новостей, если бы модель была использована в реальной обстановке.
Будущая работа могла бы устранить эти ограничения путем изучения ансамблевых методов стабилизации,
прогнозов на разные эпохи, исследование альтернативных архитектур или наборов функций для улучшения
классификацию, особенно для класса «True», и реализацию методов смягчения потенциальных
предвзятостей в обучающих данных.
6. Выводы
Стремление повысить достоверность информации в нашем все более цифровом мире никогда не было настолько критично, и это исследование добилось успехов в использовании машинного обучения для выявления подлинных и мошеннических в распространении новостей. В нашем расследовании использовалась модель BERT, известный своими возможностями обработки контекстного языка, для решения широко распространенной проблемы фейковых новостей.
С научной точки зрения исследование пролило свет на эффективность BERT в такой динамичной области, как
это крайне важно: выявлять дезинформацию. Мы представили комплексный анализ модели, производительность, используя различные показатели, демонстрирующие надежную способность классифицировать новости, статьи точно. Применение BERT для обнаружения фейковых новостей является свидетельством эффективности модели. Универсальность и глубокое понимание языковых нюансов, значительный скачок по сравнению с традиционными векторными моделями.
С практической точки зрения, это исследование предлагает ощутимый прогресс в доступных инструментах.
для медиаплатформ и потребителей новостей. С общей точностью проверки около 80% и поскольку AUC равна 0,87, модель является мощным инструментом для критического анализа достоверности новостей. Показатели точности и отзыва еще раз подчеркивают его практическую полезность в минимизации распространения поддельных новостей. Способность модели эффективно различать классы «Fake» и «True» имеет важное значение. Значительные последствия для платформ социальных сетей и других агрегаторов новостей, стремящихся сохранить целостность своего содержания.
Будущая работа стабилизирует производительность модели и улучшит ее способность к распознаванию,
потенциально с помощью ансамблевых методов или альтернативных методов обучения.
Это исследование предлагает новый подход к обнаружению фейковых новостей, объединяющий самые современные
компьютерная лингвистика с машинным обучением. Он служит маяком для будущих начинаний, стремясь защитить целостность информации и повысить надежность новостей, потребляемых общественностью.
Литература:
[1] M. Mosleh and D. G. Rand, “Measuring exposure to misinformation from political elites on
Twitter,” Nature Communications, vol. 13, no. 1, Nov. 2022, doi: 10.1038/s41467-022-34769-6.
[2] S. Chen, L. Xiao, and A. Kumar, “Spread of misinformation on social media: What contributes
to it and how to combat it,” Computers in Human Behavior, vol. 141, no. 141, p. 107643, Apr. 2023,
doi: 10.1016/j.chb.2022.107643.
[3] V. Tolz and S. Hutchings, “Truth with a Z: disinformation, war in Ukraine, and Russia’s
contradictory discourse of imperial identity,” Post-Soviet Affairs, vol. 39, no. 5, pp. 1–19, Apr. 2023,
doi: 10.1080/1060586x.2023.2202581.
[4] S. Blank, “Russia, China, and Information War against Ukraine,” The Journal of East Asian
Affairs, vol. 35, no. 2, pp. 39–72, 2022.
[5] J. Mandić and D. Klarić, “Case Study of the Russian Disinformation Campaign During the
War in Ukraine – Propaganda Narratives, Goals and Impacts,” National security and the future, vol.
24, no. 2, pp. 97–139, Jul. 2023, doi: 10.37458/nstf.24.2.5.
[6] S.-D. Bachmann, D. Putter, and G. Duczynski, “Hybrid warfare and disinformation: A
Ukraine war perspective,” Global Policy, vol. 14, no. 5, Aug. 2023, doi: 10.1111/1758-5899.13257.
[7] J. Devlin, M.-W. Chang, K. Lee, K. Google, and A. Language, “BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding,” 2019.
[8] J. J. Van Bavel, E. A. Harris, P. Pärnamets, S. Rathje, K. C. Doell, and J. A. Tucker, “Political
Psychology in the Digital (mis)Information age: A Model of News Belief and Sharing,” Social Issues
and Policy Review, vol. 15, no. 1, pp. 84–113, Jan. 2021, doi: 10.1111/sipr.12077.
[9] D. Halpern, S. Valenzuela, J. Katz, and J. P. Miranda, “From Belief in Conspiracy Theories to
Trust in Others: Which Factors Influence Exposure, Believing and Sharing Fake News,” Social
Computing and Social Media. Design, Human Behavior and Analytics, vol. 11578, pp. 217–232,
2019, doi: 10.1007/978-3-030-21902-4_16.
[10] K. A. Qureshi, R. A. S. Malick, M. Sabih, and H. Cherifi, “Complex Network and Source
Inspired COVID-19 Fake News Classification on Twitter,” IEEE Access, vol. 9, pp. 139636–139656,
2021, doi: 10.1109/access.2021.3119404.
[11] S. Garg and D. Kumar Sharma, “Linguistic Features based Framework for Automatic Fake
News Detection,” Computers & Industrial Engineering, vol. 172, p. 108432, Jul. 2022, doi:
10.1016/j.cie.2022.108432.
[12] M. Coscia and L. Rossi, “Distortions of political bias in crowdsourced misinformation
flagging,” Journal of The Royal Society Interface, vol. 17, no. 167, p. 20200020, Jun. 2020, doi:
10.1098/rsif.2020.0020.
[13] K. Yadav, “Fake-Real News,” www.kaggle.com, 2020.
https://www.kaggle.com/datasets/techykajal/fakereal-news (accessed Oct. 13, 2023).
[14] K. Ognyanova, D. Lazer, R. E. Robertson, and C. Wilson, “Misinformation in action: Fake
news exposure is linked to lower trust in media, higher trust in government when your side is in
power,” Harvard Kennedy School Misinformation Review, vol. 1, no. 4, pp. 1–19, Jun. 2020, doi:
10.37016/mr-2020-024.
[15] A. Herasymova, D. Chumachenko, and H. Padalko, “Development of intelligent information
technology of computer processing of pedagogical tests open tasks based on machine learning
approach,” CEUR Workshop Proceedings, vol. 2631, pp. 121–131, 2020
Источник:
https://ceur-ws.org/Vol-3641/paper11.pdf