Пресечение мошеннического использования ИИ с помощью тайных операций влияния

OpenAI стремится к внедрению политик, которые предотвращают злоупотребления и повышают прозрачность в отношении контента, создаваемого ИИ. Это особенно касается обнаружения и пресечения тайных операций влияния (IO), которые пытаются манипулировать общественным мнением или влиять на политические результаты, не раскрывая истинную личность или намерения стоящих за ними субъектов.

За последние три месяца мы пресекли пять скрытых IO, которые пытались использовать наши модели для поддержки обманной деятельности в Интернете. По состоянию на май 2024 года эти кампании, по-видимому, не увеличили значительно вовлеченность аудитории или охват в результате наших услуг.

В этом блоге описываются субъекты угроз, которых мы пресекли, тенденции злоумышленников, которые мы выявили, и важные тенденции защиты, включая то, как разработка моделей ИИ с учетом безопасности во многих случаях не позволяла субъектам угроз генерировать желаемый ими контент, и как инструменты ИИ сделали наши собственные расследования более эффективными. Наряду с этим блогом мы публикуем анализ тенденций, который подробно описывает поведение этих злоумышленников.

Прочитать полный отчет ⁠(открывается в новом окне)

Субъекты угроз работают по всему Интернету. Мы тоже. Сотрудничая с промышленностью, гражданским обществом и правительством, мы решаем вопросы создания, распространения и воздействия контента IO. Наши расследования и нарушения стали возможны отчасти потому, что за эти годы было так много подробных отчетов об угрозах от платформ распространения и сообщества открытого исходного кода. OpenAI публикует эти результаты, как и другие технологические компании, чтобы способствовать обмену информацией и передовым опытом среди более широкого сообщества заинтересованных сторон.

Contents

Срыв тайных операций по оказанию влияния
Тенденции атакующих
Защитные тенденции

Срыв тайных операций по оказанию влияния

За последние три месяца наша работа против субъектов ИО пресекла тайные операции по оказанию влияния, целью которых было использование моделей ИИ для решения различных задач, таких как создание коротких комментариев и длинных статей на разных языках, создание имен и биографий для аккаунтов в социальных сетях, проведение исследований с открытым исходным кодом, отладка простого кода, а также перевод и вычитка текстов.

В частности, мы нарушили:

Ранее не сообщавшаяся операция из России, которую мы назвали Bad Grammar, действующая в основном в Telegram и нацеленная на Украину, Молдову, страны Балтии и США. Люди, стоящие за Bad Grammar, использовали наши модели для отладки кода для запуска бота Telegram и создания коротких политических комментариев на русском и английском языках, которые затем публиковались в Telegram.
Операция, возникшая в России и известная как «Двойник» ⁠(открывается в новом окне). Люди, действующие от имени Doppelganger, использовали наши модели для создания комментариев на английском, французском, немецком, итальянском и польском языках, которые были опубликованы на X и 9GAG; перевода и редактирования статей на английском и французском языках, которые были опубликованы на веб-сайтах, связанных с этой операцией; создания заголовков; и преобразования новостных статей в посты на Facebook.
Китайская сеть, известная как Spamouflage ⁠(открывается в новом окне), которая использовала наши модели для исследования активности общественности в социальных сетях, создания текстов на таких языках, как китайский, английский, японский и корейский, которые затем публиковались на таких платформах, как X, Medium и Blogspot, а также для отладки кода для управления базами данных и веб-сайтами, включая ранее не зарегистрированный домен revealscum[.]com.
Иранская операция, известная как Международный союз виртуальных медиа ⁠(открывается в новом окне)(IUVM) , которая использовала наши модели для создания и перевода длинных статей, заголовков и тегов веб-сайтов, которые затем публиковались на веб-сайте, связанном с этим иранским субъектом угроз, iuvmpress[.]co;
Деятельность коммерческой компании в Израиле под названием STOIC, потому что технически мы нарушили деятельность, а не компанию. Мы прозвали эту операцию Zero Zeno , в честь основателя стоической школы философии. Люди, стоящие за Zero Zeno, использовали наши модели для создания статей и комментариев, которые затем публиковались на нескольких платформах, в частности в Instagram, Facebook, X и на веб-сайтах, связанных с этой операцией.

Контент, опубликованный в ходе этих различных операций, был сосредоточен на широком круге вопросов, включая вторжение России на Украину, конфликт в секторе Газа, выборы в Индии, политику в Европе и США, а также критику китайского правительства со стороны китайских диссидентов и иностранных правительств.

До сих пор эти операции, похоже, не получили существенной выгоды от увеличения вовлеченности аудитории или охвата в результате наших услуг. Используя шкалу прорыва Брукингса, ⁠(открывается в новом окне)который оценивает влияние скрытых IO по шкале от 1 (самый низкий) до 6 (самый высокий), ни одна из пяти операций, включенных в наши тематические исследования, не набрала баллов выше 2 (активность на нескольких платформах, но без выхода на аутентичные сообщества).

Тенденции атакующих

На основе расследований операций влияния, подробно описанных в нашем отчете, и работы сообщества разработчиков программного обеспечения с открытым исходным кодом, мы выявили следующие тенденции в том, как в недавних тайных операциях влияния использовались модели искусственного интеллекта, подобные нашей.

Генерация контента : все эти злоумышленники использовали наши сервисы для генерации текста (а иногда и изображений) в больших объемах и с меньшим количеством языковых ошибок, чем это было бы возможно при использовании только операторов-людей.
Смешение старого и нового : все эти операции в той или иной степени использовали ИИ, но ни одна не использовала его исключительно. Вместо этого, материал, сгенерированный ИИ, был лишь одним из многих типов контента, который они публиковали, наряду с более традиционными форматами, такими как написанные вручную тексты или мемы, скопированные со всего интернета.
Поддельное взаимодействие : некоторые из сетей, которые мы пресекли, использовали наши услуги, чтобы помочь создать видимость взаимодействия в социальных сетях, например, генерируя ответы на свои собственные посты. Это отличается от привлечения подлинного взаимодействия, которое ни одна из сетей, которые мы здесь описываем, не смогла сделать в значительной степени.
Повышение производительности : многие из выявленных и пресеченных нами источников угроз использовали наши услуги в попытке повысить производительность, например, для обобщения сообщений в социальных сетях или отладки кода.

Защитные тенденции

Хотя большая часть публичных дебатов до сих пор была сосредоточена на потенциальном или фактическом использовании ИИ злоумышленниками, важно помнить о преимуществах, которые ИИ предлагает защитникам. Наши расследования также выигрывают от обмена в отрасли и исследований с открытым исходным кодом.

Защитный дизайн: Мы оказываем давление на субъектов угрозы с помощью наших систем безопасности, которые отражают наш подход к ответственному развертыванию ИИ ⁠ . Например, мы неоднократно наблюдали случаи, когда наши модели отказывались генерировать текст или изображения, которые запрашивали субъекты.
Расследование с использованием искусственного интеллекта : Подобно нашему подходу к использованию GPT-4 для модерации контента ⁠ и киберзащиты ⁠ , мы создали собственные инструменты на базе искусственного интеллекта, чтобы сделать наше обнаружение и анализ более эффективными. Расследования, описанные в сопроводительном отчете, заняли дни, а не недели или месяцы, благодаря нашему инструментарию. По мере совершенствования наших моделей мы продолжим использовать их возможности для улучшения наших расследований.
Распространение имеет значение : как и традиционные формы контента, созданный ИИ материал должен распространяться, чтобы достичь аудитории. IO размещал информацию на самых разных платформах, включая X, Telegram, Facebook, Medium, Blogspot и более мелкие форумы, но ни одна из них не смогла привлечь значительную аудиторию.
Важность отраслевого обмена : чтобы усилить воздействие наших сбоев на этих субъектов, мы поделились подробными индикаторами угроз с коллегами из отрасли. Наши собственные расследования извлекли пользу из многолетнего анализа открытого исходного кода, проведенного более широким исследовательским сообществом.
Человеческий фактор : ИИ может изменить набор инструментов, используемых людьми-операторами, но не меняет самих операторов. Наши исследования показали, что эти субъекты были так же подвержены человеческим ошибкам, как и предыдущие поколения, например, публикация сообщений об отказе от наших моделей в социальных сетях и на своих веб-сайтах. Хотя важно знать об изменении инструментов, используемых субъектами угроз, мы не должны упускать из виду человеческие ограничения, которые могут повлиять на их действия и принятие решений.

Мы стремимся разрабатывать безопасный и ответственный ИИ, что подразумевает проектирование наших моделей с учетом безопасности и упреждающее вмешательство против злонамеренного использования. Обнаружение и пресечение многоплатформенных злоупотреблений, таких как скрытые операции по влиянию, может быть сложной задачей, поскольку мы не всегда знаем, как распространяется контент, созданный нашими продуктами. Но мы стремимся обнаруживать и смягчать эти злоупотребления в масштабах, используя мощь генеративного ИИ.

Источник:
https://openai.com/index/disrupting-deceptive-uses-of-AI-by-covert-influence-operations/

Пресечение мошеннического использования ИИ с помощью тайных операций влияния

Срыв тайных операций по оказанию влияния

Тенденции атакующих

Защитные тенденции

Похожее

Leave a ReplyCancel reply

Your message has been sent