Две стороны парсинга веб-страниц: когда сбор данных становится палкой о двух концах

Новые технологии искусственного интеллекта часто опираются на методы сбора данных, такие как веб-скрапинг, которые могут стать палкой о двух концах, если их не использовать с соблюдением мер безопасности и прозрачности или незаконными способами. Эти методы использовались для достижения нескольких ключевых побед в области цифровых прав, но они также могут быть эксплуататорскими.

Каждый хочет получить кусок инновационного пирога генеративного ИИ от OpenAI. Это произошло за счет двух очень ценных принципов организаций гражданского общества в области конфиденциальности и цифровых прав:

Ответственность за распространение вредной или ложной информации,
Контроль пользователей над персональными данными.

При внедрении своих новейших технологий компании по большей части упускают из виду эти принципы, представляя их как якобы необходимые компромиссы. Тем не менее, похоже, ничто не способно лопнуть пузырь генеративного ИИ.

В этом блоге будет рассмотрен второй основной принцип, а именно контроль пользователей над личными данными.

Размышления в этой статье были вызваны публичными консультациями итальянского Управления по защите данных относительно веб-скрапинга . Это тот же орган, который однажды наложил национальный запрет на ChatGPT, поскольку он обучался работе с личными данными, что нарушает законы о защите данных. Итальянские граждане не выразили согласия на использование OpenAI их данных, и компания не выполнила других юридических оснований.

В марте 2024 года тот же орган спросил у OpenAI, использовались ли личные данные в процессе обучения Sora (нового видеоинструмента генеративного искусственного интеллекта, который скоро будет выпущен). В интервью Wall Street Journal Мира Мурати, главный технический директор OpenAI, заявила, что не знает, откуда взялись видео. Этот ответ был нелепым. Ни один технический директор компании, успех которой зависит от качества данных, используемых для обучения ее моделей, не может притворяться, что не знает ответа.

Мы все можем согласиться с тем, что существуют этические методы обучения, которые не требуют секретности, уважают и защищают личные данные людей. Но конкурентная технологическая среда часто вознаграждает компании, которые избегают критики, даже если это означает игнорирование этических проблем. Между прозрачным и честным и закрытым и злоупотребляющим подходами к развитию ИИ нынешний контекст беспощадных венчурных инвесторов, похоже, вознаграждает последних.

Scraping vs Spidering. Не просто лексическая ошибка

Одна из причин, по которой открытая сеть настолько функциональна, заключается в том, что она позволяет индексировать общедоступный контент. Это достигается путем постоянной загрузки нового контента для извлечения релевантных ключевых слов. Это сама работа поисковых систем, она автоматическая, периодическая и необходимая для функционирования современной сети.

Эта практика называется «паукингом», его также иногда называют «ползанием» ( посмотрите это видео в тиктоке ). Spidering — это метод, используемый поисковыми системами Google, Bing, Internet Archive.

Это стало еще более спорным после появления CommonCrawl — открытого хранилища данных веб-сканирования, сбор данных которого был одним из основных обучающих наборов для GPT3 и 4.

Тот факт, что владельцы веб-сайтов никогда не дают согласия на «пространство» их контента, охотно игнорируется компаниями, стремящимися построить большие языковые модели. Эти компании, похоже, неверно истолковывают, что свободно предоставляемая информация в интересах автора на веб-сайте означает, что эту информацию можно свободно использовать для любых технологических экспериментов, таких как обучение моделей большого языка (LLM).

Среди шести юридических оснований, которые теоретически могут оправдать обработку этих персональных данных, Общий регламент по защите данных (GDPR) включает понятие согласия , даже если это явно не та ценность, которую сканеры и их клиенты когда-либо уважали. Споры о том, как обучение ИИ может быть законной обработкой персональных данных, ведутся вокруг того, как коммерческие компании могут заставить его соответствовать одному или нескольким из этих шести правовых оснований. Но для нас это просто вынужденная интерпретация закона, направленная на то, чтобы соответствовать нарративу ИИ и обществу, которое его поддерживает.

Похожая оскорбительная ситуация произошла, когда ClearviewAI воспользовалась идеей о том, что то, что находится в Интернете, можно свободно брать и небрежно использовать против интересов тех, кто этим делится. Продукт ClearviewAI вращается вокруг профилирования людей и продажи их данных. Технология OpenAI накапливает огромные объемы данных без согласия людей. По мнению общественности, продукт ClearviewAI предназначен для богатых людей, в то время как продукт OpenAI свободно доступен массам.

Этот тип сбора данных называется незваным спайдером. Потому что, возможно, целью веб-сайта, который хочет быть проиндексирован, является получение трафика, а не получение его знаний и перехват трафика чат-ботом.

Быть взломанным — это противоположность интересам веб-сайта, которые заключаются в том, чтобы его контент был использован на его веб-сайте . OpenAI и современная стандартная модель большого языка (LLM) также не сообщают о каких-либо ссылках. Очевидно, что эксплуатация ничего не возвращает оригинальному автору. Это не может быть оправдано теми же соображениями, что и индексация.

В этом часто обвиняют парсинг, хотя с технической точки зрения это неправильная терминология. Самые технически подкованные читатели могут также рассмотреть сложный конвейер, включающий в себя синтаксический анализ, поиск по сети, интеллектуальный анализ и обогащение данных. Давайте раскроем различия этих двух технических действий — сканирования и очистки.

Паутина ( википедия ) — это массовое автоматизированное действие, применяемое к веб-сайтам. Веб-сканер может работать с любым веб-сайтом, скажем, edri.org, и ожидает найти некоторый стандартный HTML, из которого он извлекает некоторый смысл, и особенно новые ссылки для рекурсивного сканирования.

С другой стороны, парсинг зависит от конкретного сайта; если мы собираем информацию о продуктах с amazon.com, то это потому, что мы можем извлечь имя продавца, цену продукта и, по сути, создать машиночитаемую информацию. Для парсинга edri.org потребуется другая конфигурация. Парсинг — это выборочный процесс, нацеленный на определенные страницы для извлечения и семантического обогащения данных.

За прошедшие годы многочисленные проекты привлекли внимание к использованию парсинга в качестве следственной тактики сбора доказательств. В качестве метода он оказался полезен академическим исследователям, журналистам и некоммерческим организациям для получения значимой информации из неструктурированных веб-страниц. Такие доказательства создают информативный материал для широкой аудитории или отчеты для демократических властей, чтобы лучше обрисовать и понять скрытую логику крупных технологических алгоритмов. Вот некоторые примеры:

AlgorithmWatch. В ходе исследования, которое могло бы выявить некоторую предвзятость в алгоритме Instagram, команда AW столкнулась с давлением со стороны Meta за использование парсинга для исследования платформы.
Amnesty International и AI-Forensics опубликовали совместное исследование, посвященное изучению того, как и почему алгоритм TikTok так быстро определяет интересы пользователей, что может привести к психологическому вреду.
Миланский университет провел анализ PornHub и использовал его в жалобе, поданной в несколько органов по защите данных , раскрывая персонализацию без согласия посредством парсинга домашней страницы.
TheMarkup, интернет-издание, специализирующееся на подотчетности цифровых платформ, также провело кампанию под девизом « Скрапинг — это не преступление », чтобы противопоставить давление со стороны крупных технологических компаний, которые хотят привлечь к ответственности, и поделиться историями успеха на основе парсинга веб-страниц. .

Полезность парсинга имеет решающее значение для тщательного изучения и привлечения к ответственности алгоритмов, которые управляют всеми онлайн-платформами – большими и маленькими.

Если технология не зависит от контента, посмотрите на значения

Если парсинг может быть как эксплуататорским, так и полезным, как нам отличить проблемный парсинг от того, который нам нужно защитить? Мы можем сделать это, принимая во внимание размер данных, цели очистки и меры безопасности, используемые при ее выполнении.

Злоупотребления случаются, когда парсинг носит массовый характер и масштабируется с целью собрать как можно больше. Это проблема, потому что она нецелевая. Если результатом парсинга является личный профиль, это проблема, поскольку вы не можете обрабатывать профили людей на основе данных, собранных без согласия . Если парсинг используется для сбора контента независимо от его источника, игнорируя точность, лицензии и своевременность, это приведет к ненадежному результату — мешанине фактов, фактоидов и явной дезинформации.

Если вместо этого мы используем парсинг для изучения института власти (это может быть статистика департамента здравоохранения по COVID-19 или манипулятивная логика Instagram), при условии, что это делается в соответствии с правилами защиты данных, это положительное использование парсинга. Если цель состоит не в том, чтобы изучать людей и что-то им приписывать, а в том, чтобы понять содержание, закономерности и тенденции, это тоже приемлемо.

Контекст является ключом к разграничению проблемного и полезного вида парсинга. Это похоже на то, когда мы говорим о понятии «прозрачность». Оно играет важную роль, когда применяется к институту власти, но имеет совершенно иной оттенок, когда используется против граждан. Первое — это политический акт, призванный гарантировать надзор, а второй — просто злоупотребляющее наблюдение, направленное на то, чтобы заставить людей чувствовать себя в меньшей безопасности.

Аналогично рассмотрим реверс-инжиниринг — еще один метод, который часто называют инструментом кражи корпоративных секретов. Однако среди защитников цифровых прав это один из немногих доступных механизмов расследования программного обеспечения с закрытым исходным кодом.

Проведение этой линии, чтобы увидеть различия между различными способами использования технологий – чтобы навредить или помочь – является ключевым моментом, особенно когда речь идет о мощных методах, которые являются палкой о двух концах. Индексирование может принести положительные социальные выгоды, например, привлечение власти к ответственности. Но его использование компаниями и правительствами часто было неправомерным и незаконным, что приводило к массовым злоупотреблениям нашими личными данными. Понимая как инструменты, так и правовую структуру, в которой они находятся, мы можем быть уверены, что в эпоху ChatGPT вся наша цифровая история не станет обедом для студентов LLM.

Вклад :

Вклад : Алессандра Бормиоли и Клаудио Агости , член EDRi, Центр прозрачности и цифровых прав человека «Гермес»

Источник:

https://edri.org/our-work/the-two-sides-of-web-scraping-when-data-collection-becomes-a-double-edged-sword/

Две стороны парсинга веб-страниц: когда сбор данных становится палкой о двух концах

Scraping vs Spidering. Не просто лексическая ошибка

Если технология не зависит от контента, посмотрите на значения

Похожее

Добавить комментарийОтменить ответ

Спасибо за ответ! ✨