Языковая модель DeepSeek, которая всего месяц назад стала мировой сенсацией, сразу же стала одним из самых скачиваемых приложений в мире. Его создатели позиционируют его как мощную и безопасную модель, разработанную за малую часть бюджета основных конкурентов. Однако многие утверждения, касающиеся китайского искусственного интеллекта, вводят в заблуждение, и с использованием приложения DeepSeek связано несколько серьезных рисков безопасности.
Хотя языковая модель DeepSeek привлекла к себе значительное внимание лишь в начале 2025 года, она не является новинкой в мире искусственного интеллекта. Его первая версия была создана как сторонний проект китайского стартапа еще в мае 2023 года. Вариант чат-бота был представлен месяцем позже, а генератор изображений Janus-Pro-7B теперь также функционирует .
Проект финансируется китайским хедж-фондом High-Flyer и, как и альтернативные модели с открытым исходным кодом, остается доступным без комиссий. По текущим оценкам, модель должна достичь параметров, сопоставимых с лучшими конкурирующими моделями на рынке с технологической точки зрения. В Китае достижения DeepSeek рассматриваются как свидетельство растущей технологической независимости страны.
Неужели это было так дёшево?
Разработка продвинутых языковых моделей — сложная задача, которая до сих пор требовала инвестиций в десятки миллионов долларов. Например, сообщается, что OpenAI инвестировала около 100 миллионов долларов в обучение ChatGPT . Поэтому многие были удивлены заявлением DeepSeek о том, что их модель была разработана всего за малую часть этой суммы — как сообщается, всего за шесть миллионов долларов.
Однако эта цифра вводит в заблуждение. Несколько анализов показали, что эта сумма покрывает только фазу перетренированности, которая составляет небольшую часть общих затрат. По оценкам независимой исследовательской компании SemiAnalysis , в которые также включены расходы на оборудование, исследования, разработку и тестирование, общая стоимость проекта составляет не менее 1,6 млрд долларов.
Образцовое исполнение и китайская цензура
Большие языковые модели (LLM) оцениваются по различным параметрам, известным как контрольные показатели. Они проверяют способность моделей понимать и генерировать текст, решать математические задачи, программировать и выполнять логические задачи. В этих тестах DeepSeek достигает результатов, сопоставимых с передовыми моделями, такими как ChatGPT от OpenAI . При тестировании теста MATH-500, ориентированного на решение математических задач, показатель успешности составил 97,3%. Он даже превзошел лучшие модели на рынке.
Программы генеративного ИИ по сути обучаются на огромных объемах общедоступных данных, которые могут быть эмоционально окрашены или фактически неверны. Это может привести к распространению дезинформации и предрассудков. Поэтому разработчикам необходимо регулярно проверять свои модели на устойчивость к дезинформации, оскорбительному контенту и пропаганде. В этом отношении DeepSeek существенно отстает . В ходе исследования, проведенного экспертами Cisco и Пенсильванского университета, модель не смогла заблокировать ни одну из 50 протестированных вредоносных команд, что указывает на потенциальную возможность злоупотребления с целью распространения ложной информации.
Как и многие другие китайские модели искусственного интеллекта, DeepSeek обучен реагировать в соответствии с официальной позицией Коммунистической партии Китая. В ставшем вирусным видео отчетливо видно, как модель избегает вопроса о событиях на площади Тяньаньмэнь в 1989 году. Аналогичным образом он отвечает на другие политически деликатные вопросы для китайского коммунистического режима, например, в контексте прав человека этнических меньшинств или статуса Тайваня.
Риски безопасности при использовании DeepSeek
Однако, помимо цензуры, использование модели DeepSeek сопряжено и с более серьезными угрозами безопасности. На это также указало Управление национальной безопасности Словакии (NBÚ) . В своем заявлении от 31 января компания заявила, что DeepSeek собирает данные своих пользователей в гораздо больших масштабах, чем ее конкуренты.
Информация, которую собирает модель, включает в себя «точное время нажатия клавиш, введенные инструкции (подсказки), пароли, вставленные изображения, аудиофайлы, документы, а также IP-адрес компьютера, с которого используется сервис DeepSeek». Согласно политике конфиденциальности, эти данные затем хранятся на серверах в Китае. Американская компания Wiz даже раскрыла общедоступную базу данных, содержащую более миллиона записей с конфиденциальной информацией о пользователях DeepSeek.
Это явно нарушает Общий регламент ЕС по защите данных (GDPR). Для этого необходимо, чтобы персональные данные граждан ЕС обрабатывались прозрачно и с согласия пользователей. Например, итальянский орган безопасности Garante недавно заблокировал DeepSeek из-за опасений по поводу персональных данных пользователей . В 2023 году он также приостановил использование сервиса ChatGPT, предпринимая аналогичные шаги до тех пор, пока OpenAI не внедрит меры по повышению прозрачности и конфиденциальности. В контексте модели DeepSeek Франция и Ирландия выразили те же опасения .
Напротив, такие страны, как Россия и Китай, планируют сотрудничать в совместных проектах в области искусственного интеллекта. По имеющейся информации, предполагается, что это связь между исследователями DeepSeek и Сбербанком с целью конкурировать с американским доминированием в области искусственного интеллекта.
Угрозы безопасности, связанные с китайскими компаниями, существовали и в прошлом. Примером может служить ByteDance, компания , стоящая за социальной сетью TikTok, которая, в соответствии с китайским законодательством, среди прочего, обязана делиться собранными данными с китайским правительством. Поэтому законодательство, регулирующее деятельность этих компаний, приобретает еще большую значимость. Например, в ЕС действует Закон о цифровых услугах (DSA), который защищает пользователей от возможного неправомерного использования их персональных данных.
Источник:
https://infosecurity.sk/zahranicne/cinska-ai-kometa-preco-je-deepseek-bezpecnostnou-hrozbou/