Вто время как десятки штатов стремятся установить стандарты того, как их ведомства используют ИИ для повышения эффективности и оптимизации государственных услуг, исследователи из Национального института стандартов и технологий обнаружили, что системы искусственного интеллекта, которые используют большие объемы данных для выполнения задач, могут работать со сбоями при воздействии недостоверных данных, согласно отчету, опубликованному на прошлой неделе.
В отчёте , являющемся частью более масштабных усилий института по поддержке разработки надёжного ИИ, установлено, что киберпреступники могут намеренно сбивать с толку или «отравлять» системы ИИ, подвергая их воздействию некорректных данных, чтобы вызвать сбои в их работе. Более того, согласно исследованию, не существует универсальной защиты, которую разработчики или эксперты по кибербезопасности могли бы реализовать для защиты систем ИИ.
«Данные невероятно важны для машинного обучения», — рассказал StateScoop специалист по информатике Национального института стандартов и технологий Апостол Васильев, один из авторов публикации. «„Мусор на входе — мусор на выходе“ — распространённая крылатая фраза в нашей сфере».
Для выполнения таких задач, как автономное вождение транспортных средств или взаимодействие с клиентами в качестве онлайн-чат-ботов, ИИ обучается на огромных объёмах данных, которые помогают технологии прогнозировать оптимальные реакции в различных ситуациях. Например, автономные автомобили обучаются на изображениях автомагистралей и улиц с дорожными знаками, а также на других наборах данных. Чат-боту могут быть предоставлены записи онлайн-переговоров.
Исследователи предупреждают, что некоторые данные для обучения ИИ, такие как веб-сайты с неточной информацией или нежелательные взаимодействия с общественностью, могут быть недостоверными и могут привести к непреднамеренному поведению систем ИИ. Например, чат-боты могут научиться отвечать оскорбительными или расистскими выражениями, когда их защитные барьеры обходят тщательно продуманные вредоносные подсказки.
Джозеф Такер, главный инженер по искусственному интеллекту и исследователь безопасности в AppOmni , программном обеспечении для управления безопасностью, используемом государственными и местными органами власти, сказал, что важно учитывать протоколы безопасности, необходимые для защиты от каждой потенциальной атаки, — подобные тем, что описаны в отчете NIST.
«Нам понадобится помощь каждого, чтобы обеспечить его безопасность», — сказал Такер в интервью StateScoop. «И я думаю, что людям стоит об этом подумать».
Отравление происходит, когда система искусственного интеллекта обучается на поврежденных данных, например, путем вставки многочисленных примеров ненормативной лексики в записи разговоров, чтобы чат-бот интерпретировал эти примеры как достаточно распространенное явление для использования в собственных взаимодействиях с клиентами.
«Если использовать пример генеративного ИИ, то если у вас есть злой умысел и вы пытаетесь изменить некоторые из этих входных данных, которые подаются в модель во время обучения, когда модель учится классифицировать, что такое кошка, что такое собака и все такое, то она фактически может изучить возмущения, которые могут привести к неправильной классификации модели», — пояснил Апостол Васильев, один из ученых-компьютерщиков NIST, написавших отчет.
Однако Тэкер, специализирующийся на безопасности приложений, взломе и искусственном интеллекте, утверждает, что, хотя отравление данных возможно, его возможности ограничены этапом обучения инструмента, а потому другие типы атак — уклонение, нарушение конфиденциальности и злоупотребление в виде мгновенных инъекций — более вероятны.
«Если вам удаётся обойти фильтр, то это атака на систему, поскольку вы обходите установленную защиту», — сказал Такер о мгновенных инъекциях, когда злоумышленники обманывают систему, заставляя её добровольно предоставлять чужие данные.
Такер заявил, что атаки с использованием быстрых инъекций направлены на то, чтобы заставить чат-бота предоставить конфиденциальные данные обучения, которые он запрограммирован скрывать.
«Если вы можете извлечь данные непосредственно из модели, которая использовалась для её обучения, — а зачастую она обучается на данных из интернета, которые часто содержат много личной информации людей, — сказал Такер. — Если вы можете заставить большую языковую модель выводить эту конфиденциальную информацию, это нарушает конфиденциальность этого человека».
«Нельзя просто сказать: „Хорошо, я получил эту модель, применил эту технику, и всё“. Нужно продолжать отслеживать, оценивать и реагировать на возникающие проблемы», — сказал Васильев, который также признал, что исследователям следует разрабатывать более эффективные средства киберзащиты. «В то же время, вы, ребята, должны быть бдительны и знать обо всех этих вещах. И постоянно контролировать ситуацию».
Такер, помогающий технологическим компаниям находить подобные уязвимости в их программном обеспечении, настаивает на том, что существуют некоторые разумные способы защиты от угроз безопасности со стороны ИИ, включая запрет доступа к конфиденциальным данным.
«Не подключайте системы, имеющие доступ к конфиденциальным данным, таким как номера социального страхования или другая личная информация», — сказал Такер. «Если государственное учреждение хочет повысить эффективность работы своих сотрудников с помощью ИИ, например, ChatGPT или аналогичного сервиса, не добавляйте в [обучающие] данные конфиденциальную информацию. И не подключайте их к системе, которая предоставляет доступ к этим данным».
Однако Текер также высказал и нотку оптимизма, предсказав, что функции безопасности ИИ станут более распространенными, подобно повсеместному распространению двухфакторной аутентификации.
«Многие люди не осознают всей глубины своих возможностей, когда пользуются веб-сайтом или приложением [программное обеспечение как услуга]», — сказал он. «Я думаю, что безопасность на основе ИИ будет интегрирована в технологический стек вашей традиционной безопасности, затем в облачную безопасность и, наконец, в безопасность SaaS-решений».
В отчёте , являющемся частью более масштабных усилий института по поддержке разработки надёжного ИИ, установлено, что киберпреступники могут намеренно сбивать с толку или «отравлять» системы ИИ, подвергая их воздействию некорректных данных, чтобы вызвать сбои в их работе. Более того, согласно исследованию, не существует универсальной защиты, которую разработчики или эксперты по кибербезопасности могли бы реализовать для защиты систем ИИ.
«Данные невероятно важны для машинного обучения», — рассказал StateScoop специалист по информатике Национального института стандартов и технологий Апостол Васильев, один из авторов публикации. «„Мусор на входе — мусор на выходе“ — распространённая крылатая фраза в нашей сфере».
Для выполнения таких задач, как автономное вождение транспортных средств или взаимодействие с клиентами в качестве онлайн-чат-ботов, ИИ обучается на огромных объёмах данных, которые помогают технологии прогнозировать оптимальные реакции в различных ситуациях. Например, автономные автомобили обучаются на изображениях автомагистралей и улиц с дорожными знаками, а также на других наборах данных. Чат-боту могут быть предоставлены записи онлайн-переговоров.
Исследователи предупреждают, что некоторые данные для обучения ИИ, такие как веб-сайты с неточной информацией или нежелательные взаимодействия с общественностью, могут быть недостоверными и могут привести к непреднамеренному поведению систем ИИ. Например, чат-боты могут научиться отвечать оскорбительными или расистскими выражениями, когда их защитные барьеры обходят тщательно продуманные вредоносные подсказки.
Джозеф Такер, главный инженер по искусственному интеллекту и исследователь безопасности в AppOmni , программном обеспечении для управления безопасностью, используемом государственными и местными органами власти, сказал, что важно учитывать протоколы безопасности, необходимые для защиты от каждой потенциальной атаки, — подобные тем, что описаны в отчете NIST.
«Нам понадобится помощь каждого, чтобы обеспечить его безопасность», — сказал Такер в интервью StateScoop. «И я думаю, что людям стоит об этом подумать».
«Злонамеренный умысел»
В отчете NIST выделены четыре типа атак на ИИ — отравление, уклонение, нарушение конфиденциальности и злоупотребление — и они классифицированы на основе таких критериев, как цели и задачи злоумышленника, возможности и знания системы.Отравление происходит, когда система искусственного интеллекта обучается на поврежденных данных, например, путем вставки многочисленных примеров ненормативной лексики в записи разговоров, чтобы чат-бот интерпретировал эти примеры как достаточно распространенное явление для использования в собственных взаимодействиях с клиентами.
«Если использовать пример генеративного ИИ, то если у вас есть злой умысел и вы пытаетесь изменить некоторые из этих входных данных, которые подаются в модель во время обучения, когда модель учится классифицировать, что такое кошка, что такое собака и все такое, то она фактически может изучить возмущения, которые могут привести к неправильной классификации модели», — пояснил Апостол Васильев, один из ученых-компьютерщиков NIST, написавших отчет.
Однако Тэкер, специализирующийся на безопасности приложений, взломе и искусственном интеллекте, утверждает, что, хотя отравление данных возможно, его возможности ограничены этапом обучения инструмента, а потому другие типы атак — уклонение, нарушение конфиденциальности и злоупотребление в виде мгновенных инъекций — более вероятны.
«Если вам удаётся обойти фильтр, то это атака на систему, поскольку вы обходите установленную защиту», — сказал Такер о мгновенных инъекциях, когда злоумышленники обманывают систему, заставляя её добровольно предоставлять чужие данные.
Такер заявил, что атаки с использованием быстрых инъекций направлены на то, чтобы заставить чат-бота предоставить конфиденциальные данные обучения, которые он запрограммирован скрывать.
«Если вы можете извлечь данные непосредственно из модели, которая использовалась для её обучения, — а зачастую она обучается на данных из интернета, которые часто содержат много личной информации людей, — сказал Такер. — Если вы можете заставить большую языковую модель выводить эту конфиденциальную информацию, это нарушает конфиденциальность этого человека».
Так что же можно сделать?
Васильев заявил, что одной из главных задач государственных и местных органов власти является безопасное внедрение крупных языковых моделей в рабочие процессы. И хотя существуют способы противодействия атакам на ИИ, он предостерег ведомства от ложного чувства безопасности, поскольку не существует надёжного метода защиты ИИ от перенаправления.«Нельзя просто сказать: „Хорошо, я получил эту модель, применил эту технику, и всё“. Нужно продолжать отслеживать, оценивать и реагировать на возникающие проблемы», — сказал Васильев, который также признал, что исследователям следует разрабатывать более эффективные средства киберзащиты. «В то же время, вы, ребята, должны быть бдительны и знать обо всех этих вещах. И постоянно контролировать ситуацию».
Такер, помогающий технологическим компаниям находить подобные уязвимости в их программном обеспечении, настаивает на том, что существуют некоторые разумные способы защиты от угроз безопасности со стороны ИИ, включая запрет доступа к конфиденциальным данным.
«Не подключайте системы, имеющие доступ к конфиденциальным данным, таким как номера социального страхования или другая личная информация», — сказал Такер. «Если государственное учреждение хочет повысить эффективность работы своих сотрудников с помощью ИИ, например, ChatGPT или аналогичного сервиса, не добавляйте в [обучающие] данные конфиденциальную информацию. И не подключайте их к системе, которая предоставляет доступ к этим данным».
Однако Текер также высказал и нотку оптимизма, предсказав, что функции безопасности ИИ станут более распространенными, подобно повсеместному распространению двухфакторной аутентификации.
«Многие люди не осознают всей глубины своих возможностей, когда пользуются веб-сайтом или приложением [программное обеспечение как услуга]», — сказал он. «Я думаю, что безопасность на основе ИИ будет интегрирована в технологический стек вашей традиционной безопасности, затем в облачную безопасность и, наконец, в безопасность SaaS-решений».