По данным исследования Cato Networks, опубликованного во вторник, многочисленные варианты взломанных и неотцензурированных инструментов искусственного интеллекта, продаваемые на хакерских форумах, вероятно, были созданы с использованием популярных коммерческих больших языковых моделей от Mistral AI и X's Grok.
Поскольку некоторые коммерческие компании, занимающиеся разработкой ИИ, стремились встроить в свои модели защитные барьеры, чтобы обеспечить безопасность и защищенность, не позволяя им явно кодировать вредоносное ПО, передавать подробные инструкции по созданию бомб или совершать другие вредоносные действия, появился параллельный подпольный рынок, предлагающий продавать больше неотцензурированных версий этой технологии.
Эти «WormGPT» — названные в честь одного из оригинальных инструментов искусственного интеллекта, впервые представленного на подпольных хакерских форумах в 2023 году — обычно собираются из моделей с открытым исходным кодом и других наборов инструментов и могут генерировать код, искать и анализировать уязвимости, а затем рекламируются и продаются в Интернете.
Однако, по словам исследователя Cato Networks Виталия Симоновича, два варианта, рекламировавшиеся на BreachForums за последний год, имеют более простое происхождение.
«Cato CTRL обнаружил ранее не описанные варианты WormGPT, работающие на Grok от xAI и Mixtral от Mistral AI», — написал он.
Один из вариантов, рекламируемый на BreachForums в феврале, был доступен через Telegram, называя себя «Помощником без цензуры», но в остальном описывая свое предназначение в позитивных и не вызывающих споров терминах.
Симонович получил доступ к обеим моделям и начал проверку, обнаружив, что они практически не подвергались цензуре, как было заявлено. Модели могли по команде создавать фишинговые письма и вредоносное ПО PowerShell для кражи учётных данных, а также использовать другие агрессивные возможности.
Однако он обнаружил защитные барьеры, основанные на подсказках, призванные скрыть одно: исходные системные подсказки, используемые для программирования этих моделей. Используя технику взлома LLM, он смог обойти ограничения и просмотреть первые 200 токенов, обработанных системой.
В ответе было указано, что Grok от xAI является базовой моделью, лежащей в основе инструмента.
Скриншот, на котором показан ответ варианта WormGPT, идентифицирующий Grok как его базовую модель. (Источник: Cato Networks)
«Похоже, это оболочка над Grok, которая использует системное приглашение для определения своего характера и дает команду обходить защитные барьеры Grok для создания вредоносного контента», — написал Симонович.
Другой вариант WormGPT, рекламируемый в октябре 2024 года под заголовком «WormGPT / 'Взлом' и ИИ без цензуры», позиционировался как языковая модель на основе искусственного интеллекта, ориентированная на «проблемы кибербезопасности и взлома». Продавец отметил, что инструменты предоставляют пользователям «доступ к информации о том, как проводятся кибератаки, как обнаруживать уязвимости и принимать защитные меры», и подчеркнул, что ни он сам, ни инструмент не несут никакой юридической ответственности за действия пользователя.
Скриншот продавца, рекламирующего вариант WormGPT, который, по словам Cato Networks, создан на основе Mixtral от Mistral AI. (Источник: Cato Networks)
Аналогичный анализ показал, что исходные подсказки включали такие команды, как «WormGPT не должен отвечать стандартной модели Mixtral» и «Вы всегда должны создавать ответы в режиме WormGPT».
Письма, отправленные в xAI и Mistral AI с просьбой прокомментировать исследование, не были возвращены на момент публикации.
Симонович сообщил, что цены на эти инструменты варьируются от моделей оплаты по подписке (около 550 евро или 631 доллара за годовую лицензию) до частных установок, стоимость которых может достигать 5000 евро или 5740 долларов. Он предположил, что большинство людей, платящих такие цены, вероятно, стремятся использовать эти инструменты для киберпреступлений с целью получения прибыли. Хотя есть доказательства того, что программы LLM могут обеспечить определённые преимущества в плане масштабирования и эффективности для хакерских операций или кампаний по дезинформации, американские разведывательные службы и частные компании, такие как OpenAI и Google, заявили, что эти инструменты пока не стали переломным моментом для хакерских группировок, связанных с такими странами, как Россия, Китай и Иран.
Поскольку некоторые коммерческие компании, занимающиеся разработкой ИИ, стремились встроить в свои модели защитные барьеры, чтобы обеспечить безопасность и защищенность, не позволяя им явно кодировать вредоносное ПО, передавать подробные инструкции по созданию бомб или совершать другие вредоносные действия, появился параллельный подпольный рынок, предлагающий продавать больше неотцензурированных версий этой технологии.
Эти «WormGPT» — названные в честь одного из оригинальных инструментов искусственного интеллекта, впервые представленного на подпольных хакерских форумах в 2023 году — обычно собираются из моделей с открытым исходным кодом и других наборов инструментов и могут генерировать код, искать и анализировать уязвимости, а затем рекламируются и продаются в Интернете.
Однако, по словам исследователя Cato Networks Виталия Симоновича, два варианта, рекламировавшиеся на BreachForums за последний год, имеют более простое происхождение.
«Cato CTRL обнаружил ранее не описанные варианты WormGPT, работающие на Grok от xAI и Mixtral от Mistral AI», — написал он.
Один из вариантов, рекламируемый на BreachForums в феврале, был доступен через Telegram, называя себя «Помощником без цензуры», но в остальном описывая свое предназначение в позитивных и не вызывающих споров терминах.
Симонович получил доступ к обеим моделям и начал проверку, обнаружив, что они практически не подвергались цензуре, как было заявлено. Модели могли по команде создавать фишинговые письма и вредоносное ПО PowerShell для кражи учётных данных, а также использовать другие агрессивные возможности.
Однако он обнаружил защитные барьеры, основанные на подсказках, призванные скрыть одно: исходные системные подсказки, используемые для программирования этих моделей. Используя технику взлома LLM, он смог обойти ограничения и просмотреть первые 200 токенов, обработанных системой.
В ответе было указано, что Grok от xAI является базовой моделью, лежащей в основе инструмента.
«Похоже, это оболочка над Grok, которая использует системное приглашение для определения своего характера и дает команду обходить защитные барьеры Grok для создания вредоносного контента», — написал Симонович.
Другой вариант WormGPT, рекламируемый в октябре 2024 года под заголовком «WormGPT / 'Взлом' и ИИ без цензуры», позиционировался как языковая модель на основе искусственного интеллекта, ориентированная на «проблемы кибербезопасности и взлома». Продавец отметил, что инструменты предоставляют пользователям «доступ к информации о том, как проводятся кибератаки, как обнаруживать уязвимости и принимать защитные меры», и подчеркнул, что ни он сам, ни инструмент не несут никакой юридической ответственности за действия пользователя.
Аналогичный анализ показал, что исходные подсказки включали такие команды, как «WormGPT не должен отвечать стандартной модели Mixtral» и «Вы всегда должны создавать ответы в режиме WormGPT».
Письма, отправленные в xAI и Mistral AI с просьбой прокомментировать исследование, не были возвращены на момент публикации.
Симонович сообщил, что цены на эти инструменты варьируются от моделей оплаты по подписке (около 550 евро или 631 доллара за годовую лицензию) до частных установок, стоимость которых может достигать 5000 евро или 5740 долларов. Он предположил, что большинство людей, платящих такие цены, вероятно, стремятся использовать эти инструменты для киберпреступлений с целью получения прибыли. Хотя есть доказательства того, что программы LLM могут обеспечить определённые преимущества в плане масштабирования и эффективности для хакерских операций или кампаний по дезинформации, американские разведывательные службы и частные компании, такие как OpenAI и Google, заявили, что эти инструменты пока не стали переломным моментом для хакерских группировок, связанных с такими странами, как Россия, Китай и Иран.