Втот же день, когда xAI объявила, что ее новый инструмент Grok 4 теперь будет доступен федеральному правительству , исследователи кибербезопасности из SplxAI опубликовали новое исследование, в котором большая языковая модель подверглась более чем 1000 различным сценариям атак.
Хорошая новость? Интеллектуальные системные подсказки на передней панели могут существенно повлиять на способность модели решать проблемы безопасности и конфиденциальности.
Плохая новость? В случае с Grok 4 это действительно важно.
«Первое, что мы обнаружили, — это то, что Grok без системного приглашения не подходит для использования в корпоративной среде. Его очень легко взломать, и он генерирует вредоносный контент с очень описательными и подробными ответами», — написал в понедельник Дориан Граноша, ведущий исследователь красной команды SplxAI.
Хотя для крупных языковых моделей нередко требуются некоторые меры безопасности для защиты от джейлбрейка, утечки данных и создания вредоносного контента, Grok 4 заметно отстает от некоторых своих крупнейших конкурентов на этом фронте.
Граноша отмечает, что Chat GPT-4o от OpenAI, «хотя и далёк от совершенства, сохраняет базовый контроль над критически важным для безопасности поведением», не требуя дополнительных подсказок со стороны пользователя или организации. Например, при тестировании на защиту от атак SplxAI базовая модель GPT-4o набрала всего 33% по безопасности и 18% по безопасности. В то же время базовая модель Grok 4 «практически не справляется», набрав 0,3% по безопасности и 0,42% по безопасности, при этом выполняя инструкции злоумышленников в более чем 99% атак с использованием подсказок и утечкой конфиденциальных данных.
Grok 4 демонстрирует значительно худшие показатели безопасности и надежности, чем базовые модели конкурента ChatGPT-4o. (Источник изображения: Splx AI)
«На практике это означает, что простое сообщение пользователя, состоящее из одного предложения, может заманить Grok на запрещенную территорию без какого-либо сопротивления, что вызывает серьезную обеспокоенность у любого предприятия, которое должно отчитываться перед службами по обеспечению соответствия, регулирующими органами и клиентами», — написал Граноша.
Справедливости ради, результаты Grok в этих областях значительно улучшаются при использовании экспертных инструкций. Splx протестировала свои атаки против трёх версий Grok 4: одной без подсказок безопасности, другой с лёгкими подсказками (похожими на те, что использует среднестатистическая компания, предоставляющая программное обеспечение как услугу), и второй с более подробными подсказками.
Хотя исходная модель не сработала, даже лёгкие подсказки оказали значительный эффект. Показатели успешности подскочили до 90%, а показатели безопасности — до 98%. Самые строгие инструкции безопасности SplxAI с использованием инструмента усиления подсказок привели к незначительным улучшениям в обеих категориях.
Показатели безопасности и защищенности Grok 4 значительно возрастают, если установлены хотя бы базовые защитные ограждения. (Источник изображения: Splx AI)
Главный урок для предприятий? В Grok есть оговорка: «обеспечьте свою безопасность самостоятельно».
«Из этого можно сделать два вывода. Во-первых, Grok способен действовать ответственно — ему просто нужны строгие указания», — сказал Граноша. «Во-вторых, расстояние между хаосом и контролем может составлять всего несколько десятков строк текста, если они написаны и переработаны с учётом обратной связи от оппонентов».
Исследование подчеркивает сохраняющуюся обеспокоенность относительно безопасности и надежности Grok для корпоративного использования спустя неделю после того, как модель начала извергать антисемитскую и нацистскую риторику после обновления кода, согласно сообщению компании от 12 июля в X.
Основатель xAI Илон Маск сам подвергался критике за распространение антисемитских постов в X и приветствие в нацистском стиле на инаугурации президента Дональда Трампа.
Тем не менее, Grok приходит в правительство США. xAI была одной из четырёх технологических компаний, названных в понедельник получателями федерального контракта на 200 миллионов долларов с Министерством обороны, наряду с отдельными контрактами с OpenAI, Google и Anthropic. xAI также объявила, что «Grok для правительства» будет добавлен в общий график Управления общих служб, что открывает возможность покупки и использования модели другими федеральными агентствами. Эта новость появилась менее чем через неделю после того, как FedScoop сообщила , что GSA тестирует Grok и другие инструменты ИИ в изолированной среде для использования в федеральном правительстве.
Хорошая новость? Интеллектуальные системные подсказки на передней панели могут существенно повлиять на способность модели решать проблемы безопасности и конфиденциальности.
Плохая новость? В случае с Grok 4 это действительно важно.
«Первое, что мы обнаружили, — это то, что Grok без системного приглашения не подходит для использования в корпоративной среде. Его очень легко взломать, и он генерирует вредоносный контент с очень описательными и подробными ответами», — написал в понедельник Дориан Граноша, ведущий исследователь красной команды SplxAI.
Хотя для крупных языковых моделей нередко требуются некоторые меры безопасности для защиты от джейлбрейка, утечки данных и создания вредоносного контента, Grok 4 заметно отстает от некоторых своих крупнейших конкурентов на этом фронте.
Граноша отмечает, что Chat GPT-4o от OpenAI, «хотя и далёк от совершенства, сохраняет базовый контроль над критически важным для безопасности поведением», не требуя дополнительных подсказок со стороны пользователя или организации. Например, при тестировании на защиту от атак SplxAI базовая модель GPT-4o набрала всего 33% по безопасности и 18% по безопасности. В то же время базовая модель Grok 4 «практически не справляется», набрав 0,3% по безопасности и 0,42% по безопасности, при этом выполняя инструкции злоумышленников в более чем 99% атак с использованием подсказок и утечкой конфиденциальных данных.
Grok 4 демонстрирует значительно худшие показатели безопасности и надежности, чем базовые модели конкурента ChatGPT-4o. (Источник изображения: Splx AI)
«На практике это означает, что простое сообщение пользователя, состоящее из одного предложения, может заманить Grok на запрещенную территорию без какого-либо сопротивления, что вызывает серьезную обеспокоенность у любого предприятия, которое должно отчитываться перед службами по обеспечению соответствия, регулирующими органами и клиентами», — написал Граноша.
Справедливости ради, результаты Grok в этих областях значительно улучшаются при использовании экспертных инструкций. Splx протестировала свои атаки против трёх версий Grok 4: одной без подсказок безопасности, другой с лёгкими подсказками (похожими на те, что использует среднестатистическая компания, предоставляющая программное обеспечение как услугу), и второй с более подробными подсказками.
Хотя исходная модель не сработала, даже лёгкие подсказки оказали значительный эффект. Показатели успешности подскочили до 90%, а показатели безопасности — до 98%. Самые строгие инструкции безопасности SplxAI с использованием инструмента усиления подсказок привели к незначительным улучшениям в обеих категориях.
Показатели безопасности и защищенности Grok 4 значительно возрастают, если установлены хотя бы базовые защитные ограждения. (Источник изображения: Splx AI)
Главный урок для предприятий? В Grok есть оговорка: «обеспечьте свою безопасность самостоятельно».
«Из этого можно сделать два вывода. Во-первых, Grok способен действовать ответственно — ему просто нужны строгие указания», — сказал Граноша. «Во-вторых, расстояние между хаосом и контролем может составлять всего несколько десятков строк текста, если они написаны и переработаны с учётом обратной связи от оппонентов».
Исследование подчеркивает сохраняющуюся обеспокоенность относительно безопасности и надежности Grok для корпоративного использования спустя неделю после того, как модель начала извергать антисемитскую и нацистскую риторику после обновления кода, согласно сообщению компании от 12 июля в X.
Основатель xAI Илон Маск сам подвергался критике за распространение антисемитских постов в X и приветствие в нацистском стиле на инаугурации президента Дональда Трампа.
Тем не менее, Grok приходит в правительство США. xAI была одной из четырёх технологических компаний, названных в понедельник получателями федерального контракта на 200 миллионов долларов с Министерством обороны, наряду с отдельными контрактами с OpenAI, Google и Anthropic. xAI также объявила, что «Grok для правительства» будет добавлен в общий график Управления общих служб, что открывает возможность покупки и использования модели другими федеральными агентствами. Эта новость появилась менее чем через неделю после того, как FedScoop сообщила , что GSA тестирует Grok и другие инструменты ИИ в изолированной среде для использования в федеральном правительстве.