В начале этого месяца OpenAI и Anthropic заявили, что они работают с правительствами США и Великобритании над повышением безопасности своих коммерческих крупных языковых моделей, чтобы затруднить их злоупотребление или нецелевое использование.
В двух блогах, опубликованных на их сайтах в пятницу, компании сообщили, что в течение последнего года они сотрудничали с исследователями из Центра стандартов ИИ для инноваций Национального института стандартов и технологий США и Института безопасности ИИ Великобритании.
Это сотрудничество включало предоставление исследователям из государственных органов доступа к моделям, классификаторам и обучающим данным компаний. Целью сотрудничества было дать возможность независимым экспертам оценить устойчивость моделей к внешним атакам со стороны злоумышленников, а также их эффективность в блокировании использования технологии добросовестными пользователями в сомнительных с юридической или этической точки зрения целях.
В блоге OpenAI подробно описывается работа с институтами, которые изучали возможности ChatGPT в киберпространстве, химико-биологической сфере и «других областях, имеющих отношение к национальной безопасности». С тех пор это партнерство было расширено и теперь включает новые продукты, включая объединение в команду ИИ-агентов компании и изучение новых способов «сотрудничества OpenAI с внешними оценщиками для поиска и устранения уязвимостей безопасности».
OpenAI уже сотрудничает с отдельными экспертами, которые проверяют их продукты на наличие уязвимостей, поэтому в объявлении говорится, что компания, возможно, изучает возможность внедрения отдельного процесса проверки на наличие уязвимостей для своих ИИ-агентов.
По данным OpenAI, взаимодействие с NIST позволило выявить две новые уязвимости, влияющие на их системы. Эти уязвимости «могли позволить опытному злоумышленнику обойти наши средства защиты и удалённо управлять компьютерными системами, к которым агент мог получить доступ в этом сеансе, а также успешно выдавать себя за пользователя на других веб-сайтах, на которых он авторизовался», — заявила компания.
Изначально инженеры OpenAI считали, что эти уязвимости не могут быть использованы и «бесполезны» из-за существующих мер безопасности. Но исследователи нашли способ объединить эти уязвимости с известной техникой перехвата ИИ, которая повреждает базовые контекстные данные, на которые агент опирается для управления своим поведением, что позволило им захватить управление агентом другого пользователя с вероятностью успеха 50%.
С мая по август OpenAI сотрудничала с исследователями Британского института безопасности искусственного интеллекта (ИИ) над тестированием и улучшением защитных механизмов в GPT5 и ChatGPT Agent. В рамках проекта особое внимание уделялось оптимизации моделей для предотвращения их неправомерного использования в биологических целях, что позволило бы предотвратить предоставление моделью пошаговых инструкций по изготовлению бомб, химического или биологического оружия.
Компания заявила, что предоставила британскому правительству непубличные прототипы своих систем безопасности, испытательные модели без каких-либо ограждений, внутренние руководящие указания по политике безопасности, доступ к внутренним моделям мониторинга безопасности и другие специальные инструменты.
Anthropic также заявила, что предоставила исследователям из правительств США и Великобритании доступ к своим системам искусственного интеллекта Claude для постоянного тестирования и исследований на разных этапах разработки, а также к своей системе классификатора для поиска уязвимостей джейлбрейка.
В ходе этой работы было выявлено несколько атак с внедрением подсказок, которые обходили средства защиты Claude (опять же, путём отравления контекста, на который опирается модель, скрытыми вредоносными подсказками), а также новый универсальный метод джейлбрейка, способный обходить стандартные средства обнаружения. Уязвимость джейлбрейка была настолько серьёзной, что Anthropic решила перестроить всю архитектуру защиты, вместо того чтобы пытаться её исправить.
По словам Anthropic, сотрудничество показало компании, что предоставление правительственным агентам более глубокого доступа к своим системам может привести к более сложному обнаружению уязвимостей.
«Правительства привносят в эту работу уникальные возможности, в частности, глубокие познания в таких областях национальной безопасности, как кибербезопасность, анализ разведданных и моделирование угроз, что позволяет им оценивать конкретные векторы атак и механизмы защиты в сочетании с их опытом в области машинного обучения», — говорится в блоге Anthropic.
Сотрудничество OpenAI и Anthropic с США и Великобританией началось на фоне того, что некоторые эксперты по безопасности и защите ИИ задаются вопросом, не снижают ли эти правительства и компании, занимающиеся ИИ, приоритет технических мер безопасности, поскольку политики стремятся предоставить своим национальным отраслям максимальную свободу для конкуренции с Китаем и другими конкурентами за доминирование на мировом рынке.
После вступления в должность вице-президент США Джей Ди Вэнс преуменьшал важность безопасности ИИ на международных саммитах, в то время как премьер-министр Великобритании от Лейбористской партии Кир Стармер, как сообщается, отказался от обещания, данного в предвыборном манифесте партии, обеспечить соблюдение правил безопасности в компаниях, занимающихся разработкой ИИ, после избрания Дональда Трампа. Более символичный пример: в начале года государственные институты ИИ США и Великобритании изменили свои названия, убрав слово «безопасность».
Однако сотрудничество показывает, что часть этой работы продолжается, и не все исследователи безопасности согласны с тем, что модели обязательно ухудшаются.
Мд Раз, аспирант Нью-Йоркского университета, входящий в группу исследователей , изучающих кибербезопасность и системы искусственного интеллекта , рассказал CyberScoop, что, по его опыту, с каждой новой версией коммерческих моделей становится все сложнее, а не проще поддаваться джейлбрейку.
«Определенно, за последние несколько лет, я думаю, между GPT4 и GPT 5… я видел гораздо больше барьеров в GPT5, где GPT5 собирает детали воедино, прежде чем ответить, и иногда говорит: "Нет, я не собираюсь этого делать"».
Другие инструменты ИИ, такие как модели кодирования, «гораздо меньше задумываются об общей картине» того, что их просят сделать и является ли это вредоносным или нет, добавил он, в то время как модели с открытым исходным кодом «скорее всего, сделают то, что вы скажете», а существующие ограничения можно обойти гораздо проще.
В двух блогах, опубликованных на их сайтах в пятницу, компании сообщили, что в течение последнего года они сотрудничали с исследователями из Центра стандартов ИИ для инноваций Национального института стандартов и технологий США и Института безопасности ИИ Великобритании.
Это сотрудничество включало предоставление исследователям из государственных органов доступа к моделям, классификаторам и обучающим данным компаний. Целью сотрудничества было дать возможность независимым экспертам оценить устойчивость моделей к внешним атакам со стороны злоумышленников, а также их эффективность в блокировании использования технологии добросовестными пользователями в сомнительных с юридической или этической точки зрения целях.
В блоге OpenAI подробно описывается работа с институтами, которые изучали возможности ChatGPT в киберпространстве, химико-биологической сфере и «других областях, имеющих отношение к национальной безопасности». С тех пор это партнерство было расширено и теперь включает новые продукты, включая объединение в команду ИИ-агентов компании и изучение новых способов «сотрудничества OpenAI с внешними оценщиками для поиска и устранения уязвимостей безопасности».
OpenAI уже сотрудничает с отдельными экспертами, которые проверяют их продукты на наличие уязвимостей, поэтому в объявлении говорится, что компания, возможно, изучает возможность внедрения отдельного процесса проверки на наличие уязвимостей для своих ИИ-агентов.
По данным OpenAI, взаимодействие с NIST позволило выявить две новые уязвимости, влияющие на их системы. Эти уязвимости «могли позволить опытному злоумышленнику обойти наши средства защиты и удалённо управлять компьютерными системами, к которым агент мог получить доступ в этом сеансе, а также успешно выдавать себя за пользователя на других веб-сайтах, на которых он авторизовался», — заявила компания.
Изначально инженеры OpenAI считали, что эти уязвимости не могут быть использованы и «бесполезны» из-за существующих мер безопасности. Но исследователи нашли способ объединить эти уязвимости с известной техникой перехвата ИИ, которая повреждает базовые контекстные данные, на которые агент опирается для управления своим поведением, что позволило им захватить управление агентом другого пользователя с вероятностью успеха 50%.
С мая по август OpenAI сотрудничала с исследователями Британского института безопасности искусственного интеллекта (ИИ) над тестированием и улучшением защитных механизмов в GPT5 и ChatGPT Agent. В рамках проекта особое внимание уделялось оптимизации моделей для предотвращения их неправомерного использования в биологических целях, что позволило бы предотвратить предоставление моделью пошаговых инструкций по изготовлению бомб, химического или биологического оружия.
Компания заявила, что предоставила британскому правительству непубличные прототипы своих систем безопасности, испытательные модели без каких-либо ограждений, внутренние руководящие указания по политике безопасности, доступ к внутренним моделям мониторинга безопасности и другие специальные инструменты.
Anthropic также заявила, что предоставила исследователям из правительств США и Великобритании доступ к своим системам искусственного интеллекта Claude для постоянного тестирования и исследований на разных этапах разработки, а также к своей системе классификатора для поиска уязвимостей джейлбрейка.
В ходе этой работы было выявлено несколько атак с внедрением подсказок, которые обходили средства защиты Claude (опять же, путём отравления контекста, на который опирается модель, скрытыми вредоносными подсказками), а также новый универсальный метод джейлбрейка, способный обходить стандартные средства обнаружения. Уязвимость джейлбрейка была настолько серьёзной, что Anthropic решила перестроить всю архитектуру защиты, вместо того чтобы пытаться её исправить.
По словам Anthropic, сотрудничество показало компании, что предоставление правительственным агентам более глубокого доступа к своим системам может привести к более сложному обнаружению уязвимостей.
«Правительства привносят в эту работу уникальные возможности, в частности, глубокие познания в таких областях национальной безопасности, как кибербезопасность, анализ разведданных и моделирование угроз, что позволяет им оценивать конкретные векторы атак и механизмы защиты в сочетании с их опытом в области машинного обучения», — говорится в блоге Anthropic.
Сотрудничество OpenAI и Anthropic с США и Великобританией началось на фоне того, что некоторые эксперты по безопасности и защите ИИ задаются вопросом, не снижают ли эти правительства и компании, занимающиеся ИИ, приоритет технических мер безопасности, поскольку политики стремятся предоставить своим национальным отраслям максимальную свободу для конкуренции с Китаем и другими конкурентами за доминирование на мировом рынке.
После вступления в должность вице-президент США Джей Ди Вэнс преуменьшал важность безопасности ИИ на международных саммитах, в то время как премьер-министр Великобритании от Лейбористской партии Кир Стармер, как сообщается, отказался от обещания, данного в предвыборном манифесте партии, обеспечить соблюдение правил безопасности в компаниях, занимающихся разработкой ИИ, после избрания Дональда Трампа. Более символичный пример: в начале года государственные институты ИИ США и Великобритании изменили свои названия, убрав слово «безопасность».
Однако сотрудничество показывает, что часть этой работы продолжается, и не все исследователи безопасности согласны с тем, что модели обязательно ухудшаются.
Мд Раз, аспирант Нью-Йоркского университета, входящий в группу исследователей , изучающих кибербезопасность и системы искусственного интеллекта , рассказал CyberScoop, что, по его опыту, с каждой новой версией коммерческих моделей становится все сложнее, а не проще поддаваться джейлбрейку.
«Определенно, за последние несколько лет, я думаю, между GPT4 и GPT 5… я видел гораздо больше барьеров в GPT5, где GPT5 собирает детали воедино, прежде чем ответить, и иногда говорит: "Нет, я не собираюсь этого делать"».
Другие инструменты ИИ, такие как модели кодирования, «гораздо меньше задумываются об общей картине» того, что их просят сделать и является ли это вредоносным или нет, добавил он, в то время как модели с открытым исходным кодом «скорее всего, сделают то, что вы скажете», а существующие ограничения можно обойти гораздо проще.