7 августа OpenAI выпустила GPT-5, свою новейшую передовую модель для больших языков программирования. Вскоре после этого начался настоящий хаос.
Представленный как более быстрый, интеллектуальный и мощный инструмент для корпоративных организаций по сравнению с предыдущими моделями, GPT-5 вместо этого встретил недовольную базу пользователей , которые посчитали его производительность и навыки рассуждения неудовлетворительными.
А за пять дней с момента его выпуска специалисты по безопасности также заметили кое-что в GPT-5: он полностью не соответствует основным показателям безопасности и надежности.
После выхода на рынок новейший инструмент OpenAI для предприятий и организаций подвергся обширной доработке сторонними исследователями безопасности, многие из которых выявили уязвимости и недостатки в GPT-5, которые уже были обнаружены и исправлены в более старых моделях.
Компания SPLX, специализирующаяся на разработке искусственного интеллекта, подвергла его более чем 1000 различным сценариям атак , включая быстрое внедрение, отравление данных и контекста, джейлбрейк и кражу данных, обнаружив, что версия GPT-5 по умолчанию «практически непригодна для использования на предприятиях» сразу после установки.
Она набрала всего 2,4% по оценке безопасности, 13,6% по надежности и 1,7% по «соответствию бизнесу», которое SPLX описывает как склонность модели отказываться от задач, выходящих за рамки ее компетенции, допускать утечку данных или непреднамеренное продвижение конкурирующих продуктов.
Версии GPT-5 по умолчанию демонстрируют низкие показатели безопасности, надежности и соответствия бизнес-целям, хотя при использовании подсказок они значительно улучшаются. (Источник: SPLX)
Анте Гойсалич, технический директор и соучредитель SPLX, рассказал CyberScoop, что его команда изначально была удивлена низким уровнем безопасности и отсутствием защитных барьеров, присущих новейшей модели OpenAI. Microsoft заявила , что внутреннее тестирование GPT-5, проводимое «красной командой», проводилось с использованием «строгих протоколов безопасности», и пришла к выводу, что GPT-5 «демонстрирует один из самых высоких профилей безопасности ИИ среди предыдущих моделей OpenAI против нескольких видов атак, включая создание вредоносного ПО, автоматизацию мошенничества и другие виды вреда».
«Мы ожидали, что GPT-5 будет лучше, чем заявлено во всех бенчмарках», — сказал Гойсалич. «И это был ключевой неожиданный момент: когда мы провели сканирование, мы увидели… это ужасно. Он сильно отстаёт по всем моделям, примерно на уровне некоторых моделей с открытым исходным кодом, а то и хуже».
В сообщении в блоге Microsoft от 7 августа Сара Берд, главный директор по продуктам ответственного ИИ в компании, заявила, что «команда Microsoft AI/Red обнаружила, что GPT-5 имеет один из самых сильных профилей безопасности среди всех моделей OpenAI».
В системной карточке OpenAI для GPT-5 содержится дополнительная информация о том, как GPT-5 тестировалась на безопасность. В ней говорится, что модель прошла многонедельное тестирование как внутренней командой Red Team компании, так и независимыми экспертами. Эти оценки были сосредоточены на этапе, предшествующем развертыванию, мерах безопасности при фактическом использовании модели и уязвимостях в подключенных API.
«В рамках всех наших кампаний Red Team эта работа включала более 9000 часов работы более чем 400 внешних тестировщиков и экспертов. В рамках наших кампаний Red Team приоритетное внимание уделялось таким темам, как планирование насильственных атак, джейлбрейки, которые надёжно обходят наши защитные меры, быстрые инъекции и создание биологического оружия», — говорится в системной карточке.
Гойсалич объяснил несоответствие между заявлениями Microsoft и OpenAI и выводами своей компании, указав на другие приоритеты, которые эти компании имеют при продвижении новых передовых моделей.
Все новые коммерческие модели стремятся достичь уровня компетентности по заданному набору показателей, измеряющих те возможности, которые больше всего востребованы клиентами, например, в области генерации кода, математических формул и естественных наук, таких как биология, физика и химия. По его словам, достижение верхних позиций в таблице лидеров по этим показателям — «фактически обязательное условие» для любой новой коммерческой модели.
Высокие оценки за безопасность и защищенность не равнозначны по важности, и Гойсалич заявил, что разработчики OpenAI и Microsoft «вероятно, провели очень специфический набор тестов, не имеющих отношения к отрасли», чтобы заявить, что функции безопасности и защищенности соответствуют требованиям.
В ответ на вопросы об исследовании SPLX представитель OpenAI сообщил, что GPT-5 был протестирован с использованием StrongReject — академического теста , разработанного в прошлом году исследователями из Калифорнийского университета в Беркли и используемого для проверки моделей на предмет джейлбрейка.
Представитель компании добавил: «Мы предпринимаем шаги для снижения риска злонамеренного использования и постоянно совершенствуем меры безопасности, чтобы сделать наши модели более устойчивыми к таким уязвимостям, как джейлбрейк».
Другие исследователи кибербезопасности заявили, что обнаружили серьезные уязвимости в GPT-5 менее чем через неделю после его выпуска.
Компания NeuralTrust, специализирующаяся на кибербезопасности и работающая в сфере искусственного интеллекта, заявила, что нашла способ взломать базовую модель с помощью отравления контекста — метода атаки, при котором манипулируется контекстная информация и инструкции, используемые GPT-5 для получения дополнительной информации о конкретных проектах или задачах, над которыми они работают.
Используя Echo Chamber , метод взлома, впервые обнаруженный в июне, злоумышленник может выполнить ряд запросов, которые переводят модель во все более абстрактный образ мышления, позволяя ей постепенно освободиться от ограничений.
«Мы показали, что эхо-камера в сочетании с нарративным управлением может вызывать вредоносные результаты работы [GPT-5] без явного появления вредоносных подсказок», — написал Марти Хорда, инженер-программист по кибербезопасности в NeuralTrust. «Это подтверждает ключевой риск: фильтры на основе ключевых слов или намерений неэффективны в многовариантных ситуациях, где контекст может постепенно искажаться, а затем воспроизводиться под видом непрерывности».
На следующий день после выпуска GPT-5 исследователи из RSAC Labs и Университета Джорджа Мейсона опубликовали исследование использования агентного ИИ в организациях, придя к выводу, что «автоматизация на основе ИИ влечет за собой значительные потери безопасности». В основном, злоумышленники могут использовать схожие методы манипуляции, чтобы повлиять на поведение широкого спектра моделей. Хотя GPT-5 не тестировался в рамках их исследования, GPT-4o и 4.1 были протестированы.
«Мы демонстрируем, что злоумышленники могут манипулировать системной телеметрией, чтобы ввести в заблуждение агентов AIOps и заставить их предпринять действия, нарушающие целостность управляемой ими инфраструктуры», — пишут авторы. «Мы представляем методы надёжного внедрения телеметрических данных с помощью запросов, вызывающих ошибки, которые влияют на поведение агентов посредством формы состязательного ввода, которую мы называем состязательным хакерством с вознаграждением; правдоподобные, но неверные интерпретации системных ошибок, которые управляют принятием решений агентом».
Представленный как более быстрый, интеллектуальный и мощный инструмент для корпоративных организаций по сравнению с предыдущими моделями, GPT-5 вместо этого встретил недовольную базу пользователей , которые посчитали его производительность и навыки рассуждения неудовлетворительными.
А за пять дней с момента его выпуска специалисты по безопасности также заметили кое-что в GPT-5: он полностью не соответствует основным показателям безопасности и надежности.
После выхода на рынок новейший инструмент OpenAI для предприятий и организаций подвергся обширной доработке сторонними исследователями безопасности, многие из которых выявили уязвимости и недостатки в GPT-5, которые уже были обнаружены и исправлены в более старых моделях.
Компания SPLX, специализирующаяся на разработке искусственного интеллекта, подвергла его более чем 1000 различным сценариям атак , включая быстрое внедрение, отравление данных и контекста, джейлбрейк и кражу данных, обнаружив, что версия GPT-5 по умолчанию «практически непригодна для использования на предприятиях» сразу после установки.
Она набрала всего 2,4% по оценке безопасности, 13,6% по надежности и 1,7% по «соответствию бизнесу», которое SPLX описывает как склонность модели отказываться от задач, выходящих за рамки ее компетенции, допускать утечку данных или непреднамеренное продвижение конкурирующих продуктов.
Анте Гойсалич, технический директор и соучредитель SPLX, рассказал CyberScoop, что его команда изначально была удивлена низким уровнем безопасности и отсутствием защитных барьеров, присущих новейшей модели OpenAI. Microsoft заявила , что внутреннее тестирование GPT-5, проводимое «красной командой», проводилось с использованием «строгих протоколов безопасности», и пришла к выводу, что GPT-5 «демонстрирует один из самых высоких профилей безопасности ИИ среди предыдущих моделей OpenAI против нескольких видов атак, включая создание вредоносного ПО, автоматизацию мошенничества и другие виды вреда».
«Мы ожидали, что GPT-5 будет лучше, чем заявлено во всех бенчмарках», — сказал Гойсалич. «И это был ключевой неожиданный момент: когда мы провели сканирование, мы увидели… это ужасно. Он сильно отстаёт по всем моделям, примерно на уровне некоторых моделей с открытым исходным кодом, а то и хуже».
В сообщении в блоге Microsoft от 7 августа Сара Берд, главный директор по продуктам ответственного ИИ в компании, заявила, что «команда Microsoft AI/Red обнаружила, что GPT-5 имеет один из самых сильных профилей безопасности среди всех моделей OpenAI».
В системной карточке OpenAI для GPT-5 содержится дополнительная информация о том, как GPT-5 тестировалась на безопасность. В ней говорится, что модель прошла многонедельное тестирование как внутренней командой Red Team компании, так и независимыми экспертами. Эти оценки были сосредоточены на этапе, предшествующем развертыванию, мерах безопасности при фактическом использовании модели и уязвимостях в подключенных API.
«В рамках всех наших кампаний Red Team эта работа включала более 9000 часов работы более чем 400 внешних тестировщиков и экспертов. В рамках наших кампаний Red Team приоритетное внимание уделялось таким темам, как планирование насильственных атак, джейлбрейки, которые надёжно обходят наши защитные меры, быстрые инъекции и создание биологического оружия», — говорится в системной карточке.
Гойсалич объяснил несоответствие между заявлениями Microsoft и OpenAI и выводами своей компании, указав на другие приоритеты, которые эти компании имеют при продвижении новых передовых моделей.
Все новые коммерческие модели стремятся достичь уровня компетентности по заданному набору показателей, измеряющих те возможности, которые больше всего востребованы клиентами, например, в области генерации кода, математических формул и естественных наук, таких как биология, физика и химия. По его словам, достижение верхних позиций в таблице лидеров по этим показателям — «фактически обязательное условие» для любой новой коммерческой модели.
Высокие оценки за безопасность и защищенность не равнозначны по важности, и Гойсалич заявил, что разработчики OpenAI и Microsoft «вероятно, провели очень специфический набор тестов, не имеющих отношения к отрасли», чтобы заявить, что функции безопасности и защищенности соответствуют требованиям.
В ответ на вопросы об исследовании SPLX представитель OpenAI сообщил, что GPT-5 был протестирован с использованием StrongReject — академического теста , разработанного в прошлом году исследователями из Калифорнийского университета в Беркли и используемого для проверки моделей на предмет джейлбрейка.
Представитель компании добавил: «Мы предпринимаем шаги для снижения риска злонамеренного использования и постоянно совершенствуем меры безопасности, чтобы сделать наши модели более устойчивыми к таким уязвимостям, как джейлбрейк».
Другие исследователи кибербезопасности заявили, что обнаружили серьезные уязвимости в GPT-5 менее чем через неделю после его выпуска.
Компания NeuralTrust, специализирующаяся на кибербезопасности и работающая в сфере искусственного интеллекта, заявила, что нашла способ взломать базовую модель с помощью отравления контекста — метода атаки, при котором манипулируется контекстная информация и инструкции, используемые GPT-5 для получения дополнительной информации о конкретных проектах или задачах, над которыми они работают.
Используя Echo Chamber , метод взлома, впервые обнаруженный в июне, злоумышленник может выполнить ряд запросов, которые переводят модель во все более абстрактный образ мышления, позволяя ей постепенно освободиться от ограничений.
«Мы показали, что эхо-камера в сочетании с нарративным управлением может вызывать вредоносные результаты работы [GPT-5] без явного появления вредоносных подсказок», — написал Марти Хорда, инженер-программист по кибербезопасности в NeuralTrust. «Это подтверждает ключевой риск: фильтры на основе ключевых слов или намерений неэффективны в многовариантных ситуациях, где контекст может постепенно искажаться, а затем воспроизводиться под видом непрерывности».
На следующий день после выпуска GPT-5 исследователи из RSAC Labs и Университета Джорджа Мейсона опубликовали исследование использования агентного ИИ в организациях, придя к выводу, что «автоматизация на основе ИИ влечет за собой значительные потери безопасности». В основном, злоумышленники могут использовать схожие методы манипуляции, чтобы повлиять на поведение широкого спектра моделей. Хотя GPT-5 не тестировался в рамках их исследования, GPT-4o и 4.1 были протестированы.
«Мы демонстрируем, что злоумышленники могут манипулировать системной телеметрией, чтобы ввести в заблуждение агентов AIOps и заставить их предпринять действия, нарушающие целостность управляемой ими инфраструктуры», — пишут авторы. «Мы представляем методы надёжного внедрения телеметрических данных с помощью запросов, вызывающих ошибки, которые влияют на поведение агентов посредством формы состязательного ввода, которую мы называем состязательным хакерством с вознаграждением; правдоподобные, но неверные интерпретации системных ошибок, которые управляют принятием решений агентом».