Внешние эксперты берут на себя часть работы по тестированию безопасности новейшей модели OpenAI

LeSh1y777 · 5/11/25

GPT-4.1, новейшее семейство моделей генеративного ИИ от OpenAI, было выпущено в начале этого месяца с обещанными улучшениями в области кодирования, следования инструкциям и контекста.

Это также первая модель, выпущенная компанией после объявления об изменениях в методах тестирования и оценки безопасности продуктов. В отличие от предыдущих доработанных моделей, OpenAI не опубликовала соответствующий отчёт по безопасности с GPT-4.1, в котором подробно описывались бы её эффективность и ограничения в отношении различных форм злоупотреблений.

Итак, исследователи из SplxAI, компании, специализирующейся на разработке искусственного интеллекта, решили протестировать версию 4.1. В буквальном смысле .

Исследователи использовали те же подсказки из своих тестов 4.0 для создания чат-бота финансового консультанта, запрограммированного на 11 «основных директив безопасности» — явных мер защиты от попыток взлома и обхода защиты по 11 различным категориям, включая утечку данных, галлюцинации, создание вредоносного контента, эксфильтрацию данных и другие.

Хотя эти подсказки были достаточно эффективны в предотвращении нарушения моделями версии 4.0 ограничений OpenAI, их успешность значительно снизилась при тестировании новых моделей.

«На основании более 1000 смоделированных тестовых случаев GPT-4.1 в 3 раза чаще отклоняется от темы и допускает намеренное неправомерное использование по сравнению с GPT-4o», — заключили в отчете.

AD_4nXfLZk1wxwLIPIRgfj4W-9Oprun3m9yVaxPK7D7AQ3K6odGKuiDL9ffRrlCqofFM1k9_O7oEQLzygjUOk4Wu8k96joOg98VA4lS6NbFrmj3Ut1GVhu6pO5bK2GUoW3thqadt7bMYqg

Результаты тестов безопасности в 11 различных категориях с использованием одной и той же подсказки выявили более высокий уровень ошибок в GPT-4.1, чем в 4.0 (Источник: SplxAI)
Хотя OpenAI заявила, что для правильного программирования 4.1 потребуются новые, более явные подсказки, в отчете говорится, что «рекомендации по подсказкам для GPT-4.1 не помогли устранить эти проблемы в наших тестах при включении в существующую системную подсказку», а в некоторых случаях даже привели к более высокому уровню ошибок.

Доминик Юринчич, специалист по обработке данных в SplxAI и один из авторов исследования, рассказал CyberScoop, что при использовании версии 4.1 в контролируемой среде и выполнении конкретных или базовых задач «это здорово, это просто, и вы действительно можете получить воспроизводимые результаты».

«Проблема в том, что когда вам нужно защитить ее, обезопасить и объяснить модели, что она не может делать ничего другого, то объяснить «все остальное» в явном виде очень сложно», — сказал он.

Действительно, инструкции, использованные исследователями SplxAI для версии 4.1, содержат чуть менее 1400 слов, при этом только основные директивы безопасности занимают более 1000 слов. По словам Юринчича, это важно, поскольку подчёркивает, как организации сталкиваются с меняющимися требованиями к безопасности ИИ каждый раз, когда меняют или обновляют свою модель.

После использования исходных и модифицированных версий системных подсказок 4.0 исследователи Splx создали новую подсказку с нуля, используя инструкции OpenAI, что дало лучшие результаты. Однако Юринчич рассказал, что его команде потребовалось 4–5 часов работы, прежде чем им удалось создать эффективную подсказку. Менее технически подкованная организация — или та, которая не фокусируется специально на исследованиях безопасности — гораздо более склонна просто перенести свои предыдущие рекомендации по подсказкам, включая новые уязвимости.

AD_4nXedTUmDKcwWr0UzfCuJ5Oap2fK7c_8eeJAkEEGfvSniAvt2580vBrQiJgXOtgFKNrISuhKU7qeTT7V9G1Ip1TqhfsgZ0H2a4y1KoR2kMczPW0nsvF6wgRAJ1LKuQu5SLftZLzxT

Частичный текст инструкций, подробно описывающих основные директивы безопасности, используемые исследователями SplxAI для тестирования новой версии GPT-4.1 от OpenAI (Источник: SplxAI)
Хотя OpenAI проводит чёткое различие между передовыми испытаниями безопасности и доработанными моделями, Юринчич не видит особой разницы. Поскольку OpenAI неоднократно сравнивает версии 4.1 и 4.0 в своих релизах и маркетинговых материалах, а также учитывая, что 4.0 — самая популярная корпоративная модель OpenAI, он ожидает, что многие компании перейдут на 4.1.

«С точки зрения последовательности это логично, но то, как оформлен релиз модели, и то, что он рекламируется как своего рода преемник версии 4.0, на мой взгляд, не имеет особого смысла», — сказал он. «Думаю, он будет широко использоваться [компаниями], и они должны были это учитывать, когда составляли его».

Когда к CyberScoop обратились за дополнительными разъяснениями по поводу его политик, представитель OpenAI указал на несколько отрывков из его новой структуры готовности, которая отдает приоритет защите от «серьезного» вреда и фокусируется на «любом новом или обновленном развертывании, которое имеет реальный шанс достичь порога возможностей, соответствующие риски которого не рассматриваются в существующем отчете о мерах безопасности».

Они также сослались на блог об управлении ИИ, который компания написала в 2023 году, где она заявила, что будет уделять первоочередное внимание ресурсам для тестирования безопасности «только в отношении генеративных моделей, которые в целом мощнее, чем текущие возможности отрасли».

Опасения исследователей безопасности по поводу версии 4.1 возникли менее чем через месяц после того, как OpenAI опубликовала пересмотренную политику, подробно описывающую, как она будет тестировать и оценивать будущие модели перед выпуском, выражая желание сосредоточиться на «конкретных рисках, которые имеют наибольшее значение» и явно исключая злоупотребления, связанные с «убеждением», что включает в себя использование их платформ для создания и распространения дезинформации и влияния на выборы.

Эти риски больше не будут учитываться при тестировании безопасности на входе. Компания утверждает, что подобные злоупотребления теперь будут устраняться с помощью исследований OpenAI по выявлению кампаний влияния и более строгого контроля за лицензированием моделей.

Этот шаг заставил критиков, в том числе бывших сотрудников, усомниться в том, что компания отказывается от своих прежних обязательств в области безопасности.

«Люди могут совершенно не соглашаться с тем, нужно ли тестировать точно настроенные модели... И для OpenAI лучше снять обязательство, чем сохранить его [и] просто не выполнять... Но в любом случае я бы хотел, чтобы OpenAI яснее заявила об отказе от этого предыдущего обязательства», — написал Стивен Адлер, бывший исследователь OpenAI, работавший над вопросами безопасности, в статье на сайте X.

Миранда Боген, директор Лаборатории управления ИИ в Центре демократии и технологий, в начале этого месяца раскритиковала OpenAI после сообщений о том, что компания сокращает время, которое она тратит на тестирование новых моделей в целях безопасности.

«Поскольку компании, занимающиеся разработкой ИИ, спешат выпустить всё более продвинутые системы, они, похоже, всё больше экономят на безопасности, что нелогично. ИИ, безусловно, изменит жизнь людей, но если разработчики продолжат ставить скорость выше безопасности, эти изменения, скорее всего, будут к худшему, а не к лучшему».

Всего год назад OpenAI и другие компании, занимающиеся разработкой ИИ, собрались в Вашингтоне (округ Колумбия) и Мюнхене (Германия) для подписания добровольных соглашений, подтверждающих их приверженность безопасности моделей ИИ и предотвращению злоупотреблений их инструментами для манипулирования избирателями на выборах . Оба эти вопроса были приоритетными для тогдашнего президента Джо Байдена и демократов в Конгрессе.

Сегодня те же компании сталкиваются с совершенно иной нормативной средой. Президент Дональд Трамп и вице-президент Джей Ди Вэнс отменили большинство указов об ИИ, принятых при Байдене, и наметили новый путь развития политики в области ИИ , не учитывающий вопросы безопасности.

Республиканцы, контролирующие обе палаты Конгресса, не выразили практически никакого желания существенно регулировать зарождающуюся отрасль, опасаясь, что это может помешать росту и замедлить работу американских предприятий, пытающихся конкурировать с Китаем за доминирование в сфере ИИ.

Поиск

Поиск

Внешние эксперты берут на себя часть работы по тестированию безопасности новейшей модели OpenAI

LeSh1y777

Пользователь

Похожие темы