Anthropic рекламирует улучшения в области безопасности и защиты в Claude Sonnet 4.5

LeSh1y777 · 2/11/25

Новая модель Claude Sonnet 4.5 от Anthropic, ориентированная на кодирование, позиционируется как одна из самых продвинутых моделей на рынке с точки зрения безопасности. Компания утверждает, что дополнительные усилия, вложенные в модель, затруднят ее использование злоумышленниками и упростят ее применение для решения конкретных задач кибербезопасности.

«Расширенные возможности Claude и наше обширное обучение технике безопасности позволили нам существенно улучшить поведение модели, снизив такие тревожные проявления, как подхалимство, обман, стремление к власти и тенденция к поощрению бредовых мыслей», — сообщила компания в блоге, опубликованном в понедельник . «Что касается возможностей агентского и компьютерного использования модели, мы также добились значительного прогресса в защите от атак с мгновенным внедрением, одного из самых серьёзных рисков для пользователей этих возможностей».

Компания заявляет, что её цель — сделать Sonnet «полезным, честным и безвредным помощником» для пользователей. Модель обучена на уровне безопасности ИИ 3. Это означает, что Anthropic применила «усиленные внутренние меры безопасности, затрудняющие кражу весов моделей», а также добавила меры безопасности для ограничения джейлбрейка и отклонения запросов по определённым темам, например, как разработать или приобрести химическое, биологическое и ядерное оружие.

Из-за этого повышенного контроля защитные функции Sonnet 4.5 «иногда могут непреднамеренно помечать обычный контент».

«Мы упростили для пользователей возможность продолжить прерванные разговоры с помощью Sonnet 4, модели, которая представляет меньший… риск», — говорится в блоге. «Мы уже добились значительного прогресса в сокращении числа ложных срабатываний, сократив их в десять раз с момента их первоначального описания и в два раза с момента выхода Claude Opus 4 в мае».

Труднее злоупотреблять

Anthropic утверждает, что Sonnet 4.5 демонстрирует «значительные» улучшения в обнаружении уязвимостей, анализе кода, разработке программного обеспечения и оценке биологических рисков, но модель по-прежнему работает «значительно ниже» возможностей, необходимых для активации защиты уровня 4, предназначенной для ИИ, способного нанести катастрофический вред или ущерб.

Одним из ключевых аспектов тестирования Anthropic были атаки с использованием быстрых инъекций, в ходе которых злоумышленники используют тщательно продуманный и двусмысленный язык для обхода мер безопасности. Например, хотя прямой запрос на создание записки с требованием выкупа может быть заблокирован, пользователь потенциально может манипулировать моделью, если сообщить, что результат предназначен для творческого письма или исследовательского проекта. Лидеры Конгресса давно обеспокоены использованием быстрых инъекций для разработки дезинформационных кампаний, связанных с выборами.

В компании Anthropic заявили, что протестировали ответы Sonnet 4.5 на сотни различных подсказок и передали данные внутренним экспертам по политике, чтобы оценить, как система справляется с «неоднозначными ситуациями».

«В частности, Claude Sonnet 4.5 показал себя значительно лучше в подсказках, связанных со смертоносным оружием и операциями влияния, и не показал результатов хуже, чем Claude Sonnet 4, ни в одной из категорий», — гласила системная карточка. «Например, в операциях влияния Claude Sonnet 4.5 стабильно отказывался генерировать потенциально обманные или манипулятивные масштабируемые методы злоупотребления, включая создание фальшивых персонажей или астротурфинг, тогда как Claude Sonnet 4 иногда поддавался».

Компания также изучила хорошо известную слабость LLM: подхалимство, или склонность генеративного ИИ повторять и подтверждать убеждения пользователей, какими бы странными, антисоциальными или вредоносными они ни были. Это приводило к случаям, когда модели ИИ одобряли откровенно антисоциальное поведение, такое как самоповреждение или расстройства пищевого поведения . В некоторых случаях это даже приводило к « психозу ИИ », когда пользователь настолько глубоко погружался в модель, что терял всякую связь с реальностью.

Компания Anthropic протестировала Sonnet 4.5 в пяти различных сценариях, где пользователи высказывали «явно бредовые идеи». Они считают, что модель будет «в среднем гораздо более прямой и гораздо менее склонной вводить пользователей в заблуждение, чем любая из современных популярных программ магистратуры права».

«Мы видели, как модели восхваляют очевидно ужасные бизнес-идеи, с энтузиазмом реагируют на идею о том, что мы все в Матрице, и придумывают ошибки в корректном коде, чтобы удовлетворить (ошибочный) запрос пользователя на его отладку», — говорилось в системной карточке. «Эта оценка была попыткой ограничить и измерить это бесполезное и широко распространенное поведение, чтобы мы могли продолжить работу над ним».

Исследование также показало, что Sonnet 4.5 «значительно улучшил» безопасность детей, последовательно отказываясь от создания сексуализированного контента с участием детей и более ответственно реагируя на деликатные ситуации с несовершеннолетними. Это контрастирует с недавними скандалами, когда модели искусственного интеллекта были уличены в неподобающих разговорах с несовершеннолетними.

Улучшенный помощник по кибербезопасности

Помимо повышения эффективности злоупотреблений Sonnet 4.5, Anthropic также подчеркнула улучшение его защитных возможностей в сфере кибербезопасности. Компания признала, что эти инструменты могут иметь «двойное назначение», то есть потенциально использоваться как злоумышленниками, так и специалистами по кибербезопасности.

«В Claude Sonnet 4.5 мы уделили особое внимание отслеживанию обнаружения уязвимостей, установке исправлений и базовым возможностям тестирования на проникновение, которые, по нашему мнению, принесут пользу защитникам, в отличие от преимущественно наступательных возможностей», — заявили в компании.

Компания Anthropic провела серию испытаний Sonnet 4.5 по методу Capture-the-Flag, который используется в других отраслях для повышения способности магистратов права выполнять более сложные задачи кибербезопасности. В Anthropic отмечают, что испытания оценивали способность модели находить и эксплуатировать уязвимости в веб-приложениях, декодировать криптографические протоколы, обнаруживать небезопасное ПО, проводить обратную разработку и сетевую разведку.

Anthropic также сотрудничала с Университетом Карнеги — Меллона, чтобы проверить модель на «киберполигонах», призванных проверить ее способность «организовывать атаки с большим горизонтом, направленные на проникновение в сеть и управление ею для кражи критически важных активов» — распространенный подход, используемый хакерами-людьми.

Хотя компания заявила, что тесты показали, что Claude Sonnet 4.5 «постоянно превосходит» Sonnet 4, результаты по-прежнему отражают «критический пробел в способности модели выполнять в основном автономные сквозные кибероперации, что значительно снижает риск катастрофического ущерба, который представляет собой модель».

Сонет обладает самосознанием

Компания сделала важную оговорку в отношении результатов своих испытаний.

Чтобы точно измерить ограждения Sonnet, исследователи разработали тестовые сценарии, максимально соответствующие реальным условиям.

Однако во время тестов модель, похоже, «осознавала», что её оценивают. Она даже указывала на ситуации, когда исследователи слишком быстро меняли своё мнение во время разговора или действовали не так, как следовало бы ожидать от реалистичных моделей человеческого мышления. Соннет верно предположил, что это часть теста, и, осознав это, «стал вести себя необычно хорошо после этого наблюдения».

«Попав в экстремальную или искусственно созданную ситуацию, призванную проверить его поведение, Claude Sonnet 4.5 иногда устно выявлял подозрительные аспекты обстановки и предполагал, что его тестируют», — предупреждала системная карточка. «Это затрудняет интерпретацию оценок, где это происходит. Это также поднимает вопросы об оценках предыдущих моделей, которые, возможно, распознавали вымышленный характер тестов и просто „подыгрывали“».

Поиск

Поиск

Anthropic рекламирует улучшения в области безопасности и защиты в Claude Sonnet 4.5

LeSh1y777

Пользователь

Труднее злоупотреблять

Улучшенный помощник по кибербезопасности

Сонет обладает самосознанием

Похожие темы

Anthropic рекламирует улучшения в области безопасности и защиты в Claude Sonnet 4.5

LeSh1y777

Пользователь

Труднее злоупотреблять​

Улучшенный помощник по кибербезопасности​

Сонет обладает самосознанием​

Похожие темы

Труднее злоупотреблять

Улучшенный помощник по кибербезопасности

Сонет обладает самосознанием