Когда появились новости о том, что агент искусственного интеллекта по имени XBOW возглавил рейтинги HackerOne по поиску уязвимостей, это сразу же вызвало ряд тревожных вопросов для представителей индустрии кибербезопасности.
Развились ли большие языковые модели настолько, чтобы частично или полностью заменить человеческий поиск ошибок? Насколько точно работает XBOW, созданный одноимённым стартапом? Были ли люди задействованы в создании продукта, и если да, то в какой степени? И, наконец: что это означает для будущего кибербезопасности и людей, которые традиционно выполняли эту работу?
В интервью CyberScoop эксперты из XBOW, HackerOne и индустрии кибербезопасности отмечают, что стремительная эволюция больших языковых моделей очевидна в таких инструментах, как XBOW. Эти модели быстро стали чрезвычайно эффективными в таких ключевых задачах, как поиск уязвимостей, поиск угроз и состязательное взаимодействие. В отличие от людей, эти модели могут работать непрерывно — хотя и со значительными затратами — и устранять ошибки гораздо быстрее.
В то же время они подчеркнули, что управление программой поиска ошибок на основе ИИ или программой Red Teaming по-прежнему требует определённого человеческого участия. Другие отметили, что работа XBOW, хотя и впечатляющая, по-видимому, основана на успешном устранении незначительных ошибок с небольшим влиянием, и что модель, вероятно, будет испытывать трудности с более сложными уязвимостями.
Хотя большинство считает, что возможности XBOW не способны решить экзистенциальный кризис для охотников за ошибками и руководителей «красных команд», они также признают, что баланс между человеком и автоматизацией в кибербезопасности стремительно меняется под ногами отрасли.
Управление XBOW и его ресурсами также включало ручное курирование областей и политик вознаграждения за обнаружение ошибок, настраиваемую систему оценок, которой должен был следовать агент, методы идентификации SimHash и headless-браузер.
Основатель XBOW Оге де Мур, ранее возглавлявший GitHub Next, подразделение компании по исследованию и разработке программного обеспечения, рассказал CyberScoop, что его стартап в основном состоит из исследователей и экспертов в трёх областях: безопасность, искусственный интеллект и масштабируемые системы. Он рассказал, что участие человека в основном происходит на начальном этапе процесса для руководства и подсказок, а в конце — для проверки результатов работы инструмента, что является обязательным требованием HackerOne для отчётов о результатах программы вознаграждения за обнаружение уязвимостей в ИИ.
«XBOW — полностью автономная система, но вам нужно решить, на что вы её нацеливаете, поэтому вам нужно указать URL-адрес для начала работы, возможно, вы захотите предоставить ей дополнительную информацию, например, учётные данные… в самом начале», — сказал де Мур. «После этого вы выбираете цель, можете задать какие-то дополнительные настройки, но это всё. Система запускается и сообщает о множестве эксплойтов».
HackerOne отслеживает наиболее успешных специалистов по поиску уязвимостей различными способами, в том числе по тому, сосредоточены ли они на программах раскрытия уязвимостей или программах вознаграждения за найденные ошибки, а также по количеству обнаруженных и проверенных ошибок. Таблицы лидеров также начисляют «очки репутации» в зависимости от количества и сложности исправленных ошибок и присваивают каждой ошибке «оценку влияния» от 1 до 50, отражающую её серьёзность и охват.
Михиль Принс, соучредитель и старший директор по управлению продуктами HackerOne, рассказал CyberScoop, что некоторые хакеры и охотники за ошибками зарабатывают на жизнь, исправляя множество мелких ошибок, в то время как другие сосредотачиваются на меньшем количестве критических уязвимостей, которые приносят более высокие выплаты и репутационные награды. По словам Принса, результаты XBOW на данный момент аналогичны показателям предыдущей группы: большое количество исправленных ошибок, но репутационный рейтинг около 17, что отражает фокус на проблемах низкой и средней степени серьёзности.
Говоря в целом о таких инструментах, как XBOW, Принс сказал: «Мы видим, что они превосходны по объему… [но] пока не превосходны по влиянию на бизнес».
«Это рабочий процесс, и в нём есть лазейка, через которую злоумышленник может совершить непреднамеренное действие», — продолжил он. «ИИ очень сложно это обнаружить, поскольку ему необходимо точно понимать назначение приложения, бизнес-контекст, в котором оно работает, и всю окружающую среду».
Это мнение разделяют и некоторые другие специалисты по кибербезопасности. Амели Коран, работавшая над кибербезопасностью в Walmart, Electronic Arts и федеральном правительстве, заявила, что опыт работы инструмента не позволяет предположить, что он сможет заменить человека при решении более сложных задач кибербезопасности.
«Если посмотреть на их профиль на HackerOne, их значки — это лишь некоторые из самых базовых вещей, которые можно обнаружить при использовании автоматизации: утечки данных, раскрытие XML, межсайтовый скриптинг, внедрение команд и контроль доступа», — рассказала она CyberScoop. «Не буду снисходительна и скажу, что это элементарные находки, но всё это гораздо более поверхностный материал, чем более глубокие кампании».
Со своей стороны де Мур не согласен с такой характеристикой, заявляя, что компания намерена опубликовать примеры более сложных ошибок, обнаруженных XBOW, в ближайшие недели.
Хотя XBOW занимает лидирующие позиции в рейтингах HackerOne в США, многие источники критиковали идею сравнения работы инструмента, управляемого компанией, с результатами работы отдельных специалистов по поиску уязвимостей. Даже HackerOne пришлось столкнуться с этой проблемой: компания недавно изменила свои рейтинги, чтобы разделить рейтинги вознаграждений от отдельных лиц и компаний, таких как XBOW, в попытке справиться с аналогичными жалобами.
«XBOW — это компания, [и] за ней стоит множество людей», — сказал Принс, объясняя это решение. «Компания финансируется венчурным капиталом, в ней задействован ИИ — это не уникально, многие хакеры используют ИИ в своих инструментах, — но это компания, а не один человек».
Сейчас XBOW работает в убыток. Хотя многие проекты и выплаты ещё находятся в процессе реализации, де Мур заявил, что доход, полученный от поиска уязвимостей, пока меньше затрат на запуск инструмента, который «довольно ресурсоёмкий и недёшев».
По этой причине программе выделяется «бюджет времени» на решение определённых задач, и если задача требует более 100 попыток, это признак того, что инженерам требуется доработка модели — то, что де Мур называет «магией ИИ» — для повышения её эффективности. Как и другие, он считает, что ситуация изменится по мере того, как улучшение инфраструктуры центров обработки данных сделает инструменты ИИ, такие как XBOW, более доступными и практичными.
Большинство киберпрофессионалов принимали участие в соревнованиях «Захват флага» (CTF), где им предлагалось решить ряд головоломок, связанных с безопасностью, и использовать уязвимости, чтобы «захватить» часть данных.
Изначально XBOW готовили к CTF, и де Мур и другие рассказали CyberScoop, что технологии LLM значительно продвинулись в решении подобных задач. По его оценкам, год назад передовые программы LLM были способны решить лишь около 16% задач CTF, причём «только самые простые».
Но за последний год ситуация быстро изменилась, и некоторые эксперты по кибербезопасности в сфере ИИ заявили, что, по их мнению, задачи типа CTF обеспечивают отличную базовую подготовку по моделям кибербезопасности.
Недавнее исследование DreadNode, платформы машинного обучения для наступательной безопасности, иллюстрирует этот прогресс. Исследование показало, что некоторые передовые LLM-программисты, такие как Клод из Anthropic, теперь могут решать сложные задачи CTF «с поразительной эффективностью, состязаясь за считанные минуты, тогда как у людей обычно на это уходят часы или дни».
Многие из возможностей, продемонстрированных в ходе решения этих задач, находят применение в различных областях кибербезопасности, включая ИИ-команды и тестирование на проникновение, поиск уязвимостей, управление уязвимостями и более эффективный мониторинг угроз безопасности, связанных с уровнем LLM. Они далеки от доминирования — Клод смог решить лишь 43 из 70 оцениваемых задач, — но их успешность постоянно растет, что делает эти инструменты более полезными для решения различных задач кибербезопасности.
Уилл Пирс, основатель DreadNode, рассказал CyberScoop, что полученные результаты отражают то, как автоматизация и инструменты ИИ становятся обычным явлением во многих должностях и функциях в сфере кибербезопасности, сходясь вокруг процесса, который «по-прежнему управляется человеком», но на более высоком уровне абстракции.
«Будь то работа в команде или поиск ошибок, сетевые операции или обнаружение уязвимостей... что бы вы ни хотели сделать в киберпространстве, вы на самом деле просто медленно приближаетесь к желаемому результату», — сказал Пирс.
Примечательно, что все протестированные модели не справились с двумя задачами, решение которых отнимает у людей больше всего времени, что говорит о том, что некоторые аспекты безопасности по-прежнему требуют человеческой изобретательности.
Де Мур сообщил, что XBOW также прошла обучение по решению задач CTF, и компания разработала специальную систему подсчета очков, которая позволила им перенести этот общий процесс на более широкую работу XBOW по поиску уязвимостей.
Поскольку результаты испытаний CTF, как правило, двоякие — вы либо получаете помеченные данные, либо нет, — это помогает сократить одну из самых больших проблем, с которой сталкиваются LLM: галлюцинации.
Но это не устраняет их полностью. Де Мур заявил, что уровень ложноположительных результатов XBOW теперь колеблется от 0 до 10% в зависимости от типа уязвимости, над которой работает программа, но подчеркнул, что каждая ошибка, о которой сообщалось HackerOne, была проверена.
Однако опытные охотники за насекомыми не напрягаются и не спешат переходить в другие области.
Кейси Эллис, основатель и консультант BugCrowd, еще одной крупной платформы вознаграждений за обнаружение уязвимостей, рассказал CyberScoop, что XBOW, по всей видимости, изначально разрабатывался как инструмент для тестирования веб-приложений на проникновение с рабочим процессом, который «автономен в рамках установленных вами возможностей».
«В целом, типы уязвимостей, которые он [и другие полуавтономные хакерские агенты] может обнаружить, сильно различаются по степени воздействия, но у них есть общее свойство: их относительно легко тестировать и легко программно подтверждать», — сказал Эллис. «Инструменты хакерства на базе ИИ, естественно, склонны быть эффективными в этой широкой области уязвимостей, главным образом потому, что LLM очень хорошо работают с чёткими инструкциями и чёткими циклами обратной связи».
Эллис не преуменьшает ценность подобной работы. Он отметил, что интернет полон ошибок, которые позволяют осуществлять межсайтовый скриптинг, подделывать запросы на стороне сервера, раскрывать секреты и другие программно предсказуемые ошибки. Такие программы работают лучше всего, если их размещать в «целевых насыщенных средах для систем, которые могут работать круглосуточно и без перерывов и на 100% оптимизированы для их обнаружения».
Эллис считает, что такие системы, как XBOW, создадут большую конкуренцию для охотников за уязвимостями на начальном этапе обнаружения, сравнивая это с появлением внешних платформ управления поверхностями атак десять лет назад, которые упростили для специалистов автоматизацию мониторинга поверхностей атак.
Однако он не считает, что в ближайшее время искусственный интеллект, занимающийся поиском ошибок, полностью заменит людей, отмечая, что этап обнаружения ошибок в работе по программе «Bug Bounty» — «не самая сложная часть», а интернет и программное обеспечение по-прежнему будут изобиловать уязвимостями безопасности, отнимая массу времени как у людей, так и у машин.
«Многое осталось позади, и ежедневно появляются новые уязвимости, — сказал он, — и задача охотников за головами и исследователей состоит в том, чтобы изучить и понять, в чем хороши эти системы, в чем нет, и где есть возможность дополнить человека машиной».
Развились ли большие языковые модели настолько, чтобы частично или полностью заменить человеческий поиск ошибок? Насколько точно работает XBOW, созданный одноимённым стартапом? Были ли люди задействованы в создании продукта, и если да, то в какой степени? И, наконец: что это означает для будущего кибербезопасности и людей, которые традиционно выполняли эту работу?
В интервью CyberScoop эксперты из XBOW, HackerOne и индустрии кибербезопасности отмечают, что стремительная эволюция больших языковых моделей очевидна в таких инструментах, как XBOW. Эти модели быстро стали чрезвычайно эффективными в таких ключевых задачах, как поиск уязвимостей, поиск угроз и состязательное взаимодействие. В отличие от людей, эти модели могут работать непрерывно — хотя и со значительными затратами — и устранять ошибки гораздо быстрее.
В то же время они подчеркнули, что управление программой поиска ошибок на основе ИИ или программой Red Teaming по-прежнему требует определённого человеческого участия. Другие отметили, что работа XBOW, хотя и впечатляющая, по-видимому, основана на успешном устранении незначительных ошибок с небольшим влиянием, и что модель, вероятно, будет испытывать трудности с более сложными уязвимостями.
Хотя большинство считает, что возможности XBOW не способны решить экзистенциальный кризис для охотников за ошибками и руководителей «красных команд», они также признают, что баланс между человеком и автоматизацией в кибербезопасности стремительно меняется под ногами отрасли.
Больше машина, чем человек
В блоге от 24 июня глава службы безопасности XBOW Нико Вайсман заявил, что инструмент работает «без участия человека», но также признал, что, учитывая сотни тысяч потенциальных целей на платформе HackerOne, стартап «построил инфраструктуру на основе XBOW, чтобы помочь нам идентифицировать наиболее значимые цели и расставить приоритеты среди тех, которые позволят нам максимально увеличить отдачу от инвестиций».Управление XBOW и его ресурсами также включало ручное курирование областей и политик вознаграждения за обнаружение ошибок, настраиваемую систему оценок, которой должен был следовать агент, методы идентификации SimHash и headless-браузер.
Основатель XBOW Оге де Мур, ранее возглавлявший GitHub Next, подразделение компании по исследованию и разработке программного обеспечения, рассказал CyberScoop, что его стартап в основном состоит из исследователей и экспертов в трёх областях: безопасность, искусственный интеллект и масштабируемые системы. Он рассказал, что участие человека в основном происходит на начальном этапе процесса для руководства и подсказок, а в конце — для проверки результатов работы инструмента, что является обязательным требованием HackerOne для отчётов о результатах программы вознаграждения за обнаружение уязвимостей в ИИ.
«XBOW — полностью автономная система, но вам нужно решить, на что вы её нацеливаете, поэтому вам нужно указать URL-адрес для начала работы, возможно, вы захотите предоставить ей дополнительную информацию, например, учётные данные… в самом начале», — сказал де Мур. «После этого вы выбираете цель, можете задать какие-то дополнительные настройки, но это всё. Система запускается и сообщает о множестве эксплойтов».
HackerOne отслеживает наиболее успешных специалистов по поиску уязвимостей различными способами, в том числе по тому, сосредоточены ли они на программах раскрытия уязвимостей или программах вознаграждения за найденные ошибки, а также по количеству обнаруженных и проверенных ошибок. Таблицы лидеров также начисляют «очки репутации» в зависимости от количества и сложности исправленных ошибок и присваивают каждой ошибке «оценку влияния» от 1 до 50, отражающую её серьёзность и охват.
Михиль Принс, соучредитель и старший директор по управлению продуктами HackerOne, рассказал CyberScoop, что некоторые хакеры и охотники за ошибками зарабатывают на жизнь, исправляя множество мелких ошибок, в то время как другие сосредотачиваются на меньшем количестве критических уязвимостей, которые приносят более высокие выплаты и репутационные награды. По словам Принса, результаты XBOW на данный момент аналогичны показателям предыдущей группы: большое количество исправленных ошибок, но репутационный рейтинг около 17, что отражает фокус на проблемах низкой и средней степени серьёзности.
Говоря в целом о таких инструментах, как XBOW, Принс сказал: «Мы видим, что они превосходны по объему… [но] пока не превосходны по влиянию на бизнес».
«Это рабочий процесс, и в нём есть лазейка, через которую злоумышленник может совершить непреднамеренное действие», — продолжил он. «ИИ очень сложно это обнаружить, поскольку ему необходимо точно понимать назначение приложения, бизнес-контекст, в котором оно работает, и всю окружающую среду».
Это мнение разделяют и некоторые другие специалисты по кибербезопасности. Амели Коран, работавшая над кибербезопасностью в Walmart, Electronic Arts и федеральном правительстве, заявила, что опыт работы инструмента не позволяет предположить, что он сможет заменить человека при решении более сложных задач кибербезопасности.
«Если посмотреть на их профиль на HackerOne, их значки — это лишь некоторые из самых базовых вещей, которые можно обнаружить при использовании автоматизации: утечки данных, раскрытие XML, межсайтовый скриптинг, внедрение команд и контроль доступа», — рассказала она CyberScoop. «Не буду снисходительна и скажу, что это элементарные находки, но всё это гораздо более поверхностный материал, чем более глубокие кампании».
Со своей стороны де Мур не согласен с такой характеристикой, заявляя, что компания намерена опубликовать примеры более сложных ошибок, обнаруженных XBOW, в ближайшие недели.
Хотя XBOW занимает лидирующие позиции в рейтингах HackerOne в США, многие источники критиковали идею сравнения работы инструмента, управляемого компанией, с результатами работы отдельных специалистов по поиску уязвимостей. Даже HackerOne пришлось столкнуться с этой проблемой: компания недавно изменила свои рейтинги, чтобы разделить рейтинги вознаграждений от отдельных лиц и компаний, таких как XBOW, в попытке справиться с аналогичными жалобами.
«XBOW — это компания, [и] за ней стоит множество людей», — сказал Принс, объясняя это решение. «Компания финансируется венчурным капиталом, в ней задействован ИИ — это не уникально, многие хакеры используют ИИ в своих инструментах, — но это компания, а не один человек».
Сейчас XBOW работает в убыток. Хотя многие проекты и выплаты ещё находятся в процессе реализации, де Мур заявил, что доход, полученный от поиска уязвимостей, пока меньше затрат на запуск инструмента, который «довольно ресурсоёмкий и недёшев».
По этой причине программе выделяется «бюджет времени» на решение определённых задач, и если задача требует более 100 попыток, это признак того, что инженерам требуется доработка модели — то, что де Мур называет «магией ИИ» — для повышения её эффективности. Как и другие, он считает, что ситуация изменится по мере того, как улучшение инфраструктуры центров обработки данных сделает инструменты ИИ, такие как XBOW, более доступными и практичными.
Поймать сумку
Так как же XBOW вообще оказался на вершине рейтингов? Это связано с улучшением способности магистров права решать специфические проблемы кибербезопасности.Большинство киберпрофессионалов принимали участие в соревнованиях «Захват флага» (CTF), где им предлагалось решить ряд головоломок, связанных с безопасностью, и использовать уязвимости, чтобы «захватить» часть данных.
Изначально XBOW готовили к CTF, и де Мур и другие рассказали CyberScoop, что технологии LLM значительно продвинулись в решении подобных задач. По его оценкам, год назад передовые программы LLM были способны решить лишь около 16% задач CTF, причём «только самые простые».
Но за последний год ситуация быстро изменилась, и некоторые эксперты по кибербезопасности в сфере ИИ заявили, что, по их мнению, задачи типа CTF обеспечивают отличную базовую подготовку по моделям кибербезопасности.
Недавнее исследование DreadNode, платформы машинного обучения для наступательной безопасности, иллюстрирует этот прогресс. Исследование показало, что некоторые передовые LLM-программисты, такие как Клод из Anthropic, теперь могут решать сложные задачи CTF «с поразительной эффективностью, состязаясь за считанные минуты, тогда как у людей обычно на это уходят часы или дни».
Многие из возможностей, продемонстрированных в ходе решения этих задач, находят применение в различных областях кибербезопасности, включая ИИ-команды и тестирование на проникновение, поиск уязвимостей, управление уязвимостями и более эффективный мониторинг угроз безопасности, связанных с уровнем LLM. Они далеки от доминирования — Клод смог решить лишь 43 из 70 оцениваемых задач, — но их успешность постоянно растет, что делает эти инструменты более полезными для решения различных задач кибербезопасности.
Уилл Пирс, основатель DreadNode, рассказал CyberScoop, что полученные результаты отражают то, как автоматизация и инструменты ИИ становятся обычным явлением во многих должностях и функциях в сфере кибербезопасности, сходясь вокруг процесса, который «по-прежнему управляется человеком», но на более высоком уровне абстракции.
«Будь то работа в команде или поиск ошибок, сетевые операции или обнаружение уязвимостей... что бы вы ни хотели сделать в киберпространстве, вы на самом деле просто медленно приближаетесь к желаемому результату», — сказал Пирс.
Примечательно, что все протестированные модели не справились с двумя задачами, решение которых отнимает у людей больше всего времени, что говорит о том, что некоторые аспекты безопасности по-прежнему требуют человеческой изобретательности.
Де Мур сообщил, что XBOW также прошла обучение по решению задач CTF, и компания разработала специальную систему подсчета очков, которая позволила им перенести этот общий процесс на более широкую работу XBOW по поиску уязвимостей.
Поскольку результаты испытаний CTF, как правило, двоякие — вы либо получаете помеченные данные, либо нет, — это помогает сократить одну из самых больших проблем, с которой сталкиваются LLM: галлюцинации.
Но это не устраняет их полностью. Де Мур заявил, что уровень ложноположительных результатов XBOW теперь колеблется от 0 до 10% в зависимости от типа уязвимости, над которой работает программа, но подчеркнул, что каждая ошибка, о которой сообщалось HackerOne, была проверена.
Будущее кибербезопасности?
Такие инструменты, как XBOW, представляют собой важную веху для отрасли кибербезопасности, демонстрируя существенные возможности, которые потенциально могут обеспечить реальные бизнес-преимущества — при условии снижения затрат на вычислительные мощности — в ближайшем будущем.Однако опытные охотники за насекомыми не напрягаются и не спешат переходить в другие области.
Кейси Эллис, основатель и консультант BugCrowd, еще одной крупной платформы вознаграждений за обнаружение уязвимостей, рассказал CyberScoop, что XBOW, по всей видимости, изначально разрабатывался как инструмент для тестирования веб-приложений на проникновение с рабочим процессом, который «автономен в рамках установленных вами возможностей».
«В целом, типы уязвимостей, которые он [и другие полуавтономные хакерские агенты] может обнаружить, сильно различаются по степени воздействия, но у них есть общее свойство: их относительно легко тестировать и легко программно подтверждать», — сказал Эллис. «Инструменты хакерства на базе ИИ, естественно, склонны быть эффективными в этой широкой области уязвимостей, главным образом потому, что LLM очень хорошо работают с чёткими инструкциями и чёткими циклами обратной связи».
Эллис не преуменьшает ценность подобной работы. Он отметил, что интернет полон ошибок, которые позволяют осуществлять межсайтовый скриптинг, подделывать запросы на стороне сервера, раскрывать секреты и другие программно предсказуемые ошибки. Такие программы работают лучше всего, если их размещать в «целевых насыщенных средах для систем, которые могут работать круглосуточно и без перерывов и на 100% оптимизированы для их обнаружения».
Эллис считает, что такие системы, как XBOW, создадут большую конкуренцию для охотников за уязвимостями на начальном этапе обнаружения, сравнивая это с появлением внешних платформ управления поверхностями атак десять лет назад, которые упростили для специалистов автоматизацию мониторинга поверхностей атак.
Однако он не считает, что в ближайшее время искусственный интеллект, занимающийся поиском ошибок, полностью заменит людей, отмечая, что этап обнаружения ошибок в работе по программе «Bug Bounty» — «не самая сложная часть», а интернет и программное обеспечение по-прежнему будут изобиловать уязвимостями безопасности, отнимая массу времени как у людей, так и у машин.
«Многое осталось позади, и ежедневно появляются новые уязвимости, — сказал он, — и задача охотников за головами и исследователей состоит в том, чтобы изучить и понять, в чем хороши эти системы, в чем нет, и где есть возможность дополнить человека машиной».