[ AI STUDY] AI Goes Bug Hunting

ИИ идет на охоту за ошибками

Уилл Найт, старший писатель

AI Agents Are Getting Better at Writing Code—and Hacking It as Well: One of the best bug-hunters in the world is an AI tool called Xbow, just one of many signs of the coming age of cybersecurity automation.

www.wired.com

AI Agents Are Getting Better at Writing Code—and Hacking It as Well

Новейшие модели искусственного интеллекта не только удивительно хороши в разработке программного обеспечения — новые исследования показывают, что они также становятся все лучше в поиске ошибок в программном обеспечении.

Исследователи ИИ из Калифорнийского университета в Беркли протестировали, насколько хорошо новейшие модели и агенты ИИ могут находить уязвимости в 188 крупных кодовых базах с открытым исходным кодом. Используя новый эталон под названием "CyberGym,", модели ИИ обнаружили 17 новых ошибок, включая 15 ранее неизвестных, или «нулевого дня». «Многие из этих уязвимостей критичны», — говорит Dawn Song, профессор Калифорнийского университета в Беркли, руководившая работой.

Многие эксперты ожидают, что модели ИИ станут грозным кибероружием. Инструмент ИИ от стартапа Xbow в настоящее время поднялся в рейтинге лидеров HackerOne по поиску ошибок и в настоящее время занимает первое место. Компания недавно объявила о новом финансировании в размере 75 миллионов долларов.

Сонг говорит, что навыки кодирования новейших моделей ИИ в сочетании с улучшением способностей к рассуждению начинают менять ландшафт кибербезопасности. «Это поворотный момент», — говорит она. «На самом деле это превзошло наши общие ожидания».

По мере того, как модели продолжат совершенствоваться, они автоматизируют процесс обнаружения и использования уязвимостей безопасности. Это может помочь компаниям обеспечить безопасность своего программного обеспечения, но также может помочь хакерам взламывать системы. «Мы даже не особо старались», — говорит Сонг. «Если бы мы увеличили бюджет, позволили агентам работать дольше, они могли бы добиться еще лучших результатов».

Команда Калифорнийского университета в Беркли протестировала обычные передовые модели ИИ от OpenAI, Google и Anthropic, а также предложения с открытым исходным кодом от Meta, DeepSeek и Alibaba в сочетании с несколькими агентами для поиска ошибок, включая OpenHands, Cybench и EnIGMA.

Исследователи использовали описания известных уязвимостей программного обеспечения из 188 программных проектов. Затем они передали описания агентам кибербезопасности, работающим на передовых моделях ИИ, чтобы увидеть, смогут ли они сами выявить те же ошибки, анализируя новые кодовые базы, запуская тесты и создавая эксплойты для подтверждения концепции. Команда также попросила агентов самостоятельно искать новые уязвимости в кодовых базах.

В ходе этого процесса инструменты ИИ сгенерировали сотни эксплойтов для подтверждения концепции, и из этих эксплойтов исследователи выявили 15 ранее невидимых уязвимостей и две уязвимости, которые были ранее раскрыты и исправлены. Работа добавляет новые доказательства того, что ИИ может автоматизировать обнаружение уязвимостей нулевого дня, которые потенциально опасны (и ценны), поскольку они могут предоставить способ взлома работающих систем.

ИИ, похоже, суждено стать важной частью индустрии кибербезопасности, тем не менее.

Эксперт по безопасности Шон Хилан недавно обнаружил уязвимость нулевого дня в широко используемом ядре Linux с помощью модели рассуждений OpenAI o3. В ноябре прошлого года Google объявила, что обнаружила ранее неизвестную уязвимость программного обеспечения, используя ИИ, с помощью программы под названием " Project Zero.

Как и другие части индустрии программного обеспечения, многие компании, занимающиеся кибербезопасностью, очарованы потенциалом ИИ. Новая работа действительно показывает, что ИИ может регулярно находить новые недостатки, но она также подчеркивает оставшиеся ограничения технологии. Системы ИИ не смогли найти большинство недостатков и были озадачены особенно сложными.

«Работа фантастическая», — говорит Katie Moussouris, founder and CEO of Luta Security, отчасти потому, что она показывает, что ИИ все еще не может сравниться с человеческим опытом — лучшая комбинация модели и агента (Claude и OpenHands) смогли найти только около 2 процентов уязвимостей. «Пока не заменяйте своих охотников за ошибками», — говорит Муссурис.

Муссурис говорит, что ее меньше беспокоит взлом программного обеспечения ИИ, чем компании, которые слишком много инвестируют в ИИ за счет других методов.