- AI Agents Are Getting Better at Writing Code—and Hacking It as Well
- One of the best bug-hunters in the world is an AI tool called Xbow, just one of many signs of the coming age of cybersecurity automation.
A IA vai à caça de bugs
Will Knight, Escritor Sênior
Os modelos de inteligência artificial mais recentes não são apenas notavelmente bons em engenharia de software — novas pesquisas mostram que eles estão cada vez melhores em encontrar bugs em software também.
Pesquisadores de IA da UC Berkeley testaram o quão bem os modelos e agentes de IA mais recentes conseguiam encontrar vulnerabilidades em 188 grandes bases de código de código aberto. Usando um novo benchmark chamado CyberGym, os modelos de IA identificaram 17 novos bugs, incluindo 15 previamente desconhecidos, ou “zero-day”. “Muitas dessas vulnerabilidades são críticas”, diz Dawn Song, professora da UC Berkeley que liderou o trabalho.
Muitos especialistas esperam que os modelos de IA se tornem armas cibernéticas formidáveis. Uma ferramenta de IA da startup Xbow atualmente subiu nas fileiras da tabela de classificação do HackerOne para caça de bugs e atualmente ocupa o primeiro lugar. A empresa anunciou recentemente US$ 75 milhões em novos financiamentos.
Song diz que as habilidades de codificação dos modelos de IA mais recentes, combinadas com a melhoria das habilidades de raciocínio, estão começando a mudar o cenário da segurança cibernética. “Este é um momento crucial”, diz ela. “Na verdade, superou nossas expectativas gerais.”
À medida que os modelos continuam a melhorar, eles automatizarão o processo de descoberta e exploração de falhas de segurança. Isso pode ajudar as empresas a manter seu software seguro, mas também pode ajudar os hackers a invadir sistemas. “Nem nos esforçamos tanto”, diz Song. “Se aumentássemos o orçamento, permitíssemos que os agentes trabalhassem por mais tempo, eles poderiam se sair ainda melhor.”
A equipe da UC Berkeley testou modelos de IA convencionais de ponta da OpenAI, Google e Anthropic, bem como ofertas de código aberto da Meta, DeepSeek e Alibaba, combinadas com vários agentes para encontrar bugs, incluindo OpenHands, Cybench e EnIGMA.
Os pesquisadores usaram descrições de vulnerabilidades de software conhecidas dos 188 projetos de software. Em seguida, eles alimentaram as descrições aos agentes de segurança cibernética alimentados por modelos de IA de ponta para ver se eles conseguiam identificar as mesmas falhas por conta própria, analisando novas bases de código, executando testes e criando exploits de prova de conceito. A equipe também pediu aos agentes que procurassem novas vulnerabilidades nas bases de código por conta própria.
Por meio do processo, as ferramentas de IA geraram centenas de exploits de prova de conceito e, desses exploits, os pesquisadores identificaram 15 vulnerabilidades nunca antes vistas e duas vulnerabilidades que haviam sido previamente divulgadas e corrigidas. O trabalho se soma à crescente evidência de que a IA pode automatizar a descoberta de vulnerabilidades de dia zero, que são potencialmente perigosas (e valiosas) porque podem fornecer uma maneira de hackear sistemas ativos.
A IA parece destinada a se tornar uma parte importante da indústria de segurança cibernética, no entanto.
O especialista em segurança Sean Heelan descobriu recentemente uma falha de dia zero no kernel Linux amplamente utilizado com a ajuda do modelo de raciocínio o3 da OpenAI. Em novembro passado, o Google anunciou que havia descoberto uma vulnerabilidade de software previamente desconhecida usando IA por meio de um programa chamado Project Zero.
Como outras partes da indústria de software, muitas empresas de segurança cibernética estão apaixonadas pelo potencial da IA. O novo trabalho mostra que a IA pode encontrar rotineiramente novas falhas, mas também destaca as limitações restantes da tecnologia. Os sistemas de IA foram incapazes de encontrar a maioria das falhas e foram impedidos por aquelas especialmente complexas.
“O trabalho é fantástico”, diz Katie Moussouris, fundadora e CEO da Luta Security, em parte porque mostra que a IA ainda não é páreo para a experiência humana — a melhor combinação de modelo e agente (Claude e OpenHands) só conseguiu encontrar cerca de 2% das vulnerabilidades. “Ainda não substitua seus caçadores de bugs humanos”, diz Moussouris.
Moussouris diz que está menos preocupada com a IA hackeando software do que com empresas investindo demais em IA em detrimento de outras técnicas.