[ AI STUDY] AI Gaat Bugs Jagen

AI gaat op jacht naar bugs

Will Knight, Senior Writer

AI Agents Are Getting Better at Writing Code—and Hacking It as Well: One of the best bug-hunters in the world is an AI tool called Xbow, just one of many signs of the coming age of cybersecurity automation.

www.wired.com

AI Agents Are Getting Better at Writing Code—and Hacking It as Well

De nieuwste modellen voor kunstmatige intelligentie zijn niet alleen opmerkelijk goed in software engineering - nieuw onderzoek toont aan dat ze ook steeds beter worden in het vinden van bugs in software.

AI-onderzoekers van UC Berkeley testten hoe goed de nieuwste AI-modellen en -agenten kwetsbaarheden konden vinden in 188 grote open source codebases. Met behulp van een nieuwe benchmark genaamd CyberGym, identificeerden de AI-modellen 17 nieuwe bugs, waaronder 15 voorheen onbekende, of “zero-day”, bugs. “Veel van deze kwetsbaarheden zijn kritiek,” zegt Dawn Song, een professor aan UC Berkeley die het werk leidde.

Veel experts verwachten dat AI-modellen formidabele cybersecuritywapens zullen worden. Een AI-tool van startup Xbow is momenteel opgeklommen in de ranglijst van HackerOne voor het zoeken naar bugs en staat momenteel op de eerste plaats. Het bedrijf kondigde onlangs $75 miljoen aan nieuwe financiering aan.

Song zegt dat de programmeervaardigheden van de nieuwste AI-modellen, in combinatie met verbeterde redeneervermogens, het cybersecuritylandschap beginnen te veranderen. “Dit is een cruciaal moment,” zegt ze. “Het overtrof eigenlijk onze algemene verwachtingen.”

Naarmate de modellen blijven verbeteren, zullen ze het proces automatiseren van zowel het ontdekken als het exploiteren van beveiligingsfouten. Dit zou bedrijven kunnen helpen hun software veilig te houden, maar kan ook hackers helpen bij het inbreken in systemen. “We hebben niet eens zo hard ons best gedaan,” zegt Song. “Als we het budget zouden opschroeven en de agenten langer zouden laten draaien, zouden ze het nog beter kunnen doen.”

Het UC Berkeley-team testte conventionele grens-AI-modellen van OpenAI, Google en Anthropic, evenals open source-aanbiedingen van Meta, DeepSeek en Alibaba in combinatie met verschillende agenten voor het vinden van bugs, waaronder OpenHands, Cybench en EnIGMA.

De onderzoekers gebruikten beschrijvingen van bekende softwarekwetsbaarheden van de 188 softwareprojecten. Vervolgens voerden ze de beschrijvingen in de cybersecurity-agenten die werden aangedreven door grens-AI-modellen om te zien of ze dezelfde fouten zelf konden identificeren door nieuwe codebases te analyseren, tests uit te voeren en proof-of-concept exploits te maken. Het team vroeg de agenten ook om zelf te jagen op nieuwe kwetsbaarheden in de codebases.

Via het proces genereerden de AI-tools honderden proof-of-concept exploits, en van deze exploits identificeerden de onderzoekers 15 voorheen ongeziene kwetsbaarheden en twee kwetsbaarheden die eerder waren bekendgemaakt en gepatcht. Het werk draagt bij aan het groeiende bewijs dat AI de ontdekking van zero-day-kwetsbaarheden kan automatiseren, die potentieel gevaarlijk (en waardevol) zijn omdat ze een manier kunnen bieden om live systemen te hacken.

AI lijkt hoe dan ook voorbestemd om een belangrijk onderdeel van de cybersecurity-industrie te worden.

Security-expert Sean Heelan ontdekte onlangs een zero-day-fout in de veelgebruikte Linux-kernel met behulp van het redeneermodel o3 van OpenAI. Afgelopen november kondigde Google aan dat het een voorheen onbekende softwarekwetsbaarheid had ontdekt met behulp van AI via een programma genaamd Project Zero.

Net als andere delen van de software-industrie zijn veel cybersecuritybedrijven gecharmeerd van het potentieel van AI. Het nieuwe werk laat inderdaad zien dat AI routinematig nieuwe fouten kan vinden, maar het benadrukt ook de resterende beperkingen van de technologie. De AI-systemen konden de meeste fouten niet vinden en waren in de war van vooral complexe fouten.

“Het werk is fantastisch,” zegt Katie Moussouris, oprichter en CEO van Luta Security, deels omdat het laat zien dat AI nog steeds geen match is voor menselijke expertise - de beste van de model- en agentcombinatie (Claude en OpenHands) slechts ongeveer 2 procent van de kwetsbaarheden kon vinden. “Vervang je menselijke bugjagers nog niet,” zegt Moussouris.

Moussouris zegt dat ze zich minder zorgen maakt over AI die software hackt dan over bedrijven die te veel investeren in AI ten koste van andere technieken.