- AI Agents Are Getting Better at Writing Code—and Hacking It as Well
- One of the best bug-hunters in the world is an AI tool called Xbow, just one of many signs of the coming age of cybersecurity automation.
AI Pergi Berburu Bug
Will Knight, Penulis Senior
Model kecerdasan buatan terbaru tidak hanya sangat bagus dalam rekayasa perangkat lunak—penelitian baru menunjukkan bahwa mereka juga semakin baik dalam menemukan bug dalam perangkat lunak.
Peneliti AI di UC Berkeley menguji seberapa baik model dan agen AI terbaru dapat menemukan kerentanan dalam 188 basis kode sumber terbuka yang besar. Menggunakan tolok ukur baru yang disebut CyberGym, model AI mengidentifikasi 17 bug baru termasuk 15 yang sebelumnya tidak diketahui, atau yang disebut “zero-day.” “Banyak kerentanan ini sangat penting,” kata Dawn Song, seorang profesor di UC Berkeley yang memimpin pekerjaan tersebut.
Banyak pakar memperkirakan model AI akan menjadi senjata keamanan siber yang tangguh. Alat AI dari startup Xbow saat ini telah merangkak naik dalam peringkat papan peringkat HackerOne untuk berburu bug dan saat ini berada di tempat teratas. Perusahaan tersebut baru-baru ini mengumumkan pendanaan baru sebesar $75 juta.
Song mengatakan bahwa keterampilan pengkodean dari model AI terbaru yang dikombinasikan dengan peningkatan kemampuan penalaran mulai mengubah lanskap keamanan siber. “Ini adalah momen penting,” katanya. “Itu benar-benar melebihi harapan umum kami.”
Seiring dengan peningkatan model, mereka akan mengotomatiskan proses penemuan dan eksploitasi cacat keamanan. Hal ini dapat membantu perusahaan menjaga keamanan perangkat lunak mereka, tetapi juga dapat membantu peretas dalam menerobos sistem. “Kami bahkan tidak berusaha keras,” kata Song. “Jika kami meningkatkan anggaran, mengizinkan agen untuk berjalan lebih lama, mereka bisa melakukan yang lebih baik.”
Tim UC Berkeley menguji model AI perbatasan konvensional dari OpenAI, Google, dan Anthropic, serta penawaran sumber terbuka dari Meta, DeepSeek, dan Alibaba yang dikombinasikan dengan beberapa agen untuk menemukan bug, termasuk OpenHands, Cybench, dan EnIGMA.
Para peneliti menggunakan deskripsi kerentanan perangkat lunak yang diketahui dari 188 proyek perangkat lunak. Mereka kemudian memasukkan deskripsi tersebut ke agen keamanan siber yang didukung oleh model AI perbatasan untuk melihat apakah mereka dapat mengidentifikasi cacat yang sama untuk diri mereka sendiri dengan menganalisis basis kode baru, menjalankan pengujian, dan membuat eksploitasi bukti konsep. Tim juga meminta agen untuk mencari kerentanan baru dalam basis kode sendiri.
Melalui proses tersebut, alat AI menghasilkan ratusan eksploitasi bukti konsep, dan dari eksploitasi ini para peneliti mengidentifikasi 15 kerentanan yang sebelumnya tidak terlihat dan dua kerentanan yang sebelumnya telah diungkapkan dan ditambal. Pekerjaan ini menambah bukti yang berkembang bahwa AI dapat mengotomatiskan penemuan kerentanan zero-day, yang berpotensi berbahaya (dan berharga) karena mereka dapat memberikan cara untuk meretas sistem langsung.
AI tampaknya ditakdirkan untuk menjadi bagian penting dari industri keamanan siber.
Pakar keamanan Sean Heelan baru-baru ini menemukan cacat zero-day dalam kernel Linux yang banyak digunakan dengan bantuan model penalaran OpenAI o3. November lalu, Google mengumumkan bahwa mereka telah menemukan kerentanan perangkat lunak yang sebelumnya tidak diketahui menggunakan AI melalui program yang disebut Project Zero.
Seperti bagian lain dari industri perangkat lunak, banyak perusahaan keamanan siber yang terpesona dengan potensi AI. Pekerjaan baru memang menunjukkan bahwa AI dapat secara rutin menemukan cacat baru, tetapi juga menyoroti keterbatasan yang tersisa dengan teknologi tersebut. Sistem AI tidak dapat menemukan sebagian besar cacat dan tertegun oleh yang sangat kompleks.
“Pekerjaannya fantastis,” kata Katie Moussouris, pendiri dan CEO Luta Security, sebagian karena hal itu menunjukkan bahwa AI masih belum cocok dengan keahlian manusia—kombinasi model dan agen terbaik (Claude dan OpenHands) hanya dapat menemukan sekitar 2 persen dari kerentanan. “Jangan ganti pemburu bug manusia Anda dulu,” kata Moussouris.
Moussouris mengatakan dia kurang khawatir tentang peretasan perangkat lunak AI daripada perusahaan yang berinvestasi terlalu banyak pada AI dengan mengorbankan teknik lain.