[ AI 학습] AI, 버그 사냥에 나서다

AI가 버그를 찾다

윌 나이트, 선임 작가

AI Agents Are Getting Better at Writing Code—and Hacking It as Well: One of the best bug-hunters in the world is an AI tool called Xbow, just one of many signs of the coming age of cybersecurity automation.

www.wired.com

AI Agents Are Getting Better at Writing Code—and Hacking It as Well

최신 인공 지능 모델은 소프트웨어 엔지니어링에 매우 능숙할 뿐만 아니라 새로운 연구에 따르면 소프트웨어에서 버그를 찾는 데 점점 더 능숙해지고 있습니다.

UC 버클리의 AI 연구원들은 최신 AI 모델과 에이전트가 188개의 대규모 오픈 소스 코드베이스에서 얼마나 잘 취약점을 찾을 수 있는지 테스트했습니다. 새로운 벤치마크인 CyberGym을 사용하여 AI 모델은 15개의 이전에 알려지지 않은, 즉 "제로 데이" 버그를 포함하여 17개의 새로운 버그를 식별했습니다. UC 버클리 교수이자 이 연구를 이끈 Dawn Song은 "이러한 취약점 중 상당수는 치명적입니다"라고 말합니다.

많은 전문가들은 AI 모델이 강력한 사이버 보안 무기가 될 것으로 예상합니다. 스타트업 Xbow의 AI 도구는 현재 HackerOne의 버그 사냥 리더보드 순위에서 상승하여 현재 1위를 차지하고 있습니다. 이 회사는 최근 7,500만 달러의 새로운 자금 조달을 발표했습니다.

Song은 최신 AI 모델의 코딩 기술이 개선된 추론 능력과 결합되어 사이버 보안 환경을 변화시키기 시작했다고 말합니다. "지금이 중요한 순간입니다."라고 그녀는 말합니다. "실제로 우리의 일반적인 기대를 뛰어 넘었습니다."

모델이 계속 개선됨에 따라 보안 결함을 발견하고 악용하는 프로세스를 자동화할 것입니다. 이것은 회사가 소프트웨어를 안전하게 유지하는 데 도움이 될 수 있지만 해커가 시스템을 침입하는 데 도움이 될 수도 있습니다. Song은 "우리는 그렇게 열심히 노력하지도 않았습니다."라고 말합니다. "예산을 늘리고 에이전트가 더 오래 실행되도록 허용했다면 더 잘할 수 있었을 것입니다.".

UC 버클리 팀은 OpenAI, Google, Anthropic의 기존 프론티어 AI 모델과 Meta, DeepSeek, Alibaba의 오픈 소스 제품을 OpenHands, Cybench, EnIGMA를 포함한 버그 찾기 위한 여러 에이전트와 결합하여 테스트했습니다.

연구자들은 188개의 소프트웨어 프로젝트에서 알려진 소프트웨어 취약점에 대한 설명을 사용했습니다. 그런 다음 새로운 코드베이스를 분석하고, 테스트를 실행하고, 개념 증명 익스플로잇을 제작하여 동일한 결함을 스스로 식별할 수 있는지 확인하기 위해 프론티어 AI 모델로 구동되는 사이버 보안 에이전트에 설명을 제공했습니다. 팀은 또한 에이전트에게 코드베이스에서 새로운 취약점을 직접 찾도록 요청했습니다.

이 과정을 통해 AI 도구는 수백 개의 개념 증명 익스플로잇을 생성했으며, 연구자들은 이러한 익스플로잇 중 15개의 이전에 보이지 않던 취약점과 이전에 공개 및 패치된 두 개의 취약점을 확인했습니다. 이 연구는 AI가 잠재적으로 위험하고(그리고 가치 있는) 라이브 시스템을 해킹할 수 있는 방법을 제공할 수 있는 제로 데이 취약점 발견을 자동화할 수 있다는 증거를 더합니다.

AI는 그럼에도 불구하고 사이버 보안 산업의 중요한 부분이 될 운명인 것 같습니다.

보안 전문가 Sean Heelan은 최근 OpenAI의 추론 모델 o3의 도움을 받아 널리 사용되는 Linux 커널에서 제로 데이 결함을 발견했습니다. 작년 11월, Google은 Project Zero라는 프로그램을 통해 AI를 사용하여 이전에 알려지지 않은 소프트웨어 취약점을 발견했다고 발표했습니다.

다른 소프트웨어 산업과 마찬가지로 많은 사이버 보안 회사가 AI의 잠재력에 매료되어 있습니다. 실제로 새로운 연구는 AI가 새로운 결함을 일상적으로 찾을 수 있음을 보여주지만, 기술의 남은 한계를 강조하기도 합니다. AI 시스템은 대부분의 결함을 찾을 수 없었고 특히 복잡한 결함에 좌절했습니다.

"이 연구는 환상적입니다."라고 Luta Security의 창립자이자 CEO인 Katie Moussouris는 말합니다. 이는 AI가 여전히 인간 전문 지식에 필적할 수 없음을 보여주기 때문입니다. 모델과 에이전트 조합(Claude 및 OpenHands)의 최고 성능은 약 2%의 취약점만 찾을 수 있었습니다. Moussouris는 "아직 인간 버그 사냥꾼을 대체하지 마세요."라고 말합니다.

Moussouris는 AI가 다른 기술을 희생하면서 AI에 너무 많은 투자를 하는 것에 대해 우려한다고 말합니다.