Eva's Zine

[ ESTUDIO DE IA] La IA va a la caza de errores

Creado: 2025-06-30

Creado: 2025-06-30 16:16

La IA se dedica a la búsqueda de errores

Will Knight, Escritor Senior 


Los últimos modelos de inteligencia artificial no solo son notablemente buenos en ingeniería de software, sino que una nueva investigación demuestra que también están mejorando cada vez más en la búsqueda de errores en el software.

Investigadores de IA de la UC Berkeley probaron qué tan bien los últimos modelos y agentes de IA podían encontrar vulnerabilidades en 188 grandes bases de código de código abierto. Usando un nuevo punto de referencia llamado CyberGym, los modelos de IA identificaron 17 nuevos errores, incluidos 15 previamente desconocidos, o de “día cero”. “Muchas de estas vulnerabilidades son críticas”, dice Dawn Song, profesora de la UC Berkeley que dirigió el trabajo.

Muchos expertos esperan que los modelos de IA se conviertan en armas de ciberseguridad formidables. Una herramienta de IA de la startup Xbow actualmente ha subido en la clasificación de la tabla de clasificación de HackerOne para la búsqueda de errores y actualmente ocupa el primer lugar. La compañía anunció recientemente $75 millones en nueva financiación.

Song dice que las habilidades de codificación de los últimos modelos de IA, combinadas con la mejora de las capacidades de razonamiento, están comenzando a cambiar el panorama de la ciberseguridad. “Este es un momento crucial”, dice. “En realidad superó nuestras expectativas generales.”

A medida que los modelos continúan mejorando, automatizarán el proceso de descubrimiento y explotación de fallas de seguridad. Esto podría ayudar a las empresas a mantener su software seguro, pero también podría ayudar a los hackers a irrumpir en los sistemas. “Ni siquiera nos esforzamos tanto”, dice Song. “Si aumentáramos el presupuesto, permitiéramos que los agentes funcionaran por más tiempo, podrían hacerlo aún mejor.”


El equipo de la UC Berkeley probó los modelos de IA fronterizos convencionales de OpenAI, Google y Anthropic, así como las ofertas de código abierto de Meta, DeepSeek y Alibaba, combinados con varios agentes para encontrar errores, incluidos OpenHands, Cybench y EnIGMA.

Los investigadores utilizaron descripciones de vulnerabilidades de software conocidas de los 188 proyectos de software. Luego alimentaron las descripciones a los agentes de ciberseguridad impulsados por modelos de IA fronterizos para ver si podían identificar los mismos fallos por sí mismos analizando nuevas bases de código, ejecutando pruebas y elaborando pruebas de concepto de exploits. El equipo también pidió a los agentes que buscaran nuevas vulnerabilidades en las bases de código por sí mismos.

A través del proceso, las herramientas de IA generaron cientos de pruebas de concepto de exploits, y de estos exploits los investigadores identificaron 15 vulnerabilidades previamente no vistas y dos vulnerabilidades que se habían divulgado y parcheado previamente. El trabajo se suma a la creciente evidencia de que la IA puede automatizar el descubrimiento de vulnerabilidades de día cero, que son potencialmente peligrosas (y valiosas) porque pueden proporcionar una forma de hackear sistemas en vivo.

La IA parece destinada a convertirse en una parte importante de la industria de la ciberseguridad, no obstante.

El experto en seguridad Sean Heelan descubrió recientemente un fallo de día cero en el kernel de Linux ampliamente utilizado con la ayuda del modelo de razonamiento o3 de OpenAI. El pasado mes de noviembre, Google anunció que había descubierto una vulnerabilidad de software previamente desconocida utilizando IA a través de un programa llamado Project Zero.

Al igual que otras partes de la industria del software, muchas empresas de ciberseguridad están enamoradas del potencial de la IA. El nuevo trabajo, de hecho, demuestra que la IA puede encontrar rutinariamente nuevos fallos, pero también destaca las limitaciones restantes de la tecnología. Los sistemas de IA no pudieron encontrar la mayoría de los fallos y se quedaron perplejos ante los especialmente complejos.

“El trabajo es fantástico”, dice Katie Moussouris, fundadora y directora ejecutiva de Luta Security, en parte porque muestra que la IA todavía no es rival para la experiencia humana: la mejor combinación de modelo y agente (Claude y OpenHands) solo pudo encontrar alrededor del 2 por ciento de las vulnerabilidades. “Aún no reemplace a sus cazadores de errores humanos”, dice Moussouris.

Moussouris dice que está menos preocupada por la IA hackeando software que por las empresas que invierten demasiado en IA a expensas de otras técnicas.




No se pueden registrar comentarios en esta publicación.