Bugcrowd lance des environnements d'apprentissage par renforcement pour former l'IA aux vulnérabilités logicielles réelles

La société de cybersécurité participative Bugcrowd Inc. a lancé aujourd'hui Reinforcement Learning Environments, une nouvelle offre qui permet aux laboratoires d'intelligence artificielle de pointe de former des modèles sur de vrais logiciels vulnérables plutôt que sur des données de test synthétiques.

Le produit repose sur la technologie acquise par Bugcrowd lors de son acquisition de Mayhem Security en novembre et est déjà utilisé par de grands fournisseurs de modèles de langage. Bugcrowd décrit l'offre comme un moyen de compresser ce qui serait généralement des années de travail d'ingénierie en interne en quelques semaines.

L'apprentissage par renforcement, la technique à l'origine d'une grande partie des progrès récents de l'IA agentique, nécessite des environnements dans lesquels un modèle peut entreprendre des actions, observer les résultats et recevoir un signal de récompense. Bugcrowd affirme que la sécurité a été mal assurée sur ce front, car la plupart des données de formation existantes sont synthétiques et ne reflètent pas le comportement des vulnérabilités dans le code de production. Les modèles qui obtiennent de bons résultats sur les benchmarks organisés trébuchent souvent lorsqu'ils rencontrent de réels défauts.

La nouvelle plate-forme fournit ce que l'entreprise appelle des centaines de milliers d'environnements de formation, chacun construit à partir de logiciels open source avec un code source réel et des résultats vérifiables. Les agents d'IA sont chargés de localiser les bogues, de les déclencher, d'évaluer l'exploitabilité et de produire des correctifs, avec une notation objective à chaque étape. Bugcrowd affirme qu'aucune donnée client ou travail de sa communauté de chercheurs n'est utilisé dans les environnements.

Ce lancement étend une stratégie qui a débuté avec l'accord Mayhem, qui a introduit les tests autonomes de code et d'interface de programmation d'applications dans la plate-forme Bugcrowd. Mayhem, fondée en 2012 par les chercheurs de Carnegie Mellon David Brumley et Thanassis Avgerinos, a été construite sur des techniques d'exécution symbolique et de fuzzing développées à l'origine pour le Cyber Grand Challenge de la Defense Advanced Research Projects Agency. Bugcrowd vise désormais cette même chaîne d'outils en amont, vers les laboratoires qui construisent les modèles que les équipes de sécurité en aval finiront par déployer.

« L'écart entre la formation des agents IA et ce qu'ils rencontrent dans le monde réel est le point où la sécurité échoue », explique Dave Gerry, PDG de BugCrowd. « Nos environnements RL donnent aux équipes de pointe l'infrastructure nécessaire pour créer une IA qui apprend la sécurité à partir de vulnérabilités réelles, et non de leurs approximations. »

Bugcrowd publie également ExploitBench, un framework permettant de mesurer les capacités de développement d'exploits des modèles d'IA. Les deux efforts ciblent une fine tranche de la pile d’infrastructures d’IA qui suscite un intérêt croissant de la part des développeurs de modèles qui tentent de pousser les agents au-delà de la détection et dans le territoire plus difficile de l’exploitation et des correctifs validés.

David Brumley, directeur de l'IA et de la science chez Bugcrowd et co-fondateur de Mayhem, a déclaré que la société a passé des années à construire les évaluateurs et les structures de récompense nécessaires pour former des modèles tout au long du cycle de vie de la sécurité. « Vous ne pouvez pas former un modèle pour qu'il soit bon en matière de sécurité en lui montrant à quoi ressemble la sécurité, vous devez lui donner de vrais problèmes à résoudre et un feedback honnête pour savoir s'il les a résolus », a déclaré Brumley.