What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

GRAF : Jailbreaking multi-tours via raffinement global et fabrication active

Key Points

GRAF améliore significativement l'efficacité du jailbreaking dans les LLMs, augmentant la probabilité de sortie nuisible.
D'importantes expériences révèlent que GRAF surpasse les techniques de jailbreaking mono-tour et multi-tour existantes.
Cette méthode utilise un raffinement global pour s'adapter aux dynamiques du dialogue tout en fabriquant des réponses du modèle.
Améliorer les techniques de jailbreaking aborde les risques de sécurité notables associés aux grands modèles de langage.

Abstract

Les grands modèles de langage (LLMs) ont démontré des performances remarquables dans diverses tâches. Néanmoins, ils posent encore des risques de sécurité notables en raison de leur utilisation potentielle à des fins malveillantes. Le jailbreaking, qui cherche à inciter les modèles à générer du contenu nuisible par le biais d'attaques mono-tour ou multi-tour, joue un rôle crucial dans la découverte des vulnérabilités de sécurité sous-jacentes. Cependant, les méthodes précédentes, y compris des approches multi-tours sophistiquées, peinent souvent à s'adapter à la dynamique évolutive du dialogue à mesure que les interactions progressent. Pour relever ce défi, nous proposons (JailBreaking via Raffinage Global et Fabrication Adaptative), une nouvelle méthode de jailbreaking multi-tours qui raffine globalement la trajectoire d'attaque à chaque interaction. De plus, nous fabriquons activement les réponses du modèle pour supprimer les avertissements liés à la sécurité, ce qui augmente la probabilité de susciter des sorties nuisibles lors des requêtes suivantes. D'importantes expériences menées sur six LLMs à la pointe de la technologie démontrent l'efficacité supérieure de notre approche par rapport aux méthodes de jailbreaking mono-tour et multi-tour existantes. Notre code sera publié à https://github.com/Ytang520/Multi-TurnⱼailbreakingGlobal-RefinmentₐndActive-Fabrication.

GRAF : Jailbreaking multi-tours via raffinement global et fabrication active

Key Points

Abstract

Cite This Study

Also Consider

Also Consider