Les grands modèles de langage (LLMs) ont démontré des performances remarquables dans diverses tâches. Néanmoins, ils posent encore des risques de sécurité notables en raison de leur utilisation potentielle à des fins malveillantes. Le jailbreaking, qui cherche à inciter les modèles à générer du contenu nuisible par le biais d'attaques mono-tour ou multi-tour, joue un rôle crucial dans la découverte des vulnérabilités de sécurité sous-jacentes. Cependant, les méthodes précédentes, y compris des approches multi-tours sophistiquées, peinent souvent à s'adapter à la dynamique évolutive du dialogue à mesure que les interactions progressent. Pour relever ce défi, nous proposons (JailBreaking via Raffinage Global et Fabrication Adaptative), une nouvelle méthode de jailbreaking multi-tours qui raffine globalement la trajectoire d'attaque à chaque interaction. De plus, nous fabriquons activement les réponses du modèle pour supprimer les avertissements liés à la sécurité, ce qui augmente la probabilité de susciter des sorties nuisibles lors des requêtes suivantes. D'importantes expériences menées sur six LLMs à la pointe de la technologie démontrent l'efficacité supérieure de notre approche par rapport aux méthodes de jailbreaking mono-tour et multi-tour existantes. Notre code sera publié à https://github.com/Ytang520/Multi-TurnⱼailbreakingGlobal-RefinmentₐndActive-Fabrication.
Tang et al. (Sun,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: