July 14, 2024Open Access

Qu'est-ce qui fait ou défait le calibrage de la sécurité ? Étude mécanistique

Key Points

Key points are not available for this paper at this time.

Abstract

Le calibrage de la sécurité aide à aligner les grands modèles de langage (LLMs) avec les préférences humaines pour leur déploiement sécurisé. Pour mieux comprendre les facteurs sous-jacents qui rendent les modèles sûrs grâce au calibrage de la sécurité, nous concevons un cadre de génération de données synthétiques qui capture des aspects saillants d'une entrée non sécurisée en modélisant l'interaction entre la tâche que le modèle doit accomplir (par exemple, « concevoir ») et les concepts spécifiques sur lesquels la tâche doit être effectuée (par exemple, un « cycle » contre une « bombe »). En utilisant cela, nous examinons trois méthodes de calibrage de sécurité bien connues : le calibrage supervisé de la sécurité, l'optimisation directe des préférences et l'oubli, et fournissons des preuves significatives démontrant que ces méthodes transforment minimalement les poids du MLP pour aligner spécifiquement les entrées non sécurisées dans l'espace nul de leurs poids. Cela entraîne un regroupement des entrées en fonction de leur évaluation par le modèle comme étant sûres ou non. En conséquence, lorsqu'une entrée adversariale (par exemple, un jailbreak) est fournie, ses activations sont plus proches d'échantillons sûrs, conduisant le modèle à traiter une telle entrée comme si elle était sûre. Nous validons nos résultats, lorsque cela est possible, sur des modèles du monde réel - en spécifiant Llama-2 7B et Llama-3 8B.

Qu'est-ce qui fait ou défait le calibrage de la sécurité ? Étude mécanistique

Key Points

Abstract

Cite This Study

Also Consider

Also Consider