Key points are not available for this paper at this time.
Cet article explore la question urgente de l'évaluation des risques dans les grands modèles de langage (LLMs) alors qu'ils deviennent de plus en plus répandus dans diverses applications. En se concentrant sur la manière dont les modèles de récompense, qui sont conçus pour ajuster les LLMs préentraînés afin de s'aligner sur les valeurs humaines, perçoivent et catégorisent différents types de risques, nous approfondissons les défis posés par la nature subjective des données d'entraînement basées sur les préférences. En utilisant le dataset Anthropic Red-team, nous analysons les principales catégories de risques, y compris les dangers d'information, les usages malveillants et la discrimination/le contenu haineux. Nos résultats indiquent que les LLMs ont tendance à considérer les dangers d'information comme moins nuisibles, un constat confirmé par un modèle de régression spécialement développé. De plus, notre analyse montre que les LLMs réagissent de manière moins stricte aux dangers d'information par rapport à d'autres risques. L'étude révèle également une vulnérabilité significative des LLMs aux attaques de jailbreak dans les scénarios de danger d'information, soulignant une préoccupation critique en matière de sécurité dans l'évaluation des risques des LLMs et mettant en évidence la nécessité d'améliorer les mesures de sécurité de l'IA.
Harandizadeh et al. (Fri,) ont étudié cette question.