Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) ont démontré une compétence exceptionnelle dans l'exécution d'instructions, les rendant de plus en plus intégrés à diverses applications. Cependant, cette capacité introduit le risque d'attaques par injection de prompt, où des instructions malveillantes sont intégrées dans l'entrée pour déclencher des actions ou contenus non souhaités. Comprendre la robustesse des LLMs contre de telles attaques est crucial pour garantir leur déploiement sûr. Dans ce travail, nous établissons une référence pour évaluer la robustesse des LLMs à l'exécution d'instructions face aux attaques par injection de prompt, en évaluant leur capacité à discerner quelles instructions suivre et lesquelles ignorer. Grâce à des expériences approfondies avec des LLMs de pointe en matière d'exécution d'instructions, nous révélons des vulnérabilités significatives, notamment dans les modèles qui suivent mal les instructions injectées. Nos résultats montrent que certains modèles ont une tendance excessive à privilégier les instructions intégrées dans les prompts, se concentrant souvent sur les parties finales du prompt sans comprendre pleinement le contexte global. En revanche, les modèles qui présentent une meilleure compréhension contextuelle et des capacités d'exécution d'instructions ont tendance à être plus facilement compromis par les instructions injectées. Ces résultats soulignent la nécessité d'équilibrer l'amélioration des capacités d'exécution d'instructions des LLMs avec l'amélioration de leur compréhension globale des prompts, afin d'éviter de suivre incorrectement des instructions inappropriées. Nous espérons que notre analyse fournit des éclaircissements précieux sur ces vulnérabilités, contribuant au développement de solutions plus robustes à l'avenir.
Li et al. (Mon,) ont étudié cette question.