Key points are not available for this paper at this time.
Le filigrane du Modèle de Langage Large (LLM) est une technique émergente qui montre des promesses pour répondre aux préoccupations liées aux droits d'auteur des LLM, à la surveillance des textes générés par l'IA et à la prévention de leur utilisation abusive. Le schéma de filigrane LLM comprend couramment la génération de clés secrètes pour partitionner le vocabulaire en listes vertes et rouges, appliquant une perturbation aux logits des jetons de la liste verte pour augmenter leur probabilité d'échantillonnage, facilitant ainsi la détection de filigrane pour identifier le texte généré par l'IA si la proportion de jetons verts dépasse un seuil. Cependant, des recherches récentes indiquent que les méthodes de filigrane utilisant de nombreuses clés sont susceptibles d'être attaquées, telles que l'édition de jetons, la substitution de synonymes et le paraphrasage, la robustesse diminuant à mesure que le nombre de clés augmente. Par conséquent, les schémas de filigrane à la pointe de la technologie utilisant moins de clés ou une seule clé se sont révélés plus robustes contre l'édition de texte et le paraphrasage. Dans cet article, nous proposons une nouvelle attaque de vol de liste verte contre le schéma de filigrane LLM à la pointe de la technologie et examinons systématiquement sa vulnérabilité à cette attaque. Nous formalisons l'attaque comme un problème de programmation entière mixte avec des contraintes. Nous évaluons notre attaque selon un modèle de menace complet, y compris un scénario extrême où l'attaquant n'a aucune connaissance préalable, n'a pas accès à l'API du détecteur de filigrane et ne possède aucune information sur les paramètres du LLM ou sur le schéma d'injection/détection de filigrane. D'importantes expériences sur des LLMs, tels que OPT et LLaMA, démontrent que notre attaque peut réussir à voler la liste verte et à supprimer le filigrane dans tous les paramètres.
Zhang et al. (Jeudi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: