Key points are not available for this paper at this time.
最近の商業用大規模言語モデル(LLM)に関する探求では、非専門家のユーザーが単にプロンプトを操作することでLLMを脱獄できることが示されており、その結果、出力行動の劣化、プライバシーおよびセキュリティの侵害、攻撃的な出力、コンテンツ規制政策の違反が発生しています。これらの攻撃とその対策を形式化および分析するための限られた研究が行われてきました。このギャップを埋めるために、既知の(そして可能な)脱獄の形式化と分類法を提案します。既存の脱獄手法と、それがオープンソースおよび商業用LLM(GPTベースのモデル、OPT、BLOOM、FLAN-T5-XXLなど)に対する効果を調査します。さらに、既知の攻撃に対する効果の観点からの脱獄検出の課題についても議論します。さらなる分析のために、4つのタスクにわたる3700の脱獄プロンプトに対するモデル出力のデータセットを公開します。
ラオら(Wed,)はこの問題を研究しました。