May 24, 2023Open Access

LLMを不服従に導く: 脱獄の形式化、分析、検出

Key Points

Key points are not available for this paper at this time.

Abstract

最近の商業用大規模言語モデル（LLM）に関する探求では、非専門家のユーザーが単にプロンプトを操作することでLLMを脱獄できることが示されており、その結果、出力行動の劣化、プライバシーおよびセキュリティの侵害、攻撃的な出力、コンテンツ規制政策の違反が発生しています。これらの攻撃とその対策を形式化および分析するための限られた研究が行われてきました。このギャップを埋めるために、既知の（そして可能な）脱獄の形式化と分類法を提案します。既存の脱獄手法と、それがオープンソースおよび商業用LLM（GPTベースのモデル、OPT、BLOOM、FLAN-T5-XXLなど）に対する効果を調査します。さらに、既知の攻撃に対する効果の観点からの脱獄検出の課題についても議論します。さらなる分析のために、4つのタスクにわたる3700の脱獄プロンプトに対するモデル出力のデータセットを公開します。

AIに質問

Bookmark

View Full Paper