Key points are not available for this paper at this time.
大規模言語モデル(LLM)が欺瞞的かつ有害なコンテンツを生成することによるリスクは多くの研究対象となってきましたが、安全な生成であっても下流で問題を引き起こすことがあります。本研究では、安全なテキストであってもベイト・アンド・スイッチ攻撃によって容易に潜在的に危険なコンテンツへと変換され得ることに焦点を当てます。こうした攻撃では、ユーザーは最初にLLMに安全な質問を提示し、その後単純な検索と置換の事後操作技術を用いて出力内容を有害な物語に操作します。この手法の有害コンテンツ生成における驚異的な有効性は、LLMの信頼できる安全対策の構築における重大な課題を浮き彫りにします。特に、LLM出力の逐語的な安全性に注目するだけでは不十分であり、事後変換も考慮する必要があることを強調します。
Bianchiら(Wed,)がこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: