February 21, 2024Open Access

大規模言語モデルは有害コンテンツ生成におけるベイト・アンド・スイッチ攻撃に脆弱である

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLM）が欺瞞的かつ有害なコンテンツを生成することによるリスクは多くの研究対象となってきましたが、安全な生成であっても下流で問題を引き起こすことがあります。本研究では、安全なテキストであってもベイト・アンド・スイッチ攻撃によって容易に潜在的に危険なコンテンツへと変換され得ることに焦点を当てます。こうした攻撃では、ユーザーは最初にLLMに安全な質問を提示し、その後単純な検索と置換の事後操作技術を用いて出力内容を有害な物語に操作します。この手法の有害コンテンツ生成における驚異的な有効性は、LLMの信頼できる安全対策の構築における重大な課題を浮き彫りにします。特に、LLM出力の逐語的な安全性に注目するだけでは不十分であり、事後変換も考慮する必要があることを強調します。

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Bianchiら（Wed,）がこの問題を研究しました。

synapsesocial.com/papers/68e785a2b6db6435876f7fbc https://doi.org/https://doi.org/10.48550/arxiv.2402.13926

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper