大規模なビジョン・ランゲージモデル(VLM)は、複雑な現実世界のシナリオを理解し、データ駆動型の意思決定プロセスをサポートする上で素晴らしい成功を収めています。しかし、VLMは、テキストまたは画像の敵対的な例に対して大きな脆弱性を示し、これにより、脱獄、ハイジャック、幻覚などのさまざまな敵対的結果を引き起こす可能性があります。本研究では、VLMが特に画像ベースの敵対的な例に対して感受性が高いことを実証的かつ理論的に示します。ここでは、目に見えない摂動が各出力トークンを正確に操作できることを証明します。そのために、敵対的な摂動を効果的に最適化するために、微分可能な変換メカニズムと第一および第二のモーメント最適化技術を統合した新しい攻撃手法「ビジョン・ランゲージモデル操作攻撃(VMA)」を提案します。特に、VMAは二刀流の剣ともなり得ます:脱獄、ハイジャック、プライバシー侵害、サービス拒否、スポンジ例の生成など、さまざまな攻撃を実行するために活用できる一方で、著作権保護のための透かしの注入も可能にします。広範な実証評価により、さまざまなシナリオやデータセットにおけるVMAの有効性と一般性が確認されています。
Wangら(Mon、)はこの問題を研究しました。