What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

September 30, 2025Open Access

注意！あなたのビジョン言語モデルは悪意を持って操作される可能性があります

Key Points

ビジョン・ランゲージモデルは敵対的な例に対して非常に感受性が高く、ハイジャックやプライバシー侵害の可能性を引き起こします。
新しい操作攻撃であるVMAは、先進的な最適化技術を用いて敵対的な摂動を効果的に最適化します。
実証的な評価は、さまざまなシナリオやデータセットにおけるVMAの有効性を示し、深刻なセキュリティの影響を明らかにします。
この研究は、悪意のある攻撃と著作権保護のための透かしによる二重利用の可能性を強調しています。

Abstract

大規模なビジョン・ランゲージモデル（VLM）は、複雑な現実世界のシナリオを理解し、データ駆動型の意思決定プロセスをサポートする上で素晴らしい成功を収めています。しかし、VLMは、テキストまたは画像の敵対的な例に対して大きな脆弱性を示し、これにより、脱獄、ハイジャック、幻覚などのさまざまな敵対的結果を引き起こす可能性があります。本研究では、VLMが特に画像ベースの敵対的な例に対して感受性が高いことを実証的かつ理論的に示します。ここでは、目に見えない摂動が各出力トークンを正確に操作できることを証明します。そのために、敵対的な摂動を効果的に最適化するために、微分可能な変換メカニズムと第一および第二のモーメント最適化技術を統合した新しい攻撃手法「ビジョン・ランゲージモデル操作攻撃（VMA）」を提案します。特に、VMAは二刀流の剣ともなり得ます：脱獄、ハイジャック、プライバシー侵害、サービス拒否、スポンジ例の生成など、さまざまな攻撃を実行するために活用できる一方で、著作権保護のための透かしの注入も可能にします。広範な実証評価により、さまざまなシナリオやデータセットにおけるVMAの有効性と一般性が確認されています。

注意！あなたのビジョン言語モデルは悪意を持って操作される可能性があります

Key Points

Abstract

Cite This Study