August 31, 2024Open Access

言語モデルにおけるバックドア検出評価の再考

Key Points

Key points are not available for this paper at this time.

Abstract

攻撃者が指定したトリガーを与えられたときにモデルが悪意を持って動作するバックドア攻撃は、公開されている言語モデルに依存する実務者にとって重大なセキュリティリスクをもたらします。バックドア検出手法は、公開されたモデルがバックドアを含むかどうかを検出することを目的としており、実務者がそのような脆弱性を回避できるようにします。既存のバックドア検出手法は、標準ベンチマークにおいてバックドアがあるモデルを高精度で検出する一方で、実際の状況でバックドアを堅牢に特定できるかどうかは不明です。本論文では、バックドア植え付け中にさまざまな要因を操作することでバックドア検出器の堅牢性を調査します。既存の手法の成功は、バックドア植え付け中に毒されたデータでモデルがどれほど強く訓練されるかに大きく依存していることがわかりました。具体的には、より攻撃的またはより保守的な訓練で植え付けられたバックドアは、デフォルトのものよりもはるかに検出が難しいです。我々の結果は、既存のバックドア検出器の堅牢性の欠如と現在のベンチマーク構築の限界を浮き彫りにしています。

言語モデルにおけるバックドア検出評価の再考

Key Points

Abstract

Cite This Study

Also Consider

Also Consider