Key points are not available for this paper at this time.
最近、NLPでは大型の事前学習モデルの使用が急増しています。ユーザーは大規模データセットで事前学習されたモデルの重みをダウンロードし、その後、自分の選択したタスクに重みをファインチューニングします。これにより、信頼できない事前学習の重みをダウンロードすることがセキュリティの脅威となるのかという疑問が生じます。本論文では、事前学習された重みに脆弱性が注入され、その後ファインチューニングを行った後に「バックドア」を露呈する「重み毒性」攻撃を構築可能であることを示します。この攻撃により、攻撃者は任意のキーワードを注入するだけでモデルの予測を操作できます。データセットやファインチューニング手順に関する限られた知識でも、この攻撃を可能にする正則化手法(RIPPLeと呼びます)と初期化手順(Embedding Surgeryと呼びます)を適用することで、この攻撃が可能であることを示します。感情分類、毒性検出、スパム検出の実験は、この攻撃が広く適用可能であり、深刻な脅威をもたらすことを示しています。最後に、このような攻撃に対する実際の防御策を概説します。
栗田ら(Wed,)はこの問題を研究しました。
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: