April 9, 2024Open Access

これを見てください！言語モデルの脱獄評価を再考する

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLM）は、さまざまなアプリケーションにますます統合されています。LLMが安全でない応答を生成しないようにするために、制限されるべきコンテンツを指定する安全対策に整合されています。しかし、このような調整は、一般的に脱獄と呼ばれる技術を使用して禁止されたコンテンツを生成するために回避される可能性があります。自動的に脱獄を実行するためのさまざまなシステムが提案されています。これらのシステムは、脱獄の試みが成功したかどうかを判断するために評価方法に依存しています。しかし、私たちの分析は、現在の脱獄評価方法には2つの限界があることを示しています。(1) その目的は明確さに欠け、安全でない応答を特定するという目標と一致していません。(2) 脱獄の結果を成功か失敗かの二元的な結果として単純化しすぎています。本論文では、言語モデルの脱獄を評価するために、安全対策違反、有用性、および相対的真実性の3つの指標を提案します。さらに、これらの指標がさまざまな悪意のある行為者の目標とどのように相関しているかを示します。これらの指標を計算するために、応答を前処理した後に自然言語生成評価方法を拡張する多角的アプローチを導入します。私たちは、3つの悪意のある意図データセットと3つの脱獄システムから生成されたベンチマークデータセットで指標を評価します。このベンチマークデータセットは、3人のアノテーターによってラベル付けされます。私たちは、3つの既存の脱獄評価方法と私たちの多角的アプローチを比較します。実験は、私たちの多角的評価が既存の方法よりも優れており、F1スコアが既存のベースラインと比較して平均で17%改善されていることを示しています。私たちの発見は、脱獄問題の二元的な見方から離れ、言語モデルの安全性を確保するためにより包括的な評価を取り入れる必要性を促しています。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper