効果的なガードレールは、重要なアプリケーションにおいてLLMベースのエージェントを安全に展開するために不可欠です。近年の進歩にもかかわらず、既存のガードレールは2つの根本的な制限に悩まされています:(i)すべてのユーザーに一律のガードレールポリシーを適用しており、同じエージェントの行動が一部のユーザーには害を及ぼす一方で他のユーザーには安全であることを無視している点;(ii)各応答を個別に検証しており、複数のインタラクションを通じたリスクの進展や蓄積を見落としている点。これらの問題を解決するために、我々はPSG-Agentを提案します。これはパーソナライズされ動的なLLMベースエージェント向けシステムです。第一に、PSG-Agentはインタラクション履歴から安定した特性を抽出し、現在のクエリからリアルタイムの状態を捉えることで、ユーザー固有のリスク閾値と保護戦略を生成しパーソナライズされたガードレールを作成します。第二に、PSG-AgentはPlan Monitor、Tool Firewall、Response Guard、Memory Guardianなどの専門的なガードを備えたエージェントパイプライン全体で連続監視を実施し、ターン間のリスク蓄積を追跡し検証可能な判定を出します。最後に、ヘルスケア、金融、日常生活の自動化など多様なユーザープロファイルを含む複数シナリオでPSG-Agentの有効性を検証しました。LlamaGuard3やAGrailを含む既存のエージェントガードレールを大幅に上回り、LLMベースエージェントに対するパーソナライズされた安全性への実行可能で監査可能な道筋を提供します。
Wu et al. (Sun,) はこの問題を研究しました。