What type of study is this?

This is a Experimental Study study (also classified as: Quantitative Study).

October 20, 2025Open Access

PSG-Agent：LLMベースエージェントのためのパーソナリティ認識安全ガードレール

Key Points

PSG-Agentは個々のユーザープロファイルとリスクに適応したパーソナライズされたガードレールを確立します。
システムは応答を継続的にモニターし、インタラクションを跨いだリスクの蓄積を追跡して安全性を強化します。
ヘルスケアや金融分野での検証により、PSG-Agentが既存のガードレールシステムを大幅に凌駕することが示されました。
均一なポリシーの制限に対応することで、PSG-AgentはLLMアプリケーションにおける個別化された安全対策の必要性を浮き彫りにします。

Abstract

効果的なガードレールは、重要なアプリケーションにおいてLLMベースのエージェントを安全に展開するために不可欠です。近年の進歩にもかかわらず、既存のガードレールは2つの根本的な制限に悩まされています：（i）すべてのユーザーに一律のガードレールポリシーを適用しており、同じエージェントの行動が一部のユーザーには害を及ぼす一方で他のユーザーには安全であることを無視している点；（ii）各応答を個別に検証しており、複数のインタラクションを通じたリスクの進展や蓄積を見落としている点。これらの問題を解決するために、我々はPSG-Agentを提案します。これはパーソナライズされ動的なLLMベースエージェント向けシステムです。第一に、PSG-Agentはインタラクション履歴から安定した特性を抽出し、現在のクエリからリアルタイムの状態を捉えることで、ユーザー固有のリスク閾値と保護戦略を生成しパーソナライズされたガードレールを作成します。第二に、PSG-AgentはPlan Monitor、Tool Firewall、Response Guard、Memory Guardianなどの専門的なガードを備えたエージェントパイプライン全体で連続監視を実施し、ターン間のリスク蓄積を追跡し検証可能な判定を出します。最後に、ヘルスケア、金融、日常生活の自動化など多様なユーザープロファイルを含む複数シナリオでPSG-Agentの有効性を検証しました。LlamaGuard3やAGrailを含む既存のエージェントガードレールを大幅に上回り、LLMベースエージェントに対するパーソナライズされた安全性への実行可能で監査可能な道筋を提供します。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper