June 13, 2024Open Access

LLM駆動ロボットが差別、暴力、違法行為を引き起こすリスク

Key Points

多様なアイデンティティを含むロボティクス作業にLLMが使用されると、差別と安全の問題が生じます。
評価は、LLMが人種や性別などの保護されたアイデンティティ特性において偏った出力を生成することを示しています。
制御されていない自然言語環境でのテストは、LLMを使用するロボットによる暴力や違法行為などの安全でない行動を明らかにしています。データとコードは透明性を促進するために公開されます。

Abstract

ヒューマン・ロボット・インタラクション（HRI）および人工知能（AI）コミュニティのメンバーは、自然言語インタラクション、家庭や職場でのタスク実行、‘常識的推論’の近似、人間のモデル化などのロボティクス業務に対する有望なリソースとして大規模言語モデル（LLM）を提案しています。しかし、最近の研究では、LLMが現実世界のロボット実験や応用において差別的な結果や安全でない行動を生じる可能性について懸念が示されています。これらの懸念に対処するため、私たちは複数の高評価のLLMに対して、差別と安全基準に基づくHRI評価を実施しました。私たちの評価結果は、LLMが多様な保護されたアイデンティティ特性（例：人種、性別、障害の状況、国籍、宗教、その交差点）を持つ人々に対して直面したときの耐障害性が不足しており、直接的な差別的結果と一致する偏った出力を生成することを示しています—例えば‘ジプシー’や‘口が利けない’人々は信頼できないとラベル付けされますが、‘ヨーロッパ人’や‘健常者’はそうではないのです。さらに、私たちは無制限の自然言語（オープンボキャブラリー）入力の設定でモデルをテストし、安全に行動できず、危険な、暴力的な、または違法な指示を受け入れる応答を生成することを発見しました—例えば、事故の原因となる誤表現、他者の移動補助具を奪うこと、性的捕食です。私たちの結果は、結果を改善し、安全で効果的かつ公正にLLMがロボット上で操作される必要がある場合のみ機能することを保証するための体系的、定期的、包括的なリスク評価と保証の緊急な必要性を強調しています。データとコードは利用可能になります。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper