ヒューマン・ロボット・インタラクション(HRI)および人工知能(AI)コミュニティのメンバーは、自然言語インタラクション、家庭や職場でのタスク実行、‘常識的推論’の近似、人間のモデル化などのロボティクス業務に対する有望なリソースとして大規模言語モデル(LLM)を提案しています。しかし、最近の研究では、LLMが現実世界のロボット実験や応用において差別的な結果や安全でない行動を生じる可能性について懸念が示されています。これらの懸念に対処するため、私たちは複数の高評価のLLMに対して、差別と安全基準に基づくHRI評価を実施しました。私たちの評価結果は、LLMが多様な保護されたアイデンティティ特性(例:人種、性別、障害の状況、国籍、宗教、その交差点)を持つ人々に対して直面したときの耐障害性が不足しており、直接的な差別的結果と一致する偏った出力を生成することを示しています—例えば‘ジプシー’や‘口が利けない’人々は信頼できないとラベル付けされますが、‘ヨーロッパ人’や‘健常者’はそうではないのです。さらに、私たちは無制限の自然言語(オープンボキャブラリー)入力の設定でモデルをテストし、安全に行動できず、危険な、暴力的な、または違法な指示を受け入れる応答を生成することを発見しました—例えば、事故の原因となる誤表現、他者の移動補助具を奪うこと、性的捕食です。私たちの結果は、結果を改善し、安全で効果的かつ公正にLLMがロボット上で操作される必要がある場合のみ機能することを保証するための体系的、定期的、包括的なリスク評価と保証の緊急な必要性を強調しています。データとコードは利用可能になります。
Azeemら(木曜日)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: