AI調整問題は、人工知能(AI)、包括的にAGIとASIが人間の価値観に従って行動することを確保することに焦点を当てており、深刻な課題を提示します。狭義のAIから人工一般知能(AGI)や超知能への進展に伴い、制御と存在リスクについての恐れが高まっています。ここでは、避けられないAIの不調和を受け入れることが、競争するエージェントの動的エコシステムを育むための条件付き戦略になり得るかどうかを調査します。そして、それらをより人間に沿った傾向に導くための実行可能な道を提供し、リスクを軽減する方法を探ります。不調和がどのように作用し、人間の利益に最も沿ったエージェントと連携するためのバランス機構として促進されるべきかを考察します。私たちの貢献の主要な前提は、完全なAI-人間の調整はチューリング完全なシステムからは数学的に不可能であるため、不調和は避けられないということです。これを本貢献の中で証明として提供し、AGIやASIシステムに引き継がれる特徴です。私たちは、協力と競争を通じて人間とエージェントがフレンドリーおよびアンフレンドリーなAIをどのように変更または無効化できるかを研究するために、摂動と介入分析に基づく意見変更攻撃テストを導入します。オープンモデルはより多様であり、特許モデルに実装されたガードレールは、エージェントの行動範囲を制御するのに成功している一方、クローズドシステムはより操縦しやすく、特許AIシステムに対しても使用可能であることを示します。また、人間とAIの介入は異なる影響を持つことが示され、したがって複数の戦略を提案します。
Hernández-Espinosa et al.(Mon、)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: