Key points are not available for this paper at this time.
要約 AIシステムの開発は、資金と時間の重大な投資を表しています。その投資が実を結んでいるかどうかを判断するためには評価が必要です。人間とAIシステムが相互依存してタスクを達成するシステムの実証評価は、作業システムが学習可能であり、技術が使い易く有用であることを示す説得力のある実証証拠を提供しなければなりません。我々は、人間とAI(HAI)システムの評価は効果的である必要があるだけでなく、効率的でなければならないと主張します。HAIシステムのプロトタイプのベンチテストは、複雑なデザインの大規模な実験の長いシリーズを必要とするべきではありません。従来の実験室研究に課せられる制約の中には、HAIシステムの実証評価には適切でないものがあります。"不必要な厳密さ"を避けるための要件を提示します。これには研究デザイン、研究方法、統計分析、オンライン実験が含まれます。これらはすべてHAIシステムの効果を評価することを目的とした研究に適用可能であるべきです。
Klein et al. (Mon,) はこの問題を研究しました。