Key points are not available for this paper at this time.
情報検索システムの効果は、共通のクエリと文書のセットに対するパフォーマンスを比較することで測定されます。信頼性を評価するために、重要性検定がよく使用されます。以前の研究ではこのような検定を検討しましたが、適用範囲が限られた結果が得られました。別の研究では重要性の代替ベンチマークを確立しましたが、結果として得られた検定はあまりにも厳格でした。本論文では、このような検定がどのように使用されるべきかの問題を再考します。我々は、t検定が非常に信頼性が高い(符号検定やウィルコクソン検定よりも)ことを発見し、IRシステム間の効果測定の大きな割合差を示すことよりもはるかに信頼性が高いことを示しています。我々の結果は、過去の経験的研究がこのような検定の誤差を過大評価していたことを示しています。また、ランク10における精度の信頼性と平均平均精度の比較を再考し、過去の比較ではこのような測定を計算するために必要な評価者の努力が考慮されていなかったことを主張します。この調査は、評価者の努力はより多くのトピックを持つテストコレクションを構築することに使われるべきであることを示しています。
Sanderson et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: