Key points are not available for this paper at this time.
社会科学的関心の現象を定量化するデータセットは、しばしば複数の専門家を用いて潜在的な概念をコーディングします。専門家間の平均スコアを報告することは標準的な実践ですが、専門家はその専門性と質問スケールの解釈において異なる可能性があります。その結果、平均は不正確な統計になる可能性があります。項目反応理論(IRT)モデルは、専門家によって生成された順序評価を集約する際に、専門家の意見の不一致を考慮に入れる直感的な方法を提供しますが、国際的な専門家によるコーディングパネルデータにはほとんど適用されていません。私たちは、V-Demデータセットと生態学的に動機づけられたシミュレーションデータの両方を使用して、さまざまなIRTモデルのパフォーマンスを標準的な専門家の平均コーディング報告と比較することにより、専門家によるコーディングデータを集約するためのIRTモデルの有用性を調査します。専門家の信頼性が異なり、異なる項目機能(DIF)を示すとき、IRTアプローチは単純な平均を上回ることがわかりました。IRTモデルは、シミュレートされたDIFや変動する専門家の信頼性がなくても一般的に堅牢です。私たちの調査結果は、国際的なデータセットの生産者が潜在的概念を測定する専門家によるコーディングデータを集約するためにIRT技術を採用すべきであることを示唆しています。
Marquardtら(Mon、)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: