Key points are not available for this paper at this time.
テストコレクションは、情報検索(IR)システムの評価において重要な役割を果たします。テストコレクションの構築のために多様なユーザークエリを取得することは難しく、検索結果の文書がクエリに適しているかを示す関連性判断を取得することは、しばしば高コストで資源を消費します。最近、Large Language Models(LLMs)を使用して合成データセットを生成することがさまざまなアプリケーションで注目を集めています。IRにおいては、以前の研究ではLLMsの能力を利用して合成クエリや文書を生成し、トレーニングデータを増やしてランキングモデルの性能を向上させることが行われましたが、合成テストコレクションを構築するためにLLMsを使用することは比較的未探索です。以前の研究は、LLMsがIRシステムの評価に使用するための合成関連性判断を生成する潜在能力を示しています。本論文では、合成判断だけでなく合成クエリを生成することで、LLMsを使用して完全に合成されたテストコレクションを構築することが可能かどうかを包括的に検討します。特に、信頼性のある合成テストコレクションを構築できるか、またそのようなテストコレクションがLLMベースのモデルに対して示すかもしれないバイアスのリスクを分析します。我々の実験は、LLMsを使用することによって、情報検索の評価に信頼して使用できる合成テストコレクションを構築できることを示しています。
Rahmaniら(Mon、)はこの問題を研究しました。