科学的情報取得は科学知識発見を進めるために不可欠です。このプロセスにおいて、文書の再ランキングは第一段階の取得結果を洗練させる重要な役割を果たします。しかし、標準的なLLMのリストワイズ再ランキングは、科学分野において課題に直面しています。科学分野では第一段階の取得がしばしば最適ではなく、関連文書が低順位にランク付けされることがあります。一方、従来のリストワイズ再ランキングは候補の全文をコンテキストウィンドウに入れるため、考慮できる候補の数が制限されます。その結果、多くの関連文書が再ランキングの前に除外され、全体の取得パフォーマンスが制約されます。これらの課題に対処するために、我々は意味的特徴に基づくコンパクトな文書表現(例:カテゴリ、セクション、キーワード)を探求し、CoRankを提案します。これは、科学的取得のためのトレーニング不要でモデルに依存しない再ランキングフレームワークです。CoRankは三段階のソリューションを提供します:(i)文書特徴のオフライン抽出、(ii)これらのコンパクトな表現を用いた粗い再ランキング、(iii)(ii)からのトップ候補の全文に対する細かい再ランキング。この統合プロセスは、最適ではない第一段階の取得に対処します:コンパクトな表現により、より多くの文書がコンテキストウィンドウに収まることができ、候補セットのカバレッジが向上します。最終的な細かいランキングは、より正確な順序を保証します。5つの学術的取得データセットに関する実験では、CoRankが異なるLLMバックボーン間での再ランキング性能を大幅に改善することが示されました(平均nDCG@10は50.6から55.5に上昇)。全体として、これらの結果は情報抽出と情報取得の相乗効果を強調し、構造化された意味的特徴が科学的分野での再ランキングをどのように強化できるかを示しています。
Tian et al. (Mon,) はこの問題を研究しました。