What type of study is this?

This is a Quantitative Study study.

September 24, 2025Open Access

CoRank：科学的情報検索のための文書特徴を用いたLLMベースのコンパクトな再ランキング

Key Points

CoRankは科学文書の再ランキングを強化し、取得精度とパフォーマンスを向上させます。
文書特徴のコンパクトな表現を使用することで、CoRankは候補セットのカバレッジと全体的なランキングの有効性を向上させます。
実験は、平均nDCG@10が複数の学術データセットで50.6から55.5に上昇する顕著な改善を示します。
特徴抽出と再ランキングの統合プロセスは、情報抽出と取得の効果的な相互作用を示しています。

Abstract

科学的情報取得は科学知識発見を進めるために不可欠です。このプロセスにおいて、文書の再ランキングは第一段階の取得結果を洗練させる重要な役割を果たします。しかし、標準的なLLMのリストワイズ再ランキングは、科学分野において課題に直面しています。科学分野では第一段階の取得がしばしば最適ではなく、関連文書が低順位にランク付けされることがあります。一方、従来のリストワイズ再ランキングは候補の全文をコンテキストウィンドウに入れるため、考慮できる候補の数が制限されます。その結果、多くの関連文書が再ランキングの前に除外され、全体の取得パフォーマンスが制約されます。これらの課題に対処するために、我々は意味的特徴に基づくコンパクトな文書表現（例：カテゴリ、セクション、キーワード）を探求し、CoRankを提案します。これは、科学的取得のためのトレーニング不要でモデルに依存しない再ランキングフレームワークです。CoRankは三段階のソリューションを提供します：（i）文書特徴のオフライン抽出、（ii）これらのコンパクトな表現を用いた粗い再ランキング、（iii）（ii）からのトップ候補の全文に対する細かい再ランキング。この統合プロセスは、最適ではない第一段階の取得に対処します：コンパクトな表現により、より多くの文書がコンテキストウィンドウに収まることができ、候補セットのカバレッジが向上します。最終的な細かいランキングは、より正確な順序を保証します。5つの学術的取得データセットに関する実験では、CoRankが異なるLLMバックボーン間での再ランキング性能を大幅に改善することが示されました（平均nDCG@10は50.6から55.5に上昇）。全体として、これらの結果は情報抽出と情報取得の相乗効果を強調し、構造化された意味的特徴が科学的分野での再ランキングをどのように強化できるかを示しています。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper