Retrieval-Augmented Generation(RAG)は外部知識を活用して大規模言語モデルの根拠付けに重要な役割を果たしますが、その効果は文脈的に不正確または不完全な情報の検索によってしばしば損なわれます。これに対処するため、知識グラフベースのRAG手法は階層構造へと進化し、知識を多層の要約に組織化しています。しかし、これらのアプローチは依然として2つの重要かつ未解決の課題を抱えています。すなわち、高次の概念的要約は「意味的な孤島」として分断されており、コミュニティ間の推論に必要な明示的関係が欠如していること、および検索プロセス自体が構造的な認識に欠けており、多くの場合、グラフの豊富なトポロジーを活用できない非効率な一次元検索に陥っていることです。これらの制約を克服するため、本研究ではLeanRAGを提案します。LeanRAGは知識集約と検索戦略を深く協調させた設計を特徴とします。まず、新規の意味的集約アルゴリズムを用いてエンティティクラスターを形成し、集約レベルの要約間に新たな明示的関係を構築し、完全にナビゲート可能な意味ネットワークを生成します。次に、ボトムアップの構造ガイド型検索戦略により、クエリを最も関連する詳細なエンティティにアンカーし、体系的にグラフの意味経路を辿って簡潔かつ文脈的に包括的な証拠セットを収集します。LeanRAGはグラフ上の経路検索に伴う大きなオーバーヘッドを軽減し、情報の冗長な検索を最小化します。異なるドメインの4つの難易度の高いQAベンチマークでの広範な実験により、LeanRAGは既存手法を大幅に上回る応答品質を示し、検索の冗長率を46%削減することが実証されました。コードは以下より入手可能です:https://github.com/RaZzzyz/LeanRAG
Zhang et al. (Thu,)はこの問題を研究しました。