Retrieval-augmented generation(RAG)は、コンテキスト内検索を通じてより豊富な事実情報へアクセスすることで、大規模言語モデル(LLM)を強化し、現代の自然言語処理の基盤となっています。英語を中心とした単一言語環境では効果的ですが、多言語タスクでの活用は未解明です。本論文では、多言語オープンドメイン質問応答のための新たな手法を提案し、複数言語に渡るRAGの有効性を検証します。質問を英語に翻訳して検索を行う質問翻訳型RAG(tRAG)と、多言語間で直接検索するマルチリンガルRAG(MultiRAG)を含む様々な多言語RAG戦略の性能を評価しました。結果として、tRAGは有用である一方でカバレッジに限界があり、MultiRAGは多言語検索の効率向上を示すものの、取得コンテンツの言語間差異による不一致を生じることが判明しました。これらの課題を解決するため、取得した文書を共通言語(例:英語)に翻訳してから応答生成を行うクロスリンガルRAG(CrossRAG)を提案します。実験の結果、CrossRAGは知識集約タスクにおいて高リソース言語および低リソース言語両方の性能を大幅に向上させることが示されました。
Ranaldiら(Fri,)はこの問題を研究しました。