La génération augmentée par récupération (RAG) a émergé comme un cadre prometteur pour atténuer les hallucinations dans les grands modèles de langage (LLMs), mais ses performances globales dépendent du système de récupération sous-jacent. Dans le domaine financier, des documents tels que les rapports 10-K posent des défis distincts en raison du vocabulaire spécifique au domaine et des données tabulaires multi-hiérarchiques. Dans ce travail, nous introduisons un pipeline RAG end-to-end efficace qui améliore la récupération des documents financiers grâce à une approche en trois phases : pré-récupération, récupération et post-récupération. Dans la phase de pré-récupération, diverses techniques de prétraitement des requêtes et des corpus sont employées pour enrichir les données d'entrée. Au cours de la phase de récupération, nous avons affiné les modèles d'embeddings à la pointe de la technologie (SOTA) avec des connaissances spécifiques au domaine et mis en œuvre une stratégie de récupération hybride qui combine des représentations denses et rares. Enfin, la phase de post-récupération exploite l'entraînement par optimisation de préférence directe (DPO) et des méthodes de sélection de documents pour affiner davantage les résultats. Les évaluations sur sept ensembles de données de questions-réponses financières - FinDER, FinQABench, FinanceBench, TATQA, FinQA, ConvFinQA et MultiHiertt - démontrent des améliorations substantielles des performances de récupération, conduisant à une génération plus précise et contextuellement appropriée. Ces résultats mettent en évidence le rôle critique des techniques de récupération sur mesure dans l'amélioration de l'efficacité des systèmes RAG pour les applications financières. Un pipeline entièrement réplicable est disponible sur GitHub : https://github.com/seohyunwoo-0407/GAR.
Kim et al. (Mercredi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: