What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Optimiser les stratégies de récupération pour les réponses à des questions financières Documents dans les systèmes de génération augmentée par récupération

Key Points

Les stratégies de récupération améliorées conduisent à une génération contextuelle plus précise dans les applications financières.
L'affinage des modèles d'embeddings avec des connaissances spécifiques au domaine améliore considérablement les performances sur les ensembles de données financières.
L'approche en trois phases consiste en des améliorations de pré-récupération, de récupération et de post-récupération.
Les évaluations à travers plusieurs ensembles de données financières révèlent que les méthodes de récupération sur mesure sont critiques pour l'efficacité de RAG.

Abstract

La génération augmentée par récupération (RAG) a émergé comme un cadre prometteur pour atténuer les hallucinations dans les grands modèles de langage (LLMs), mais ses performances globales dépendent du système de récupération sous-jacent. Dans le domaine financier, des documents tels que les rapports 10-K posent des défis distincts en raison du vocabulaire spécifique au domaine et des données tabulaires multi-hiérarchiques. Dans ce travail, nous introduisons un pipeline RAG end-to-end efficace qui améliore la récupération des documents financiers grâce à une approche en trois phases : pré-récupération, récupération et post-récupération. Dans la phase de pré-récupération, diverses techniques de prétraitement des requêtes et des corpus sont employées pour enrichir les données d'entrée. Au cours de la phase de récupération, nous avons affiné les modèles d'embeddings à la pointe de la technologie (SOTA) avec des connaissances spécifiques au domaine et mis en œuvre une stratégie de récupération hybride qui combine des représentations denses et rares. Enfin, la phase de post-récupération exploite l'entraînement par optimisation de préférence directe (DPO) et des méthodes de sélection de documents pour affiner davantage les résultats. Les évaluations sur sept ensembles de données de questions-réponses financières - FinDER, FinQABench, FinanceBench, TATQA, FinQA, ConvFinQA et MultiHiertt - démontrent des améliorations substantielles des performances de récupération, conduisant à une génération plus précise et contextuellement appropriée. Ces résultats mettent en évidence le rôle critique des techniques de récupération sur mesure dans l'amélioration de l'efficacité des systèmes RAG pour les applications financières. Un pipeline entièrement réplicable est disponible sur GitHub : https://github.com/seohyunwoo-0407/GAR.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Kim et al. (Mercredi,) ont étudié cette question.

synapsesocial.com/papers/68e62de1a8c0c6d458740053 https://doi.org/https://doi.org/10.48550/arxiv.2503.15191

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper