Les grands modèles linguistiques (LLM) sont de plus en plus déployés dans les systèmes d'information, y compris en tant que réajusteurs de deuxième stade dans les pipelines de récupération d'information, mais leur sensibilité au biais de récence a reçu peu d'attention. Nous enquêtons sur la question de savoir si les LLM privilégient implicitement les documents récents en ajoutant des dates de publication artificielles aux passages des collections de récupération de passages de TREC Deep Learning en 2021 (DL21) et 2022 (DL22). Sur sept modèles, GPT-3.5-turbo, GPT-4o, GPT-4, LLaMA-3 8B/70B et Qwen-2.5 7B/72B, les passages "frais" sont systématiquement promus, déplaçant l'année moyenne de publication du Top-10 en avant de jusqu'à 4,78 ans et déplaçant des éléments individuels jusqu'à 95 rangs dans nos expériences de réajustement listwise. Bien que les modèles plus grands atténuent l'effet, aucun ne l'élimine. Nous observons également que la préférence des LLM entre deux passages ayant un niveau de pertinence identique peut être inversée jusqu'à 25 % en moyenne après l'injection de date dans nos expériences de préférence par paires. Ces résultats fournissent des preuves quantitatives d'un biais de récence omniprésent dans les LLM et soulignent l'importance de stratégies efficaces d'atténuation des biais.
Fang et al. (Sun,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: