Key points are not available for this paper at this time.
Le processus d'entraînement des grands modèles de langage (LLMs) implique souvent des degrés variables de contamination des données de test. Bien que les LLMs actuels obtiennent des performances de plus en plus meilleures sur divers benchmarks, leurs performances en applications pratiques ne correspondent pas toujours à leurs résultats sur les benchmarks. La fuite des benchmarks peut empêcher une évaluation précise des performances réelles des LLMs. Cependant, la construction de nouveaux benchmarks est coûteuse, requiert beaucoup de travail et comporte toujours un risque de fuite. Par conséquent, dans cet article, nous posons la question : pouvons-nous réutiliser ces benchmarks fuités pour l'évaluation des LLMs ? Nous proposons la Décontamination au moment de l'inférence (ITD) pour résoudre ce problème en détectant et réécrivant les échantillons fuités sans altérer leur difficulté. L'ITD peut atténuer l'inflation des performances causée par la mémorisation des benchmarks fuités. Nos expériences de preuve de concept démontrent que l'ITD réduit l'exactitude gonflée de 22,9 % sur GSM8K et de 19,0 % sur MMLU. Sur MMLU, l'utilisation de la Décontamination au moment de l'inférence peut entraîner une baisse des résultats de Phi3 et Mistral respectivement de 6,7 % et 3,6 %. Nous espérons que l'ITD pourra fournir des résultats d'évaluation plus fidèles pour les grands modèles de langage.
Zhu et al. (jeu,) ont étudié cette question.