What question did this study set out to answer?

Cette recherche se concentre sur l'amélioration de l'efficacité de la récupération des invites pour l'apprentissage en contexte utilisant des modèles de langage.

January 1, 2022Open Access

Apprendre à récupérer des invites pour l'apprentissage en contexte

Key Points

Cette recherche se concentre sur l'amélioration de l'efficacité de la récupération des invites pour l'apprentissage en contexte utilisant des modèles de langage.
Proposé une méthode pour récupérer des invites en utilisant des données annotées d'un modèle de langage pré-entraîné.
Estimé les probabilités des sorties données les entrées et des exemples de formation candidats pour les étiqueter comme positifs ou négatifs.
Entraîné un modèle de récupérateur dense pour récupérer efficacement des exemples de formation comme invites lors des tests.
La méthode proposée a largement surpassé les travaux antérieurs et les baselines dans trois tâches de séquence à séquence.
Des métriques de performance améliorées ont été observées dans la correspondance des énoncés linguistiques aux représentations de sens.
Démontré une efficacité robuste dans les tâches de compréhension du langage naturel.

Abstract

L'apprentissage en contexte est un paradigme récent dans la compréhension du langage naturel, où un grand modèle de langage pré-entraîné (LM) observe une instance de test et quelques exemples d'entraînement comme entrée, et décode directement la sortie sans aucune mise à jour de ses paramètres. Cependant, il a été montré que la performance dépend fortement des exemples d'entraînement sélectionnés (appelés invites). Dans ce travail, nous proposons une méthode efficace pour récupérer des invites pour l'apprentissage en contexte en utilisant des données annotées et un LM. Étant donné une paire entrée-sortie, nous estimons la probabilité de la sortie donnée l'entrée et un exemple d'entraînement candidat comme invite, et étiquetons les exemples d'entraînement comme positifs ou négatifs en fonction de cette probabilité. Nous entraînons ensuite un récupérateur dense efficace à partir de ces données, qui est utilisé pour récupérer des exemples d'entraînement en tant qu'invites au moment du test. Nous évaluons notre approche sur trois tâches de séquence à séquence où les énoncés linguistiques sont mappés à des représentations de signification, et constatons qu'elle surpasse considérablement les travaux antérieurs et plusieurs référentiels dans l'ensemble.

Demander à l'IA

Bookmark

View Full Paper