Key points are not available for this paper at this time.
La génération de texte neural est un outil clé dans les applications de traitement du langage naturel, mais il est bien connu qu'il existe des problèmes majeurs à sa base. En particulier, l'entraînement de probabilité standard et le décodage entraînent des sorties ennuyeuses et répétitives. Bien que certaines solutions post-hoc aient été proposées, notamment le échantillonnage top-k et le échantillonnage par noyau, elles ne traitent pas le fait que les probabilités au niveau des tokens prédites par le modèle sont faibles. Dans cet article, nous montrons que l'objectif de vraisemblance lui-même est en cause, entraînant un modèle qui attribue trop de probabilité aux séquences contenant des répétitions et des mots fréquents, contrairement à celles de la distribution d'entraînement humain. Nous proposons un nouvel objectif, l'entraînement par improbabilité, qui force le modèle à attribuer une probabilité plus faible aux générations peu probables. Nous montrons que l'entraînement par improbabilité au niveau des tokens et des séquences produit des textes moins répétitifs et moins ennuyeux tout en maintenant la perplexité, et donne des générations supérieures en utilisant la recherche gloutonne standard ou la recherche par faisceau. Selon les évaluations humaines, notre approche avec la recherche par faisceau standard surpasse également les méthodes de décodage actuellement populaires comme l'échantillonnage par noyau ou le blocage par faisceau, offrant ainsi une alternative solide aux techniques existantes.
Welleck et al. (Mon,) ont étudié cette question.