Key points are not available for this paper at this time.
Les modèles de diffusion ont connu un immense succès dans la modélisation de modalités de données continues, telles que les images, l'audio et la vidéo, mais leur application dans des domaines de données discrètes (par exemple, le langage naturel) a été limitée. Les méthodes existantes représentent principalement le texte discret dans un espace de diffusion continu, entraînant une surcharge computationnelle importante pendant l'entraînement et aboutissant à des vitesses d'échantillonnage lentes. Cet article introduit LaDiffuSeq, un modèle de génération de texte basé sur la diffusion latente intégrant une structure d'encodeur–décodeur. Plus précisément, il utilise d'abord un encodeur pré-entraîné pour mapper des séquences composées d'attributs et de texte correspondant dans un espace vectoriel latent de faible dimension. Ensuite, sans l'aide d'un classificateur, il effectue le processus de diffusion pour l'espace latent correspondant de la séquence. Enfin, un décodeur pré-entraîné est utilisé pour décoder les nouveaux vecteurs latents générés, produisant des textes cibles pertinents par rapport à des thèmes et possédant plusieurs granularités émotionnelles. Par rapport au modèle de référence, DiffuSeq, ce modèle atteint des améliorations du BERTScore de 0,105 et 0,009 sur deux ensembles de données publiques du monde réel (ChnSentiCorp et un ensemble de données de débat), respectivement ; la perplexité diminue de 3,333 et 4,562 ; et il quadruple efficacement la vitesse d'échantillonnage de génération de texte.
Li et al. (Ven,) ont étudié cette question.