Key points are not available for this paper at this time.
Nous proposons de pré-entraîner un modèle de langue unifié pour les tâches d'auto-encodage et de modélisation du langage partiellement autoregressif en utilisant une nouvelle procédure d'entraînement, appelée modèle de langue pseudo-masqué (PMLM). Étant donné un texte d'entrée avec des tokens masqués, nous nous appuyons sur des masques conventionnels pour apprendre les inter-relations entre les tokens corrompus et le contexte via l'auto-encodage, et des masques pseudo pour apprendre les intra-relations entre les segments masqués via une modélisation partiellement autoregressive. Avec des embeddings de position bien conçus et des masques d'attention auto-référentiels, les encodages de contexte sont réutilisés pour éviter des calculs redondants. De plus, les masques conventionnels utilisés pour l'auto-encodage fournissent des informations de masquage global, de sorte que tous les embeddings de position sont accessibles dans la modélisation du langage partiellement autoregressif. En outre, les deux tâches pré-entrainent un modèle de langue unifié en tant qu'encodeur bidirectionnel et décodeur séquence-à-séquence, respectivement. Nos expériences montrent que les modèles de langue unifiés pré-entraînés à l'aide de PMLM atteignent de nouveaux états de l'art sur un large éventail de tâches de compréhension et de génération du langage naturel à travers plusieurs benchmarks largement utilisés.
Bao et al. (ven,) ont étudié cette question.