Key points are not available for this paper at this time.
Vortrainierte Sprachmodelle (PLMs) haben bemerkenswerte Leistungen in verschiedenen Aufgaben der Verarbeitung natürlicher Sprache gezeigt: Unidirektionale PLMs (z. B. GPT) sind bekannt für ihre überlegenen Textgenerierungsfähigkeiten; bidirektionale PLMs (z. B. BERT) waren die bevorzugte Wahl für Aufgaben des natürlichen Sprachverständnisses (NLU). Während beide Modultypen vielversprechende Ergebnisse im Few-Shot-Lernen erzielt haben, wurde ihr Potenzial für Zero-Shot-Lernen bisher unzureichend untersucht. In diesem Papier präsentieren wir einen einfachen Ansatz, der beide PLM-Typen für ein vollständiges Zero-Shot-Lernen von NLU-Aufgaben verwendet, ohne spezifische Daten für die jeweilige Aufgabe zu benötigen: Ein unidirektionales PLM generiert klassenabhängige Texte, die von Angaben geleitet werden, die als Trainingsdaten für das Fine-Tuning eines bidirektionalen PLMs dienen. Mit hochwertigen Trainingsdaten, die basierend auf der Generierungswahrscheinlichkeit ausgewählt wurden, und Regularisierungstechniken (Label Smoothing und temporales Ensembling), die in der Fine-Tuning-Phase für bessere Generalisierung und Stabilität angewendet werden, zeigt unser Ansatz eine starke Leistung über sieben Klassifikationsaufgaben des GLUE-Benchmarks (z. B. 72,3/73,8 für MNLI-m/mm und 92,8 für SST-2) und übertrifft signifikant Zero-Shot-Prompting-Methoden, während er sogar vergleichbare Ergebnisse zu starken Few-Shot-Ansätzen mit 32 Trainingsproben pro Klasse erzielt.
Yu et al. (Wed,) haben diese Frage untersucht.