Key points are not available for this paper at this time.
Große Sprachmodelle (LMs) wie GPT-3 haben die überraschende Fähigkeit, In-Kontext-Lernen zu betreiben, bei dem das Modell eine nachgelagerte Aufgabe lernt, indem es einfach auf ein Prompt mit Eingabe-Ausgabe-Beispielen konditioniert. Das LM lernt aus diesen Beispielen, ohne dass es ausdrücklich vortrainiert wurde, um zu lernen. Daher ist unklar, was das In-Kontext-Lernen ermöglicht. In diesem Papier untersuchen wir, wie In-Kontext-Lernen entstehen kann, wenn die Vortrainingsdokumente eine lange Kohärenz aufweisen. Hier muss das LM ein latentes konzept auf Dokumentenebene ableiten, um kohärente nächste Tokens während des Vortrainings zu erzeugen. Bei der Testzeit findet In-Kontext-Lernen statt, wenn das LM auch ein gemeinsames latentes Konzept zwischen Beispielen in einem Prompt ableitet. Wir beweisen, wann dies trotz einer Verteilungsschw devi für Prompts und Vortrainingsdaten in einem Setting auftritt, in dem die Vortrainingsverteilung eine Mischung aus HMMs ist. Im Gegensatz zu unordentlichen großflächigen Datensätzen, die zur Ausbildung von LMs verwendet werden, die In-Kontext-Lernen ermöglichen, generieren wir einen kleineren synthetischen Datensatz (GINC), bei dem sowohl Transformer als auch LSTMs In-Kontext-Lernen zeigen. Über die Theorie hinaus zeigen Experimente an GINC großflächige Phänomene der realen Welt, einschließlich verbesserter In-Kontext-Leistung mit Modellskalierung (trotz des gleichen Vortraining-Verlusts), Sensitivität gegenüber der Reihenfolge der Beispiele und Fälle, in denen Zero-Shot besser ist als Few-Shot-In-Kontext-Lernen.
Xie et al. (Mittw,) untersuchten diese Frage.