January 1, 2022Open Access

Modelos de Linguagem Aprimorados são Aprendizes Contínuos

Key Points

Key points are not available for this paper at this time.

Abstract

Trabalhos recentes sobre grandes modelos de linguagem se baseiam na intuição de que a maioria das tarefas de processamento de linguagem natural pode ser descrita por meio de instruções em linguagem natural e que modelos treinados com essas instruções apresentam um forte desempenho em zero-shot em vários conjuntos de dados padrão. No entanto, esses modelos, apesar de impressionantes, ainda têm um desempenho fraco em uma ampla gama de tarefas fora de seus respectivos conjuntos de treinamento e avaliação. Para abordar essa limitação, argumentamos que um modelo deve ser capaz de continuar expandindo seu conhecimento e habilidades, sem esquecer habilidades anteriores. Apesar do sucesso limitado da Aprendizagem Contínua, mostramos que Modelos de Linguagem Aprimorados podem ser aprendizes contínuos. Nós investigamos empiricamente a razão para esse sucesso e concluímos que a Aprendizagem Contínua emerge do pré-treinamento por auto-supervisão. Nosso modelo resultante Continual-T0 (CT0) é capaz de aprender 8 novas tarefas diversas de geração de linguagem, enquanto mantém um bom desempenho nas tarefas anteriores, abrangendo um total de 70 conjuntos de dados. Finalmente, mostramos que o CT0 é capaz de combinar instruções de maneiras para as quais nunca foi treinado, demonstrando algum nível de composição de instruções.

Bookmark

View Full Paper