Key points are not available for this paper at this time.
O desempenho de modelos autoregressivos em tarefas de geração de linguagem natural melhorou drasticamente devido à adoção de arquiteturas profundas e autoatenciosas. No entanto, esses ganhos vieram à custa de dificultar a velocidade de inferência, tornando os modelos de ponta difíceis de implementar em configurações do mundo real que são sensíveis ao tempo. Desenvolvemos uma técnica de compressão para modelos autoregressivos que é impulsionada por uma perspectiva de aprendizado por imitação sobre a destilação de conhecimento. O algoritmo é projetado para abordar o problema do viés de exposição. Em tarefas prototípicas de geração de linguagem, como tradução e sumarização, nosso método consistentemente supera outros algoritmos de destilação, como a destilação de conhecimento em nível de sequência. Modelos estudantes treinados com nosso método atingem de 1,4 a 4,8 pontos a mais no BLEU/ROUGE em comparação àqueles treinados do zero, enquanto aumentam a velocidade de inferência em até 14 vezes em comparação com o modelo professor.
Lin et al. (Qua,) estudaram esta questão.