Key points are not available for this paper at this time.
Modelos de linguagem de grande escala (LLMs) baseados em Transformer geralmente têm uma janela de contexto limitada, resultando em uma degradação significativa de desempenho ao processar texto além do comprimento da janela de contexto. Extensos estudos foram propostos para estender a janela de contexto e atingir a extrapolação de comprimento dos LLMs, mas ainda falta uma interpretação aprofundada dessas abordagens. Neste estudo, exploramos a informação posicional dentro e além da janela de contexto para decifrar o mecanismo subjacente dos LLMs. Usando um método de decomposição baseado em média, desenredamos vetores posicionais dos estados ocultos dos LLMs e analisamos sua formação e efeito na atenção. Além disso, quando os textos excedem a janela de contexto, analisamos a mudança dos vetores posicionais em dois cenários, ou seja, extrapolação direta e extensão da janela de contexto. Com base em nossas descobertas, projetamos dois métodos de extensão da janela de contexto sem treinamento, substituição de vetor posicional e extensão da janela de atenção. Resultados experimentais mostram que nossos métodos podem efetivamente estender o comprimento da janela de contexto.
Dong et al. (Ter,) estudaram essa questão.