A codificação posicional é um componente vital das arquiteturas de Transformer, permitindo que modelos incorporem a ordem da sequência em mecanismos de autoatenção. As Embeddings Posicionais Rotacionais (RoPE) se tornaram uma solução amplamente adotada devido à sua compatibilidade com a codificação de posição relativa e eficiência computacional. No entanto, RoPE depende de padrões de frequência sinusoidal estáticos e independentes de entrada, limitando sua capacidade de modelar relacionamentos sensíveis ao contexto. Neste trabalho, propomos o CARoPE (Codificação Posicional Rotacional Sensível ao Contexto), uma nova generalização do RoPE que gera dinamicamente padrões de frequência específicos das cabeças condicionados às embeddings dos tokens. Este design introduz representações posicionais sensíveis aos tokens e ao contexto, preservando a eficiência e a simplicidade arquitetural do RoPE. O CARoPE calcula deslocamentos de fase dependentes da entrada usando uma transformação limitada das embeddings dos tokens e as integra ao mecanismo rotacional nas cabeças de atenção. Avaliamos o CARoPE no conjunto de dados FineWeb-Edu-10B usando variantes do GPT-2 treinadas em tarefas de previsão do próximo token. Os resultados experimentais mostram que o CARoPE supera consistentemente o RoPE e outras linhas de base comuns de codificação posicional, alcançando perplexidade significativamente mais baixa, mesmo em comprimentos de contexto mais longos. Além disso, o CARoPE permite uma maior taxa de treinamento sem sacrificar a estabilidade do modelo. Essas descobertas demonstram que o CARoPE oferece uma atualização escalável, expressiva e eficiente para as estratégias de codificação posicional existentes em modelos Transformer.
Veisi et al. (Quarta-feira,) estudaram essa questão.