What type of study is this?

This is a Quantitative Study study.

October 9, 2025Open Access

Codificação Posicional Sensível ao Contexto Rotacional

Key Points

O CARoPE supera as embeddings posicionais rotacionais tradicionais e as linhas de base comuns em perplexidade.
O modelo alcança uma maior taxa de treinamento enquanto mantém a estabilidade em vários comprimentos de contexto.
A geração dinâmica de padrões de frequência com base nas embeddings dos tokens aprimora a representação posicional sensível ao contexto.
A avaliação no conjunto de dados FineWeb-Edu-10B destaca a escalabilidade e eficiência do CARoPE.

Abstract

A codificação posicional é um componente vital das arquiteturas de Transformer, permitindo que modelos incorporem a ordem da sequência em mecanismos de autoatenção. As Embeddings Posicionais Rotacionais (RoPE) se tornaram uma solução amplamente adotada devido à sua compatibilidade com a codificação de posição relativa e eficiência computacional. No entanto, RoPE depende de padrões de frequência sinusoidal estáticos e independentes de entrada, limitando sua capacidade de modelar relacionamentos sensíveis ao contexto. Neste trabalho, propomos o CARoPE (Codificação Posicional Rotacional Sensível ao Contexto), uma nova generalização do RoPE que gera dinamicamente padrões de frequência específicos das cabeças condicionados às embeddings dos tokens. Este design introduz representações posicionais sensíveis aos tokens e ao contexto, preservando a eficiência e a simplicidade arquitetural do RoPE. O CARoPE calcula deslocamentos de fase dependentes da entrada usando uma transformação limitada das embeddings dos tokens e as integra ao mecanismo rotacional nas cabeças de atenção. Avaliamos o CARoPE no conjunto de dados FineWeb-Edu-10B usando variantes do GPT-2 treinadas em tarefas de previsão do próximo token. Os resultados experimentais mostram que o CARoPE supera consistentemente o RoPE e outras linhas de base comuns de codificação posicional, alcançando perplexidade significativamente mais baixa, mesmo em comprimentos de contexto mais longos. Além disso, o CARoPE permite uma maior taxa de treinamento sem sacrificar a estabilidade do modelo. Essas descobertas demonstram que o CARoPE oferece uma atualização escalável, expressiva e eficiente para as estratégias de codificação posicional existentes em modelos Transformer.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper