January 1, 2022Open Access

Um Método Embaraçosamente Simples para Mitigar Propriedades Indesejáveis de Tokenizadores de Modelos de Linguagem Pré-Treinados

Key Points

Key points are not available for this paper at this time.

Abstract

Apresentamos o FLOTA (Few Longest Token Approximation), um método simples, mas eficaz, para melhorar a tokenização de modelos de linguagem pré-treinados (PLMs). O FLOTA utiliza o vocabulário de um tokenizador padrão, mas tenta preservar a estrutura morfológica das palavras durante a tokenização. Avaliamos o FLOTA em segmentações morfológicas de ouro, bem como em uma tarefa de classificação de texto, usando BERT, GPT-2 e XLNet como exemplos de PLMs. O FLOTA leva a ganhos de desempenho, torna a inferência mais eficiente e aprimora a robustez dos PLMs em relação ao ruído de espaço em branco.

Perguntar à IA

Bookmark

View Full Paper