Key points are not available for this paper at this time.
Apresentamos o FLOTA (Few Longest Token Approximation), um método simples, mas eficaz, para melhorar a tokenização de modelos de linguagem pré-treinados (PLMs). O FLOTA utiliza o vocabulário de um tokenizador padrão, mas tenta preservar a estrutura morfológica das palavras durante a tokenização. Avaliamos o FLOTA em segmentações morfológicas de ouro, bem como em uma tarefa de classificação de texto, usando BERT, GPT-2 e XLNet como exemplos de PLMs. O FLOTA leva a ganhos de desempenho, torna a inferência mais eficiente e aprimora a robustez dos PLMs em relação ao ruído de espaço em branco.
Hofmann et al. (Sat,) estudaram esta questão.