June 25, 2024Open Access

Uma Abordagem Tripla para Adaptação Cross-Lingual com LLMs Multilíngues

Key Points

Key points are not available for this paper at this time.

Abstract

Línguas de baixo recurso, por definição, tendem a ser sub-representadas nos corpúsculos de pré-treinamento de Modelos de Linguagem de Grande Escala. Neste trabalho, investigamos três abordagens cross-lingual de baixo recurso que permitem que um LLM se adapte a tarefas em línguas previamente não vistas. O Llama-2 é um LLM onde as línguas indígenas, entre muitas outras famílias linguísticas, contribuem com menos de 0,005% do total de 2 trilhões de tokens dos corpúsculos de pré-treinamento. Neste trabalho, experimentamos com o Llama-2, dominado pelo inglês, para transferência cross-lingual para três línguas indígenas: Bengali, Hindi e Tamil como línguas-alvo. Estudamos três abordagens para transferência cross-lingual, sob ICL e ajuste fino. Primeiramente, encontramos que adicionar sinais supervisionais adicionais por meio de uma língua dominante no LLM leva a melhorias, tanto sob aprendizado em contexto quanto sob ajuste fino. Em segundo lugar, adaptar as línguas-alvo para reordenação de palavras pode ser benéfico sob ICL, mas seu impacto diminui com o ajuste fino. Finalmente, o pré-treinamento contínuo em uma língua de baixo recurso pode melhorar o desempenho do modelo para outras línguas de baixo recurso relacionadas.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper