April 3, 2025Open Access

Une enquête sur les modèles de langage multilingues à grande échelle : corpus, alignement et biais

Key Points

Key points are not available for this paper at this time.

Abstract

Résumé Basé sur les fondations des Modèles de Langage de Grande Taille (LLMs), les LLMs Multilingues (MLLMs) ont été développés pour répondre aux défis rencontrés dans le traitement du langage naturel multilingue, espérant réaliser un transfert de connaissances des langues à ressources élevées vers des langues à ressources faibles. Cependant, des limitations et des défis significatifs subsistent, tels que le déséquilibre linguistique, l'alignement multilingue et le biais inhérent. Dans cet article, nous visons à fournir une analyse complète des MLLMs, en approfondissant les discussions autour de ces problèmes critiques. Tout d'abord, nous commençons par présenter un aperçu des MLLMs, couvrant leurs évolutions, techniques clés et capacités multilingues. Ensuite, nous explorons les corpus d'entraînement multilingues des MLLMs et les ensembles de données multilingues orientés vers des tâches en aval qui sont cruciaux pour améliorer la capacité interlinguale des MLLMs. Troisièmement, nous examinons les études à la pointe de la technologie sur les représentations multilingues et investiguons si les MLLMs actuels peuvent apprendre une représentation linguistique universelle. Quatrièmement, nous discutons du biais sur les MLLMs, y compris ses catégories, métriques d'évaluation et techniques de dé-biaisage. Enfin, nous discutons des défis existants et soulignons des directions de recherche prometteuses pour les MLLMs.

Bookmark

View Full Paper