What type of study is this?

This is a Experimental Study study.

October 2, 2025Open Access

HYPEROFA : Extension du vocabulaire des LLM à de nouvelles langues via une initialisation d'embeddings basée sur un hyperréseau

Key Points

HYPEROFA améliore l'initialisation des embeddings des tokens, conduisant à de meilleures performances sur les langues à faibles ressources.
La méthode surpasse les baselines d'initialisation aléatoire tout en atteignant des résultats comparables à OFA.
HYPEROFA utilise un hyperréseau pour générer des embeddings flexibles à partir d'un espace vectoriel multilingue externe.
Cette approche met en lumière le potentiel des stratégies adaptatives d'embeddings dans les configurations de pré-entraînement continu.

Abstract

De nombreux modèles de langage pré-entraînés (PLMs) présentent des performances sous-optimales sur les langues à ressources moyennes et faibles, principalement en raison d'une exposition limitée à ces langues lors du pré-entraînement. Une stratégie courante pour y remédier consiste à introduire de nouveaux tokens spécifiques aux langues cibles, à initialiser leurs embeddings, puis à appliquer un pré-entraînement continu sur des données dans les langues cibles. Parmi ces méthodes, OFA (Liu et al., 2024a) propose une heuristique d'initialisation d'embeddings sous-mots basée sur la similarité, à la fois efficace et efficiente. Cependant, OFA limite les embeddings des tokens des langues cibles à des combinaisons convexes d'un nombre fixe d'embeddings de la langue source, ce qui peut restreindre l'expressivité. Pour surmonter cette limitation, nous proposons HYPEROFA, une approche basée sur un hyperréseau pour une initialisation plus adaptive des embeddings des tokens. L'hyperréseau est entraîné à mapper un espace vectoriel multilingue externe vers l'espace d'embeddings des tokens des PLMs en utilisant des tokens de la langue source. Une fois entraîné, il peut générer des embeddings flexibles pour les tokens de la langue cible, constituant ainsi un bon point de départ pour un pré-entraînement continu. Les expériences démontrent que HYPEROFA surpasse systématiquement la baseline d'initialisation aléatoire et égalise ou dépasse les performances d'OFA tant en convergence du pré-entraînement continu qu'en performances sur les tâches en aval. Nous rendons le code publiquement disponible.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper