De nombreux modèles de langage pré-entraînés (PLMs) présentent des performances sous-optimales sur les langues à ressources moyennes et faibles, principalement en raison d'une exposition limitée à ces langues lors du pré-entraînement. Une stratégie courante pour y remédier consiste à introduire de nouveaux tokens spécifiques aux langues cibles, à initialiser leurs embeddings, puis à appliquer un pré-entraînement continu sur des données dans les langues cibles. Parmi ces méthodes, OFA (Liu et al., 2024a) propose une heuristique d'initialisation d'embeddings sous-mots basée sur la similarité, à la fois efficace et efficiente. Cependant, OFA limite les embeddings des tokens des langues cibles à des combinaisons convexes d'un nombre fixe d'embeddings de la langue source, ce qui peut restreindre l'expressivité. Pour surmonter cette limitation, nous proposons HYPEROFA, une approche basée sur un hyperréseau pour une initialisation plus adaptive des embeddings des tokens. L'hyperréseau est entraîné à mapper un espace vectoriel multilingue externe vers l'espace d'embeddings des tokens des PLMs en utilisant des tokens de la langue source. Une fois entraîné, il peut générer des embeddings flexibles pour les tokens de la langue cible, constituant ainsi un bon point de départ pour un pré-entraînement continu. Les expériences démontrent que HYPEROFA surpasse systématiquement la baseline d'initialisation aléatoire et égalise ou dépasse les performances d'OFA tant en convergence du pré-entraînement continu qu'en performances sur les tâches en aval. Nous rendons le code publiquement disponible.
Özeren et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: