May 27, 2024Open Access

XL3M : Un cadre sans entraînement pour l'extension de longueur des LLM basé sur l'inférence segment par segment

Key Points

Key points are not available for this paper at this time.

Abstract

Le problème d'échec de généralisation de la longueur, c'est-à-dire que le grand modèle de langage (LLM) ne parvient pas à généraliser à des textes plus longs que sa longueur maximale d'entraînement, limite grandement l'application des LLM dans les scénarios avec des entrées longues en flux continu. Pour résoudre ce problème, les méthodes existantes exigent soit des coûts importants soit introduisent une perte de précision. Dans cet article, nous constatons empiriquement que la précision de la prédiction du LLM est fortement corrélée à sa certitude. Sur cette base, nous proposons un cadre efficace sans entraînement, nommé XL3M (qui signifie extra-long large language model), qui permet aux LLM entraînés sur des séquences courtes de raisonner sur des séquences extrêmement longues sans aucun entraînement ou ajustement supplémentaire. Dans le cadre XL3M, le contexte d'entrée est d'abord décomposé en plusieurs sous-contextes courts, où chaque sous-contexte contient un segment indépendant et une « question » commune qui est constituée de quelques tokens de la fin du contexte original. Ensuite, XL3M propose une méthode pour mesurer la pertinence entre chaque segment et la « question », et construit un contexte clé concis en assemblant tous les segments pertinents dans l'ordre chronologique. Le contexte clé est ensuite utilisé en lieu et place du contexte original pour réaliser la tâche d'inférence. Les évaluations sur des bancs d'essais complets montrent la supériorité de XL3M. Avec notre cadre, un modèle Llama2-7B est capable de raisonner sur des séquences de 20M tokens sur une machine NPU Huawei Ascend 910B à 8 cartes avec 64 Go de mémoire par carte.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper