Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) ont montré un potentiel remarquable pour la résolution de problèmes, avec des modèles open source atteignant des performances de plus en plus impressionnantes sur des benchmarks mesurant des domaines allant du raisonnement logique à la capacité mathématique. L'assemblage de modèles peut encore améliorer les capacités dans divers domaines. Cependant, les méthodes conventionnelles de combinaison de modèles au moment de l'inférence, telles que la fusion superficielle, nécessitent un vocabulaire et une tokenisation partagés, et les alternatives comme le fine-tuning pour des performances spécifiques à un domaine sont à la fois chronophages et coûteuses en calcul. Nous présentons donc un algorithme d'assemblage au moment de l'inférence visant à "moyenner" les sorties de plusieurs LLMs et illustrons sa performance améliorée dans plusieurs domaines par rapport à ses modèles constitutifs seuls. Le décodage en ensemble au niveau des caractères, CharED, trouve la distribution marginale de chaque caractère pour un modèle individuel et effectue une moyenne pondérée pour générer une sortie, caractère par caractère. Dans les benchmarks de codage, de mathématiques et de toxicité, nous trouvons que notre modèle proposé est capable de combiner les forces complémentaires de plusieurs LLMs, indépendamment du vocabulaire, de la tokenisation ou de la taille du modèle.
Gu et al. (Mar,) ont étudié cette question.