July 26, 2024Open Access

InstructEdit : Édition des connaissances basée sur les instructions pour les grands modèles de langage

Key Points

Key points are not available for this paper at this time.

Abstract

L'édition des connaissances pour les grands modèles de langage peut offrir une solution efficace pour modifier le comportement d’un modèle sans affecter négativement ses performances globales. Cependant, les approches actuelles rencontrent des problèmes de généralisation limitée entre les tâches, nécessitant un éditeur distinct pour chaque tâche, ce qui entrave considérablement les applications plus larges. Pour y remédier, nous effectuons une première analyse du problème de généralisation multi-tâches en édition des connaissances. Plus précisément, nous développons une technique d’édition basée sur les instructions, nommée InstructEdit, qui permet à l’éditeur de s’adapter simultanément aux performances de diverses tâches en utilisant des instructions simples. Avec un seul éditeur unifié pour chaque LLM, nous démontrons empiriquement que InstructEdit peut améliorer le contrôle de l’éditeur, conduisant à une augmentation moyenne de 14,86 % de la Fiabilité dans un cadre d’édition multi-tâches. De plus, des expériences impliquant des tâches inédites tenues à l’écart illustrent que InstructEdit surpasse systématiquement les précédents solides référentiels. Pour approfondir les mécanismes sous-jacents de l’édition des connaissances basée sur les instructions, nous analysons les composantes principales des directions du gradient d’édition, ce qui révèle que les instructions peuvent aider à contrôler la direction de l’optimisation avec une meilleure généralisation hors distribution (OOD).

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper