August 24, 2024Open Access

Localize-and-Stitch: Fundição Eficiente de Modelos via Aritmética de Tarefas Esparsas

Key Points

Key points are not available for this paper at this time.

Abstract

A fusão de modelos oferece uma estratégia eficaz para combinar as forças de múltiplos modelos ajustados em um modelo unificado que preserva as capacidades especializadas de cada um. Os métodos existentes fundem modelos de maneira global, realizando operações aritméticas em todos os parâmetros do modelo. No entanto, essa fusão global frequentemente leva a interferência nas tarefas, degradando o desempenho do modelo fundido. Neste trabalho, introduzimos o Localize-and-Stitch, uma abordagem nova que funde modelos de maneira localizada. Nosso algoritmo funciona em duas etapas: i) Localização: identificar pequenas (1\% dos parâmetros totais) regiões localizadas nos modelos ajustados contendo habilidades essenciais para as tarefas subsequentes, e ii) Costura: reintegrar apenas essas regiões essenciais de volta ao modelo pré-treinado para sinergia de tarefas. Demonstramos que nossa abordagem localiza efetivamente regiões esparsas responsáveis pelo desempenho ajustado, e as regiões localizadas podem ser tratadas como representações compactas e interpretáveis dos modelos ajustados (tarefas). Empiricamente, avaliamos nosso método em vários benchmarks de visão e linguagem, mostrando que ele supera os métodos existentes de fusão de modelos em diferentes cenários de disponibilidade de dados. Além de um desempenho empírico forte, nosso algoritmo também facilita a compressão de modelos e preserva o conhecimento pré-treinado, permitindo a composição flexível e contínua de habilidades de múltiplos modelos ajustados com armazenamento e sobrecarga computacional mínimos. Nosso código está disponível em https: //github. com/yifei-he/Localize-and-Stitch.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper