Modelos de espaço de estado (SSMs), particularmente a arquitetura Mamba, emergiram como alternativas poderosas aos Transformers para modelagem de sequência, oferecendo complexidade de tempo linear e desempenho competitivo em diversas tarefas. No entanto, suas grandes contagens de parâmetros apresentam desafios significativos para implantação em ambientes com recursos limitados. Propomos uma nova estrutura de poda não estruturada adaptada para modelos Mamba que alcança até 70% de redução de parâmetros enquanto retém mais de 95% do desempenho original. Nossa abordagem integra três inovações chave: (1) uma técnica de poda de magnitude sensível ao gradiente que combina magnitude do peso e informações de gradiente para identificar parâmetros menos críticos, (2) um cronograma de poda iterativa que aumenta gradualmente a esparsidade para manter a estabilidade do modelo, e (3) uma estratégia de poda global que otimiza a alocação de parâmetros em todo o modelo. Através de experimentos extensivos em benchmarks WikiText-103, Long Range Arena e ETT de séries temporais, demonstramos ganhos significativos de eficiência com mínima degradação de desempenho. Nossa análise dos efeitos da poda nos componentes do Mamba revela insights críticos sobre a redundância e robustez da arquitetura, permitindo a implantação prática em configurações com recursos limitados enquanto amplia a aplicabilidade do Mamba.
Shihab et al. (Ter,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: