Key points are not available for this paper at this time.
A ativação esparsa, que ativa seletivamente apenas um conjunto de neurônios dependente da entrada durante a inferência, é uma técnica útil para reduzir o custo computacional de Modelos de Linguagem Grandes (LLMs) sem a necessidade de re-treinamento ou esforços de adaptação. No entanto, se pode ser aplicada aos recentemente emergentes Modelos de Linguagem Pequenos (SLMs) continua sendo questionável, pois os SLMs são geralmente menos sobreparametrizados do que os LLMs. Neste artigo, nosso objetivo é alcançar ativação esparsa em SLMs. Primeiro, mostramos que os esquemas de ativação esparsa existentes em LLMs, que se baseiam nas magnitudes das saídas dos neurônios, não podem ser aplicados aos SLMs, e ativar neurônios com base em suas pontuações de atribuição é uma alternativa melhor. Além disso, demonstramos e quantificamos os grandes erros das métricas de atribuição existentes quando são usadas para ativação esparsa, devido à interdependência entre as pontuações de atribuição dos neurônios em diferentes camadas. Com base nessas observações, propusemos uma nova métrica de atribuição que pode corrigir provavelmente tais erros e alcançar uma ativação esparsa precisa. Experimentos em múltiplos SLMs populares e conjuntos de dados mostram que nossa abordagem pode alcançar uma taxa de esparsificação de 80% com <5% de perda de precisão do modelo, comparável à ativação esparsa alcançada em LLMs. O código-fonte está disponível em: https://github.com/pittisl/Sparse-Activation.
Song et al. (Sun,) estudaram essa questão.