Key points are not available for this paper at this time.
A inferência com Modelos de Linguagem Multimodais de Grande Escala (MLLMs) é lenta devido à sua arquitetura de modelo de linguagem de grande escala, que sofre com o gargalo de largura de banda de memória e gera tokens de forma auto-regressiva. Neste artigo, exploramos a aplicação da decodificação especulativa para melhorar a eficiência da inferência dos MLLMs, especificamente o modelo LLaVA 7B. Mostramos que um modelo somente de linguagem pode servir como um bom modelo de esboço para decodificação especulativa com o LLaVA 7B, contornando a necessidade de tokens de imagem e seus componentes de processamento associados do modelo de esboço. Nossos experimentos em três tarefas diferentes mostram que a decodificação especulativa pode alcançar um aumento de velocidade limitado pela memória de até 2,37 usando um modelo de linguagem de 115M de parâmetros que treinamos do zero. Além disso, introduzimos um modelo de esboço LLaVA compacto incorporando um adaptador de imagem, que mostra ganhos de desempenho marginais em legendagem de imagens, mantendo resultados comparáveis em outras tarefas.
Gagrani et al. (Sex,) estudaram essa questão.