Key points are not available for this paper at this time.
Resumo Modelos de Transformer somente com decodificador, como o GPT, demonstraram desempenho excepcional na geração de textos, prevendo autoregressivamente o próximo token. No entanto, a eficácia de executar o GPT em sistemas de hardware atuais é limitada pela baixa relação computação-memória e pelo alto acesso à memória. Arquiteturas Process-in-memory (PIM) podem minimizar o movimento de dados fora do chip e utilizar alta largura de banda interna. Elas se destacam como candidatos promissores para acelerar tarefas limitadas por memória, como a inferência do GPT. Neste trabalho, propomos um acelerador PIM, o PIM-GPT, que alcança aceleração de ponta a ponta na inferência do GPT com alto desempenho e alta eficiência energética. O PIM-GPT aproveita projetos PIM baseados em DRAM para executar operações de multiplicação-acumulação (MAC) diretamente nos chips de DRAM, eliminando a necessidade de mover os dados da matriz para fora do chip. Funções não lineares e comunicação de dados são suportadas por um chip integrado específico para a aplicação (ASIC). No nível do software, esquemas de mapeamento são projetados para maximizar a localidade de dados e o paralelismo computacional, concatenando e particionando matrizes entre os canais e bancos de DRAM para utilizar todas as unidades de computação em memória disponíveis. A eficiência da arquitetura PIM-GPT é verificada através da síntese de circuitos e um simulador preciso em ciclos de clock orientado a eventos. No geral, o PIM-GPT alcança aceleração de 41−137× e 631−1074×, e eficiência energética de 123−383× e 320−602× em relação aos baseline de GPU e CPU em 8 modelos de GPT com até 1,4 bilhão de parâmetros.
Wu et al. (Fri,) estudaram esta questão.