Key points are not available for this paper at this time.
A multiplicação de matrizes é fundamental no algoritmo de retropropagação utilizado para treinar modelos de redes neurais profundas. Bibliotecas como o MKL da Intel ou o cuBLAS da NVIDIA implementaram técnicas novas e otimizadas de multiplicação de matrizes que aumentam o desempenho e reduzem os custos computacionais. Essas técnicas também podem ser implementadas em CUDA e SYCL e funcionam com instruções AVX2 e AVX512, que apresentam menor desempenho, mas melhor precisão. O estudo compara tempos de execução e consumo de energia usando PAPI e PERF e compara a precisão para diferentes tamanhos de matrizes. Comparações foram feitas em arquiteturas como CPUs Intel de terceira e quarta geração e GPUs NVIDIA V100 e A100. A biblioteca MKL apresentou o melhor desempenho com uma leve perda de precisão, enquanto a implementação de OpenMP e SYCL na CPU mostrou a melhor precisão, mas uma perda de desempenho. Por outro lado, os resultados na GPU mostraram que o cuBLAS com núcleos tensor apresentava o melhor desempenho; no entanto, teve um custo em precisão. A biblioteca cuBLAS sem esses núcleos especializados mostra mínima perda de desempenho e precisão muito superior. Os dados obtidos em diferentes arquiteturas mostraram que a CPU poderia alcançar desempenho próximo ao obtido na GPU com aumento do consumo de energia. Esses resultados são condicionais a certas especificações de hardware, como o número de núcleos, frequência do clock, geração do processador para a CPU e a velocidade e largura de banda do barramento PCI e arquitetura do dispositivo (capacidade computacional) para a GPU.
Torres et al. (Mon,) estudaram essa questão.