O treinamento de redes neurais depende da computação de gradientes através de retropropagação, mas os requisitos de memória para armazenar ativações de camadas apresentam desafios significativos de escalabilidade. Apresentamos a primeira adaptação do esboço de matriz da teoria de controle para ativações de camadas de redes neurais, permitindo a reconstrução de gradiente eficiente em termos de memória na retropropagação. Este trabalho se baseia em quadros recentes de esboço de matriz para problemas de otimização dinâmica, onde desafios semelhantes de armazenamento de trajetória de estado motivam técnicas de esboço. Nossa abordagem esboça ativações de camadas usando três matrizes de esboço complementares mantidas através de médias móveis exponenciais com ajuste de rank adaptativo, equilibrando automaticamente a eficiência da memória contra a qualidade da aproximação. Avaliações empíricas em MNIST, CIFAR-10, e redes neurais informadas por física demonstram um trade-off controlável entre precisão e memória. Demonstramos uma aplicação de monitoramento de gradiente em MNIST, mostrando como ativações esboçadas possibilitam o rastreamento do normativo do gradiente em tempo real com sobrecarga de memória mínima. Esses resultados estabelecem que o armazenamento de ativações esboçadas oferece um caminho viável para treinamento e análise eficientes em termos de memória de redes neurais.
Antil et al. (Quarta-feira,) estudaram esta questão.