What question did this study set out to answer?

A pesquisa visa aprimorar o treinamento de redes neurais implementando técnicas de esboço de matriz eficientes em termos de memória para computação de gradientes.

April 3, 2026

Esboço de Matriz Aleatória para Treinamento de Redes Neurais e Monitoramento de Gradientes

Key Points

A pesquisa visa aprimorar o treinamento de redes neurais implementando técnicas de esboço de matriz eficientes em termos de memória para computação de gradientes.
Adaptação do esboço de matriz da teoria de controle para ativações de camadas de redes neurais
Uso de três matrizes de esboço complementares com médias móveis exponenciais
Ajuste de rank adaptativo para equilibrar eficiência de memória com qualidade de aproximação
Avaliação empírica em conjuntos de dados como MNIST e CIFAR-10
Demonstrou um trade-off controlável entre precisão e memória no treinamento de redes neurais
Possibilitou o rastreamento em tempo real do normativo do gradiente com sobrecarga de memória mínima
Estabelece o armazenamento de ativações esboçadas como um método viável para análise de redes neurais

Abstract

O treinamento de redes neurais depende da computação de gradientes através de retropropagação, mas os requisitos de memória para armazenar ativações de camadas apresentam desafios significativos de escalabilidade. Apresentamos a primeira adaptação do esboço de matriz da teoria de controle para ativações de camadas de redes neurais, permitindo a reconstrução de gradiente eficiente em termos de memória na retropropagação. Este trabalho se baseia em quadros recentes de esboço de matriz para problemas de otimização dinâmica, onde desafios semelhantes de armazenamento de trajetória de estado motivam técnicas de esboço. Nossa abordagem esboça ativações de camadas usando três matrizes de esboço complementares mantidas através de médias móveis exponenciais com ajuste de rank adaptativo, equilibrando automaticamente a eficiência da memória contra a qualidade da aproximação. Avaliações empíricas em MNIST, CIFAR-10, e redes neurais informadas por física demonstram um trade-off controlável entre precisão e memória. Demonstramos uma aplicação de monitoramento de gradiente em MNIST, mostrando como ativações esboçadas possibilitam o rastreamento do normativo do gradiente em tempo real com sobrecarga de memória mínima. Esses resultados estabelecem que o armazenamento de ativações esboçadas oferece um caminho viável para treinamento e análise eficientes em termos de memória de redes neurais.

Bookmark

Esboço de Matriz Aleatória para Treinamento de Redes Neurais e Monitoramento de Gradientes

Key Points

Abstract

Cite This Study