May 24, 2017Open Access

Treine por mais tempo, generalize melhor: fechando a lacuna de generalização no treinamento em grandes lotes de redes neurais

Key Points

Key points are not available for this paper at this time.

Abstract

Contexto: Modelos de aprendizado profundo são tipicamente treinados usando descida de gradiente estocástico ou uma de suas variantes. Esses métodos atualizam os pesos usando seu gradiente, estimado a partir de uma pequena fração dos dados de treinamento. Foi observado que, ao usar tamanhos de lote grandes, há uma degradação persistente no desempenho de generalização - conhecida como o fenômeno da "lacuna de generalização". Identificar a origem dessa lacuna e fechá-la permaneceu um problema em aberto. Contribuições: Examinamos a fase inicial de treinamento com alta taxa de aprendizado. Descobrimos que a distância dos pesos em relação à sua inicialização cresce logaritmicamente com o número de atualizações de pesos. Portanto, propomos um modelo estatístico de "caminhada aleatória em um terreno aleatório" que é conhecido por exibir um comportamento de difusão "ultra-lenta" semelhante. Seguindo esta hipótese, realizamos experimentos para mostrar empiricamente que a "lacuna de generalização" decorre do número relativamente pequeno de atualizações, em vez do tamanho do lote, e pode ser completamente eliminada adaptando o regime de treinamento utilizado. Investigamos ainda diferentes técnicas para treinar modelos no regime de grandes lotes e apresentamos um novo algoritmo chamado "Normalização de Lote Fantasma" que permite uma diminuição significativa na lacuna de generalização sem aumentar o número de atualizações. Para validar nossas descobertas, conduzimos vários experimentos adicionais no MNIST, CIFAR-10, CIFAR-100 e ImageNet. Finalmente, reavaliamos práticas e crenças comuns sobre o treinamento de modelos profundos e sugerimos que podem não ser ideais para alcançar uma boa generalização.

Bookmark

View Full Paper