Key points are not available for this paper at this time.
A regularização L₂ e a regularização de decaimento de peso são equivalentes para o gradiente estocástico padrão (quando reescaladas pela taxa de aprendizagem), mas, como demonstramos, esse não é o caso para algoritmos de gradiente adaptativo, como o Adam. Embora implementações comuns desses algoritmos utilizem a regularização L₂ (frequentemente chamando-a de "decaimento de peso", o que pode ser enganoso devido à inequivalência que expomos), propomos uma modificação simples para recuperar a formulação original da regularização de decaimento de peso, desacoplando o decaimento de peso dos passos de otimização tomados em relação à função de perda. Fornecemos evidência empírica de que nossa modificação proposta (i) desacopla a escolha ótima do fator de decaimento de peso da configuração da taxa de aprendizagem tanto para o SGD padrão quanto para o Adam e (ii) melhora substancialmente o desempenho de generalização do Adam, permitindo que competisse com o SGD com momentum em conjuntos de dados de classificação de imagens (nos quais o último anteriormente geralmente superava o primeiro). Nosso decaimento de peso desacoplado já foi adotado por muitos pesquisadores, e a comunidade o implementou no TensorFlow e no PyTorch; o código-fonte completo de nossos experimentos está disponível em https://github.com/loshchil/AdamW-and-SGDW.
Loshchilov et al. (ter,) estudaram essa questão.