Los puntos clave no están disponibles para este artículo en este momento.
En las tareas actuales de aprendizaje profundo, los optimizadores estilo Adam como Adam, Adagrad, RMSProp, Adafactor y Lion se han utilizado ampliamente como alternativas a los optimizadores estilo SGD. Estos optimizadores generalmente actualizan los parámetros del modelo utilizando el signo de los gradientes, lo que resulta en curvas de convergencia más estables. La tasa de aprendizaje y el tamaño del lote son los hiperparámetros más críticos para los optimizadores, que requieren un ajuste cuidadoso para permitir una convergencia efectiva. Investigaciones previas han mostrado que la tasa de aprendizaje óptima aumenta linealmente o sigue reglas similares con el tamaño del lote para optimizadores estilo SGD. Sin embargo, esta conclusión no es aplicable a los optimizadores estilo Adam. En este artículo, aclaramos la conexión entre las tasas de aprendizaje óptimas y los tamaños de lote para optimizadores estilo Adam mediante análisis teóricos y experimentos extensos. Primero, planteamos la ley de escalado entre tamaños de lote y tasas de aprendizaje óptimas en el caso del signo del gradiente, en el cual demostramos que la tasa de aprendizaje óptima primero aumenta y luego disminuye a medida que aumenta el tamaño del lote. Además, el valor máximo del aumento se moverá gradualmente hacia el tamaño de lote más grande a medida que avanza el entrenamiento. En segundo lugar, realizamos experimentos en varias tareas de CV y NLP y verificamos la corrección de la ley de escalado.
Li et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: