Los puntos clave no están disponibles para este artículo en este momento.
Los algoritmos de gradiente adaptativo han sido ampliamente adoptados en el entrenamiento de redes neuronales profundas a gran escala, especialmente modelos fundacionales grandes. A pesar de su gran éxito en la práctica, sus ventajas teóricas sobre el descenso de gradiente estocástico (SGD) no se han entendido completamente, especialmente en la configuración de tamaño de lote grande comúnmente utilizada en la práctica. Esto se debe a que el único resultado teórico que puede demostrar el beneficio de Adagrad sobre SGD se obtuvo en el artículo original de Adagrad para funciones objetivo no suaves. Sin embargo, para funciones objetivo no suaves, puede haber una desaceleración lineal de la convergencia cuando aumenta el tamaño del lote, y por lo tanto, un análisis de convergencia basado en la suposición de no suavidad no puede ser utilizado para algoritmos de lote grande. En este trabajo, resolvemos esta brecha entre teoría y práctica proporcionando un nuevo análisis de Adagrad tanto en objetivos suaves convexos como no convexos adecuados para la configuración de lote grande. Se muestra que bajo las condiciones de suavidad anisotrópica y ruido, el aumento del tamaño del lote no desacelera la convergencia para Adagrad, y por lo tanto, aún puede lograr una garantía de convergencia más rápida sobre SGD incluso en la configuración de lote grande. Presentamos comparaciones detalladas entre SGD y Adagrad para proporcionar una mejor comprensión de los beneficios de los métodos de gradiente adaptativo. Los experimentos en regresión logística y tareas de ajuste fino de seguimiento de instrucciones proporcionan evidencia sólida para respaldar nuestro análisis teórico.
Liu et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: