Key points are not available for this paper at this time.
Nous considérons la minimisation de fonctions objectif à somme finie et d'attentes via des méthodes de Newton sous-échantillonnées basées sur l'average de Hessien. Ces méthodes permettent une inexactitude du gradient et ont des coûts d'approximation de Hessien fixes par itération. Les travaux récents (Na et al. 2023) ont démontré que l'average de Hessien peut être utilisé pour atteindre une convergence superlinéaire locale rapide O (k{k}) pour des fonctions fortement convexes avec une forte probabilité, tout en maintenant des coûts de Hessien fixes par itération. Cependant, ces méthodes nécessitent une exactitude du gradient et une convexité forte, ce qui pose des défis pour leur mise en œuvre pratique. Pour répondre à cette préoccupation, nous considérons des méthodes basées sur l'average de Hessien qui permettent une inexactitude du gradient via des stratégies d'échantillonnage adaptatif basées sur des conditions de norme. Pour le problème de somme finie, nous utilisons des techniques d'échantillonnage déterministes qui conduisent à des taux de convergence linéaires et sublinéaires globaux pour des fonctions fortement convexes et non convexes respectivement. Dans ce cadre, nous sommes en mesure de dériver un taux de convergence superlinéaire local déterministe amélioré de O (1k). Pour le problème d'attente de risque attendu, nous utilisons des techniques d'échantillonnage stochastique et dérivons des taux globaux linéaires et sublinéaires pour des fonctions fortement convexes et non convexes, ainsi qu'un taux de convergence superlinéaire local O (1k), le tout en espérance. Nous présentons des techniques d'analyse novatrices qui diffèrent des résultats probabilistes précédents. De plus, nous proposons des variations évolutives et efficaces de ces méthodes via des approximations diagonales et dérivons la nouvelle méthode de Newton à average diagonal (Dan) pour des problèmes à grande échelle. Nos résultats numériques montrent que l'average de Hessien aide non seulement à la convergence, mais peut également conduire à des performances à la pointe de la technologie sur des problèmes difficiles tels que la classification CIFAR100 avec des ResNets.
O’Leary-Roseberry et al. (Mar,) ont étudié cette question.