L'optimisation minimax suscite de plus en plus d'attention dans les applications modernes d'apprentissage automatique. Poussés par des modèles à grande échelle et des volumes massifs de données collectées à partir de dispositifs périphériques, ainsi que par la préoccupation de préserver la confidentialité des clients, les algorithmes d'optimisation minimax distribuée deviennent populaires, tels que la Descente de Gradient Stochastique Ascent Local (Local-SGDA) et la SGDA Décentralisée Locale (Local-DSGDA). Alors que la plupart des recherches existantes sur les algorithmes minimax distribués se concentrent sur les taux de convergence et l'efficacité de la communication, leur performance de généralisation reste largement inexplorée, alors que la capacité de généralisation est un indicateur pivot pour évaluer la performance globale d'un modèle lorsqu'il est alimenté avec des données inconnues. Dans cet article, nous proposons un cadre analytique de généralisation basé sur la stabilité pour SGDA Distribué, qui unifie deux algorithmes minimax distribués populaires comprenant Local-SGDA et Local-DSGDA, et réalisons une analyse complète de l'erreur de stabilité, du fossé de généralisation et du risque populationnel à travers différents métriques sous divers paramètres, par exemple, les cas (S)C-(S)C, PL-SC, et NC-NC. Nos résultats théoriques révèlent le compromis entre le fossé de généralisation et l'erreur d'optimisation et suggèrent un choix d'hyperparamètres pour obtenir le risque populationnel optimal. Des expériences numériques pour Local-SGDA et Local-DSGDA valident les résultats théoriques.
Zhu et al. (Jeu,) ont étudié cette question.