Key points are not available for this paper at this time.
Les réseaux de neurones profonds modernes nécessitent souvent une formation distribuée avec de nombreux travailleurs en raison de leur grande taille. À mesure que le nombre de travailleurs augmente, les surcoûts de communication deviennent le principal goulot d'étranglement dans les méthodes de gradient stochastique en mini-lots avec synchronisation du gradient par itération. Les méthodes de gradient local, comme le SGD local, réduisent la communication en synchronisant uniquement après plusieurs étapes locales. Malgré notre compréhension de leur convergence dans des paramètres indépendants identiquement distribués (i.i.d.) et hétérogènes, et la connaissance de l'importance des tailles de lot pour l'efficacité et la généralisation, il est difficile de déterminer les tailles de lot locales optimales. Nous introduisons des stratégies de taille de lot adaptatives pour les méthodes de gradient local qui augmentent les tailles de lot de manière adaptative afin de réduire la variance du gradient en mini-lots. Nous fournissons des garanties de convergence dans des conditions de données homogènes et soutenons nos affirmations par des expériences de classification d'images, démontrant l'efficacité de nos stratégies en matière de formation et de généralisation.
Lau et al. (Mer,) ont étudié cette question.