Key points are not available for this paper at this time.
Die Trainingszeit auf großen Datensätzen für tiefe neuronale Netze ist der Hauptengpass im Arbeitsablauf bei einer Reihe wichtiger Anwendungen des Deep Learning, wie der Objekterkennung und -klassifizierung in automatischen Fahrerassistenzsystemen (ADAS). Um die Trainingszeit zu minimieren, muss das Training eines tiefen neuronalen Netzes über eine einzelne Maschine hinaus auf so viele Maschinen wie möglich skaliert werden, indem die verwendete Optimierungsmethode für das Training verteilt wird. Während mehrere Ansätze für verteilten stochastischen Gradientenabstieg (SGD) vorgeschlagen wurden, scheinen derzeit synchrone Ansätze für verteilten SGD die beste Leistung im großen Maßstab zu zeigen. Die synchrone Skalierung von SGD leidet unter der Notwendigkeit, alle Prozessoren bei jedem Gradienten-Schritt zu synchronisieren, und ist nicht resilient gegenüber fehlerhaften oder verzögerten Prozessoren. In asynchronen Ansätzen, die Parameterserver verwenden, wird das Training durch den Wettbewerb um den Parameterserver verlangsamt. In diesem Papier vergleichen wir die Konvergenz von synchronem und asynchronem SGD beim Training einer modernen ResNet-Netzwerkanalyse zur ImageNet-Klassifikationsaufgabe. Wir schlagen auch eine asynchrone Methode, das Gossiping-SGD, vor, die darauf abzielt, die positiven Merkmale beider Systeme zu erhalten, indem die All-Reduce-Kollektivoperation des synchronen Trainings durch einen Gossip-Aggregationsalgorithmus ersetzt wird. Wir stellen fest, dass asynchrones SGD, einschließlich elastischer Durchschnittsbildung und Gossiping, vielleicht kontraintuitiv, schneller bei weniger Knoten (bis zu etwa 32 Knoten) konvergiert, während synchrones SGD besser auf mehr Knoten (bis zu etwa 100 Knoten) skaliert.
Jin et al. (Mon,) haben diese Frage untersucht.