Key points are not available for this paper at this time.
La communication collective prenant en compte les GPU est devenue un goulot d'étranglement majeur pour les plateformes de calcul modernes alors que la puissance de calcul des GPU augmente rapidement. Une approche traditionnelle consiste à intégrer directement une compression avec perte dans les collectifs prenant en compte les GPU, ce qui peut entraîner des problèmes de performance graves tels que des dispositifs GPU sous-utilisés et une distorsion des données incontrôlée. Afin de résoudre ces problèmes, dans cet article, nous proposons gZCCL, un cadre général inédit qui conçoit et optimise des collectifs prenant en compte les GPU, habilités à la compression, avec une conception sensible à la précision pour contrôler la propagation des erreurs. Pour valider notre cadre, nous évaluons la performance sur jusqu'à 512 GPU NVIDIA A100 avec des applications et des ensembles de données du monde réel. Les résultats expérimentaux montrent que nos collectifs accélérés par gZCCL, y compris à la fois le calcul collectif (Allreduce) et le mouvement de données collective (Scatter), peuvent surpasser NCCL ainsi que Cray MPI jusqu'à 4,5 × et 28,7 ×, respectivement. De plus, notre évaluation de la précision avec une application de superposition d'images confirme la haute qualité des données reconstruites de notre cadre sensible à la précision.
Huang et al. (jeu,) ont étudié cette question.