Key points are not available for this paper at this time.
La partition de graphes est couramment utilisée pour diviser les données de graphes pour un traitement parallèle. Bien qu'elles atteignent de bonnes performances pour les algorithmes traditionnels de traitement des graphes, les méthodes de partition de graphes existantes sont insatisfaisantes pour l'entraînement parallèle de GNN sur GPU. Dans ce travail, nous reconsidérons le problème de placement des données de graphes pour l'entraînement à grande échelle des GNN sur plusieurs GPU. Nous constatons que le chargement des caractéristiques d'entrée constitue un goulot d'étranglement pour l'entraînement des GNN sur de grands graphes qui ne peuvent pas être stockés sur le GPU. Pour réduire les surcoûts de chargement des données, nous proposons d'abord un modèle de performance du mouvement des données entre le CPU et les GPU lors de l'entraînement des GNN. Ensuite, sur la base du modèle de performance, nous fournissons un algorithme efficient pour diviser et distribuer les données de graphes sur plusieurs GPU de façon à minimiser le temps de chargement des données. Pour les cas où le simple placement des données ne peut pas atteindre de bonnes performances, nous proposons une technique d'échantillonnage de voisins sensible à la localité pour réduire davantage les surcoûts de mouvement des données sans perdre en précision. Nos expériences avec des graphes de tailles différentes sur différents nombres de GPU montrent que nos techniques permettent non seulement de réduire le temps de chargement des données, mais également d'engendrer beaucoup moins de surcoûts de prétraitement que les méthodes de partition de graphes existantes.
Song et al. (Jeu,) ont étudié cette question.