June 29, 2009

Une comparaison des approches pour l'analyse de données à grande échelle

Key Points

Key points are not available for this paper at this time.

Abstract

Actuellement, il existe un intérêt considérable pour le paradigme MapReduce (MR) pour l'analyse de données à grande échelle 17. Bien que le flux de contrôle de base de ce cadre existe dans des systèmes de gestion de base de données SQL parallèles (DBMS) depuis plus de 20 ans, certains ont qualifié le MR de modèle informatique radicalement nouveau 8, 17. Dans cet article, nous décrivons et comparons les deux paradigmes. De plus, nous évaluons les deux types de systèmes en termes de performance et de complexité de développement. À cette fin, nous définissons une référence consistant en une collection de tâches que nous avons exécutées sur une version open source de MR ainsi que sur deux DBMS parallèles. Pour chaque tâche, nous mesurons la performance de chaque système pour divers degrés de parallélisme sur un cluster de 100 nœuds. Nos résultats révèlent des compromis intéressants. Bien que le processus de chargement des données et d'ajustement de l'exécution des DBMS parallèles ait pris beaucoup plus de temps que le système MR, la performance observée de ces DBMS était nettement meilleure. Nous spéculons sur les causes de cette différence de performance spectaculaire et considérons les concepts d'implémentation que les futurs systèmes devraient tirer des deux types d'architectures.

Bookmark

Une comparaison des approches pour l'analyse de données à grande échelle

Key Points

Abstract

Cite This Study