Ein Vergleich von Join-Algorithmen zur Protokollverarbeitung in MaPreduce

Key Points

Key points are not available for this paper at this time.

Abstract

Das MapReduce-Framework wird zunehmend verwendet, um große Datenmengen zu analysieren. Eine wichtige Art der Datenanalyse, die mit MapReduce durchgeführt wird, ist die Protokollverarbeitung, bei der ein Klickstrom oder ein Ereignisprotokoll gefiltert, aggregiert oder auf Muster untersucht wird. Im Rahmen dieser Analyse muss das Protokoll häufig mit Referenzdaten, wie Informationen über Benutzer, verknüpft werden. Obwohl es viele Studien gibt, die Join-Algorithmen in parallelen und verteilten DBMS untersuchen, ist das MapReduce-Framework für Joins umständlich. MapReduce-Programmierer verwenden häufig einfache, aber ineffiziente Algorithmen, um Joins durchzuführen. In diesem Papier beschreiben wir entscheidende Implementierungsdetails einer Reihe bekannter Join-Strategien in MapReduce und präsentieren einen umfassenden experimentellen Vergleich dieser Join-Techniken auf einem 100-Knoten-Hadoop-Cluster. Unsere Ergebnisse bieten Einblicke, die für die MapReduce-Plattform einzigartig sind, und geben Hinweise darauf, wann ein bestimmter Join-Algorithmus auf dieser Plattform verwendet werden sollte.

Bookmark

Ein Vergleich von Join-Algorithmen zur Protokollverarbeitung in MaPreduce

Key Points

Abstract

Cite This Study

Also Consider

Also Consider