Key points are not available for this paper at this time.
Das MapReduce-Framework wird zunehmend verwendet, um große Datenmengen zu analysieren. Eine wichtige Art der Datenanalyse, die mit MapReduce durchgeführt wird, ist die Protokollverarbeitung, bei der ein Klickstrom oder ein Ereignisprotokoll gefiltert, aggregiert oder auf Muster untersucht wird. Im Rahmen dieser Analyse muss das Protokoll häufig mit Referenzdaten, wie Informationen über Benutzer, verknüpft werden. Obwohl es viele Studien gibt, die Join-Algorithmen in parallelen und verteilten DBMS untersuchen, ist das MapReduce-Framework für Joins umständlich. MapReduce-Programmierer verwenden häufig einfache, aber ineffiziente Algorithmen, um Joins durchzuführen. In diesem Papier beschreiben wir entscheidende Implementierungsdetails einer Reihe bekannter Join-Strategien in MapReduce und präsentieren einen umfassenden experimentellen Vergleich dieser Join-Techniken auf einem 100-Knoten-Hadoop-Cluster. Unsere Ergebnisse bieten Einblicke, die für die MapReduce-Plattform einzigartig sind, und geben Hinweise darauf, wann ein bestimmter Join-Algorithmus auf dieser Plattform verwendet werden sollte.
Blanas et al. (Sun,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: