Key points are not available for this paper at this time.
MapReduce entwickelt sich zu einem wichtigen Programmiermodell für groß angelegte datenparallele Anwendungen wie Web-Indexierung, Data Mining und wissenschaftliche Simulation. Hadoop ist eine Open-Source-Implementierung von MapReduce, die weit verbreitet ist und oft für kurze Jobs verwendet wird, bei denen geringe Antwortzeiten entscheidend sind. Die Leistung von Hadoop hängt eng mit seinem Task-Scheduler zusammen, der implizit davon ausgeht, dass die Clusterknoten homogen sind und die Aufgaben linear vorankommen, und nutzt diese Annahmen, um zu entscheiden, wann Aufgaben, die als Nachzügler erscheinen, spekulativ erneut ausgeführt werden sollen. In der Praxis halten die Homogenitätsannahmen nicht immer stand. Ein besonders überzeugendes Szenario, in dem dies auftritt, ist ein virtualisiertes Rechenzentrum, wie beispielsweise Amazons Elastic Compute Cloud (EC2). Wir zeigen, dass der Scheduler von Hadoop in heterogenen Umgebungen zu schwerwiegenden Leistungsverschlechterungen führen kann. Wir entwerfen einen neuen Scheduling-Algorithmus, den Longest Approximate Time to End (LATE), der sowohl einfach als auch äußerst robust gegenüber Heterogenität ist. LATE kann die Antwortzeiten von Hadoop in 200-Knoten-Clustern auf EC2 um den Faktor 2 verbessern.
Zaharia et al. (Mon,) haben diese Frage untersucht.