Key points are not available for this paper at this time.
Eine der komplexeren Aufgaben für Forscher, die HPC-Systeme verwenden, ist die Leistungsüberwachung und -anpassung ihrer Anwendungen. Die Entwicklung einer Praxis der kontinuierlichen Leistungsverbesserung, sowohl zur Beschleunigung als auch zur effizienten Nutzung von Ressourcen, ist entscheidend für den langfristigen Erfolg sowohl des HPC-Anwenders als auch des Forschungsprojekts. Profiling-Tools bieten eine gute Sicht auf die Leistung einer Anwendung, haben jedoch oft eine steile Lernkurve und bieten selten eine leicht interpretierbare Sicht auf die Ressourcennutzung. Niedrigere Werkzeuge wie top und htop bieten eine Sicht auf die Ressourcennutzung für diejenigen, die mit Linux vertraut und sicher sind, stellen jedoch eine Barriere für neue HPC-Anwender dar. Um die bestehenden Profiling- und Jobüberwachungsoptionen zu erweitern, hat das MIT Lincoln Laboratory Supercomputing Center LLoad entwickelt, ein Werkzeug, das einen Snapshot der Ressourcen erfasst, die von einem Job auf Basis der Benutzer verwendet werden. LLload ist ein Werkzeug, das aus Standard-HPC-Tools entwickelt wurde und Forschern eine einfache Möglichkeit bietet, die Ressourcennutzung aktiver Jobs zu verfolgen. Wir erklären, wie das Werkzeug entworfen und implementiert wurde, und geben Einblicke, wie es neuen Forschern hilft, ihre Fähigkeiten zur Leistungsüberwachung zu entwickeln und sie bei ihren Ressourcenanforderungen zu leiten.
Byun et al. (Mon,) haben diese Frage untersucht.