Machbarkeitsstudie für die Erkennung von verschiedenen Job Abschnitten mittels eines System Monitoring Daemons

Roigk, Julia; Müller, Matthias S.; Schulz, Martin; Schürhoff, Daniel

doi:10.18154/RWTH-2022-05444

Machbarkeitsstudie für die Erkennung von verschiedenen Job Abschnitten mittels eines System Monitoring Daemons = Feasibility study for detecting different job stages using a System Monitoring Daemon

Roigk, Julia^RWTH*

2022

VerantwortlichkeitsangabeJulia Roigk

ImpressumAachen : RWTH Aachen University 2022

Umfang1 Online-Ressource : Illustrationen

Masterarbeit, RWTH Aachen University, 2022

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Müller, Matthias S. (Thesis advisor)^RWTH* ; Schulz, Martin (Thesis advisor) ; Schürhoff, Daniel (Consultant)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2022-02-02

Online
DOI: 10.18154/RWTH-2022-05444
URL: https://publications.rwth-aachen.de/record/847575/files/847575.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Benchmark Testing (frei) ; HPC (frei) ; Hardware Performance Monitoring (frei) ; OpenMP (frei) ; Parallel Computing (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Hochleistungsrechencluster sind leistungsstark aber teuer in Anschaffung und Betrieb, was die effiziente Nutzung der verfügbaren Ressourcen unverzichtbar macht. Auf den CLAIX Hochleistungsrechnern an der RWTH Aachen geschieht dies durch ein nicht-invasives Hintergrundmonitoring mithilfe eines Systemdaemons. Diese Monitoringdaten werden aktuell lediglich statistisch betrachtet, und zwei Aspekte des Hardware Performance Monitorings wurden bisher nur wenig untersucht: der Informationsgehalt der Rohdaten, sowie die Auswirkung der Monitoringauflösung auf die Softwareperformance. Es ist nicht klar, inwieweit die Rohdaten den aktuellen Analyseprozess erweitern können, und ob die aktuelle zeitliche Auflösung der Daten ausreichend ist, um interessante Muster abzubilden. Daher untersucht die vorliegende Arbeit, ob man diese Daten in verschiedenen Auflösungen verwenden kann, um verschiedene Jobabschnitte mit distinkten Ressourcenverwendungsprofilen zu erkennen. Wir beginnen damit, die Performanceeinbußen verschiedener Monitoringfrequenzen zu untersuchen. Die Messungen werden auf einem separaten CLAIX-2018 Clusterknoten vorgenommen, auf dem eine lokale Instanz des Monitoringsetups läuft. So können Änderungen direkt vorgenommen werden, ohne das Produktivsystem zu beeinflussen. In einem zweiten Schritt untersuchen wir die Ausprägung von Jobabschnitten in den Monitoringdaten unter der Verwendung verschiedener Monitoringfrequenzen. Mithilfe der daraus gewonnenen Erkenntnissen etablieren wir ein Regelset, mit dem Jobabschnitte sowie periodische Ressourcenauslastung erkannt werden können. Wir implementieren Filter auf Basis dieses Regelsets und wenden diese auf die gesammelten Monitoringdaten aus dem Zeitraum Januar bis Oktober 2021 an, um so Jobs mit distinkten Abschnitten zu finden. Zusätzlich beschreiben wir eine Möglichkeit, adaptiv die Monitoringfrequenz anzupassen. Dies erlaubt Jobs gezielt näher zu beobachten, ohne die signifkanten Performanceeinbußen in Kauf nehmen zu müssen, die mit engmaschigerem Monitoring einhergehen.

High Performance Computing clusters are powerful but expensive, which makes ensuring efficient resource usage vital. On the CLAIX systems at the RWTH Aachen, this is done through non-invasive background monitoring using a system monitoring daemon. While this data is currently being analyzed with statistical means, two aspects of the hardware performance monitoring have not yet been explored: the information inherent in the raw time series data, and the impact of the monitoring resolution. Vital information on the make-up and resource usage of jobs on the cluster may thus be left out. The extent to which the raw time series data can be used to supplement the existing analysis process is unclear, and equally unclear is if the monitoring resolution is sufficient to detect interesting patterns. Thus, this thesis investigates the feasibility of utilizing this data on the basis of time intervals exhibiting distinct usage profiles, called "job stages". We start by examining the cost of different monitoring frequencies. For this, we measure the run time and evaluate performance reports for a set of established parallel benchmarks. In a second step, we explore the expression of job stages in the performance monitoring data when using different monitoring frequencies. We implement an application exhibiting known and distinct resource usage patterns and compare the output of the hardware performance monitoring between the different monitoring frequencies. This knowledge is then combined into a rule set to detects stages and periodically repeating patterns in the monitoring data. We implement a filter based on this rule set and filter the performance monitoring data collected between January and October of 2021 for jobs exhibiting stages. Additionally, an adaptive approach regarding the monitoring resolution is described. This could enable targeted closer monitoring without incurring significant slowdowns by implementing more frequent monitoring across the entire cluster.

OpenAccess:
PDF
(additional files)