Using hardware performance footprints of HPC benchmarks for job embedding

Eckhardt, Jonas; Müller, Matthias S.; Schulz, Martin; Schürhoff, Daniel

doi:10.18154/RWTH-2022-10349

Using hardware performance footprints of HPC benchmarks for job embedding = Job Embedding mithilfe von Hardware Performance Charakteristika verschiedener HPC Benchmarks

Eckhardt, Jonas^RWTH*

2023

VerantwortlichkeitsangabeJonas Eckhardt

ImpressumAachen : RWTH Aachen University 2023

Umfang1 Online-Ressource : Illustrationen, Diagramme

Masterarbeit, RWTH Aachen University, 2022

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Müller, Matthias S. (Thesis advisor)^RWTH* ; Schulz, Martin (Thesis advisor) ; Schürhoff, Daniel (Consultant)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2022-11-12

Online
DOI: 10.18154/RWTH-2022-10349
URL: https://publications.rwth-aachen.de/record/855668/files/855668.pdf

Einrichtungen

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Während Hardware-Leistungsindikatoren bereits in modernen Hochleistungsrechnersystemen gesammelt werden, können sie derzeit nur manuell und von Experten in einem meistens zeitaufwändigen Prozess ausgewertet werden. Die automatische Auswertung von Leistungsindikatoren würde die Möglichkeit bieten, diesen Prozess zu beschleunigen und ermöglicht neue Anwendungen wie Jobklassifizierung, automatisches Benutzerfeedback, Überwachung des Systemzustands, automatische Jobkennzeichnung und vieles mehr. Eine automatische Auswertung ist erschwert, weil die gesammelte Daten keine Kennzeichnung (Labelling) besitzen und Klassifizierungsregeln schwer zu definieren sind. Des Weiteren ist die automatische Auswertung beschränkt durch die hohe zeitliche Dimensionalität trotz einer geringen Auflösung, sowie einer hohen Dimensionalität durch die Anzahl der Kerne, Knoten und der gesammelten Hardware-Leistungsindikatoren. Dafür werden in dieser Arbeit gekennzeichnete Daten gesammelt und auf diesen verschiedene statistische Methoden, sowie Autoencoder, Hauptkomponentenanalyse und Feature Agglomeration, zur Reduzierung der Dimensionalität angewandt. Die Qualität wird durch eine überwachten Lernaufgabe bewertet und verglichen, was zu einer begründeten besten Reduzierung der Dimensionalität der gesammelten Daten führt. Das Ziel der Aufgabe besteht darin, anhand der gemessenen Hardware-Leistungsindikatoren mithilfe von neuronalen Netzen, naiven Bayes-Klassifikatoren, Entscheidungsbäumen und Support-Vektor-Maschinen vorherzusagen, welcher von einer Auswahl an Benchmarks ausgeführt wurde. Weil die Dimensionsreduktion abhängig von der zugrunde liegenden Hardware ist, wird ein Framework vorgestellten, dass die beste Reduktion auf zukünftigen Architekturen und für andere Aufgaben findet. Die beste Einbettung reduziert die Dimensionalität mit statistischen Methoden und Feature Agglomeration auf eine Dimension von 20 und ist dennoch in der Lage, die ausgeführte Anwendung mit einer Präzision, Genauigkeit und einem Recall von über 99\% vorherzusagen. Eine Präzision von über 90\% kann durch Einbetten in einen 5-dimensionalen Raum erreicht werden. Darüber hinaus belegen die Ergebnisse, dass die dadurch gewählte Einbettung die k-Means Clustering Qualität um den Faktor sieben bis zwölf verbessert.

While hardware performance counters are already collected in modern high performance computing systems, they are currently only evaluated manually and by experts in a mostly time consuming process. Automatic evaluation of performance counters gives the opportunity to speed up this process and allows for new applications like job classification, automatic user feedback, system health monitoring, automatic job tagging and many more. The automatic evaluation is hampered by the lack of labelled data and hard to define classification rules. In addition the automatic evaluation is limited by the high temporal dimensionality, even with a low resolution, as well as high dimensionality caused by the number of cores, nodes and collected hardware performance counters. Therefore, in this work, labelled data is collected and different statistical dimensionality reduction methods as well as autoencoder, principal component analysis and feature agglomeration are applied. The quality is evaluated based on the results of a supervised learning task, leading to a justified best reduction of the collected data. The goal of the task is to predict which, of a given sets of benchmarks, was run based on the measured hardware performance indicators, using neural networks, naive bayes classifier, decision trees and support vector machines. The quality is compared, based on quality metrics of the task, resulting in the reasoned best dimensionality reduction. Since the dimensionality reduction is dependent on the underlying architecture, a framework to recalculate the best reduction for future architectures and other tasks is presented. The presented embedding reduces the dimensionality with statistical methods and feature agglomeration down to a dimension of 20, while still being capable of predicting the executed workload with a precision, accuracy and recall of above 99\%. A precision of above 90\% can be achieved with an embedding into five dimensional space. In addition the results prove that the thereby chosen embedding improves unsupervised k-Means clustering quality by a factor of seven to twelfth.

OpenAccess:
PDF
(additional files)