000855668 001__ 855668 000855668 005__ 20251020082357.0 000855668 0247_ $$2datacite_doi$$a10.18154/RWTH-2022-10349 000855668 037__ $$aRWTH-2022-10349 000855668 041__ $$aEnglish 000855668 082__ $$a004 000855668 1001_ $$0P:(DE-82)888816$$aEckhardt, Jonas$$b0$$urwth 000855668 245__ $$aUsing hardware performance footprints of HPC benchmarks for job embedding$$cJonas Eckhardt$$honline 000855668 246_3 $$aJob Embedding mithilfe von Hardware Performance Charakteristika verschiedener HPC Benchmarks$$yGerman 000855668 260__ $$aAachen$$bRWTH Aachen University$$c2023 000855668 300__ $$a1 Online-Ressource : Illustrationen, Diagramme 000855668 3367_ $$02$$2EndNote$$aThesis 000855668 3367_ $$0PUB:(DE-HGF)19$$2PUB:(DE-HGF)$$aMaster Thesis$$bmaster$$mmaster 000855668 3367_ $$2BibTeX$$aMASTERSTHESIS 000855668 3367_ $$2DRIVER$$amasterThesis 000855668 3367_ $$2DataCite$$aOutput Types/Supervised Student Publication 000855668 3367_ $$2ORCID$$aSUPERVISED_STUDENT_PUBLICATION 000855668 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University 000855668 502__ $$aMasterarbeit, RWTH Aachen University, 2022$$bMasterarbeit$$cRWTH Aachen University$$d2022$$gFak01$$o2022-11-12 000855668 5203_ $$aWährend Hardware-Leistungsindikatoren bereits in modernen Hochleistungsrechnersystemen gesammelt werden, können sie derzeit nur manuell und von Experten in einem meistens zeitaufwändigen Prozess ausgewertet werden. Die automatische Auswertung von Leistungsindikatoren würde die Möglichkeit bieten, diesen Prozess zu beschleunigen und ermöglicht neue Anwendungen wie Jobklassifizierung, automatisches Benutzerfeedback, Überwachung des Systemzustands, automatische Jobkennzeichnung und vieles mehr. Eine automatische Auswertung ist erschwert, weil die gesammelte Daten keine Kennzeichnung (Labelling) besitzen und Klassifizierungsregeln schwer zu definieren sind. Des Weiteren ist die automatische Auswertung beschränkt durch die hohe zeitliche Dimensionalität trotz einer geringen Auflösung, sowie einer hohen Dimensionalität durch die Anzahl der Kerne, Knoten und der gesammelten Hardware-Leistungsindikatoren. Dafür werden in dieser Arbeit gekennzeichnete Daten gesammelt und auf diesen verschiedene statistische Methoden, sowie Autoencoder, Hauptkomponentenanalyse und Feature Agglomeration, zur Reduzierung der Dimensionalität angewandt. Die Qualität wird durch eine überwachten Lernaufgabe bewertet und verglichen, was zu einer begründeten besten Reduzierung der Dimensionalität der gesammelten Daten führt. Das Ziel der Aufgabe besteht darin, anhand der gemessenen Hardware-Leistungsindikatoren mithilfe von neuronalen Netzen, naiven Bayes-Klassifikatoren, Entscheidungsbäumen und Support-Vektor-Maschinen vorherzusagen, welcher von einer Auswahl an Benchmarks ausgeführt wurde. Weil die Dimensionsreduktion abhängig von der zugrunde liegenden Hardware ist, wird ein Framework vorgestellten, dass die beste Reduktion auf zukünftigen Architekturen und für andere Aufgaben findet. Die beste Einbettung reduziert die Dimensionalität mit statistischen Methoden und Feature Agglomeration auf eine Dimension von 20 und ist dennoch in der Lage, die ausgeführte Anwendung mit einer Präzision, Genauigkeit und einem Recall von über 99\% vorherzusagen. Eine Präzision von über 90\% kann durch Einbetten in einen 5-dimensionalen Raum erreicht werden. Darüber hinaus belegen die Ergebnisse, dass die dadurch gewählte Einbettung die k-Means Clustering Qualität um den Faktor sieben bis zwölf verbessert.$$lger 000855668 520__ $$aWhile hardware performance counters are already collected in modern high performance computing systems, they are currently only evaluated manually and by experts in a mostly time consuming process. Automatic evaluation of performance counters gives the opportunity to speed up this process and allows for new applications like job classification, automatic user feedback, system health monitoring, automatic job tagging and many more. The automatic evaluation is hampered by the lack of labelled data and hard to define classification rules. In addition the automatic evaluation is limited by the high temporal dimensionality, even with a low resolution, as well as high dimensionality caused by the number of cores, nodes and collected hardware performance counters. Therefore, in this work, labelled data is collected and different statistical dimensionality reduction methods as well as autoencoder, principal component analysis and feature agglomeration are applied. The quality is evaluated based on the results of a supervised learning task, leading to a justified best reduction of the collected data. The goal of the task is to predict which, of a given sets of benchmarks, was run based on the measured hardware performance indicators, using neural networks, naive bayes classifier, decision trees and support vector machines. The quality is compared, based on quality metrics of the task, resulting in the reasoned best dimensionality reduction. Since the dimensionality reduction is dependent on the underlying architecture, a framework to recalculate the best reduction for future architectures and other tasks is presented. The presented embedding reduces the dimensionality with statistical methods and feature agglomeration down to a dimension of 20, while still being capable of predicting the executed workload with a precision, accuracy and recall of above 99\%. A precision of above 90\% can be achieved with an embedding into five dimensional space. In addition the results prove that the thereby chosen embedding improves unsupervised k-Means clustering quality by a factor of seven to twelfth.$$leng 000855668 591__ $$aGermany 000855668 7001_ $$0P:(DE-82)IDM01074$$aMüller, Matthias S.$$b1$$eThesis advisor$$urwth 000855668 7001_ $$0P:(DE-82)128244$$aSchulz, Martin$$b2$$eThesis advisor 000855668 7001_ $$0P:(DE-82)698565$$aSchürhoff, Daniel$$b3$$eConsultant$$urwth 000855668 8564_ $$uhttps://publications.rwth-aachen.de/record/855668/files/855668.pdf$$yOpenAccess 000855668 8564_ $$uhttps://publications.rwth-aachen.de/record/855668/files/855668_source.zip$$yRestricted 000855668 909CO $$ooai:publications.rwth-aachen.de:855668$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery 000855668 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)888816$$aRWTH Aachen$$b0$$kRWTH 000855668 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01074$$aRWTH Aachen$$b1$$kRWTH 000855668 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)698565$$aRWTH Aachen$$b3$$kRWTH 000855668 9141_ $$y2023 000855668 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess 000855668 9201_ $$0I:(DE-82)123010_20140620$$k123010$$lLehrstuhl für Informatik 12 (Hochleistungsrechnen)$$x0 000855668 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1 000855668 961__ $$c2023-01-24T11:09:07.976094$$x2022-11-14T19:01:58.150391$$z2023-01-24T11:09:07.976094 000855668 9801_ $$aFullTexts 000855668 980__ $$aI:(DE-82)120000_20140620 000855668 980__ $$aI:(DE-82)123010_20140620 000855668 980__ $$aUNRESTRICTED 000855668 980__ $$aVDB 000855668 980__ $$amaster