2024
Masterarbeit, RWTH Aachen University, 2024
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
; ;
Tag der mündlichen Prüfung/Habilitation
2024-09-27
Online
DOI: 10.18154/RWTH-2024-09250
URL: https://publications.rwth-aachen.de/record/994335/files/994335.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
HPC (frei) ; I/O (frei) ; deep learning (frei) ; explainable AI (frei) ; machine learning (frei) ; transfer learning (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Die Transition von Petascale zu Exascale Systemen erfordert mehr denn je, dass die HPC Forschung I/O Performance untersucht, um sowohl Anwendungsentwickler als auch Systembesitzer darin zu unterstützen, die bestmögliche Leistung zu erreichen. Zusätzlich zum Verhalten verschiedener Anwendungen kommen hierbei Stauungseffekte, globales I/O Wetter und Systemrauschen ins Spiel. Jüngste Resultate wie [6] und [5]von Isakov et al. demonstrieren, dass Machine Learning basierte Modellierung ein viel versprechendes Werkzeug ist um diese Komplexität zu bewältigen. Andererseits benötigt der Ansatz von Isakov et al. große Mengen an Trainingsdaten, weshalb Dmytro Povaliaev in seiner Masterarbeit [15] einen Transfer Learning Ansatz vor-schlägt. Durch diese bisheringe Arbeiten motiviert zeige ich einen neuartigen DeepDive Workflow, der es erlaubt, die Qualität der Vorhersagen eines Modell auf der Ebene von einzelnen Anwendungen oder sogar niedriger zu analysieren. Zusätzlicher mögliche die Integration von Explainable AI Algorithmen dem Anwender diese Workflows detaillierte Einsichten in die I/O Muster, welche das Modell gelernt hat. Unter Einsatz dieses Workflows demonstriere ich, dass mein Modell in der Lage ist, die Zeit die weithin genutzte HCP Applikationen mit I/O verbringen mit einer Genauigkeit vorherzusagen, welche von Experten in dieser Domäne wie auch System-besitzern als praxistauglich angesehen wird. Zuletzt ermöglicht es mein Workflow auch, unzureichende Vorhersagen zu isolieren und durch ein Fine Tuning des Modells zu verbessern.The transition from petascale to exascale systems requires HPC research to investigate I/O performance more than ever before to assist application developers as well as system owners to achieve the best possible performance. In addition to the behaviours of different applications the congestion effects, global I/O weather and system noise come into play. Recent results such as [6] and [5] by Isakov et al. demonstrate that Machine Learning based modeling is a promising tool to cope with this complexity. However, the approach by Isakov et al. requires large amounts of training data which is the reason why Dmytro Povaliaev proposes a transfer learning approach in his master thesis [15]. Motivated by the mentioned previous work, I show a novel deep dive analysis workflow which allows to analyse the predictions quality of a model on the level of individual applications or even lower. Additionally, the integration of explainable AI algorithms enables the practitioner of this workflow to gain detailed insights into the I/O patterns the model has learned. Using this workflow I demonstrate that my model is able to predict the time widely used HPC applications spent on I/O with an accuracy that is considered to be usable in practice by domain experts and system owners. Finally, my workflow allows to isolate insufficient predictions and improve them by further fine tuning the model.
OpenAccess:
PDF
Dokumenttyp
Master Thesis
Format
online
Sprache
English
Interne Identnummern
RWTH-2024-09250
Datensatz-ID: 994335
Beteiligte Länder
Germany
|
The record appears in these collections: |