h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Exploring transfer learning for predicting I/O time across systems = Untersuchung von Transfer Learning zur Vorhersage von I/O Zeiten verschiedener Systeme



VerantwortlichkeitsangabeAdrian Voß

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource: Illustrationen


Masterarbeit, RWTH Aachen University, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
; ;

Tag der mündlichen Prüfung/Habilitation
2024-09-27

Online
DOI: 10.18154/RWTH-2024-09250
URL: https://publications.rwth-aachen.de/record/994335/files/994335.pdf

Einrichtungen

  1. Lehrstuhl für Hochleistungsrechnen (Informatik 12) (123010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
HPC (frei) ; I/O (frei) ; deep learning (frei) ; explainable AI (frei) ; machine learning (frei) ; transfer learning (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die Transition von Petascale zu Exascale Systemen erfordert mehr denn je, dass die HPC Forschung I/O Performance untersucht, um sowohl Anwendungsentwickler als auch Systembesitzer darin zu unterstützen, die bestmögliche Leistung zu erreichen. Zusätzlich zum Verhalten verschiedener Anwendungen kommen hierbei Stauungseffekte, globales I/O Wetter und Systemrauschen ins Spiel. Jüngste Resultate wie [6] und [5]von Isakov et al. demonstrieren, dass Machine Learning basierte Modellierung ein viel versprechendes Werkzeug ist um diese Komplexität zu bewältigen. Andererseits benötigt der Ansatz von Isakov et al. große Mengen an Trainingsdaten, weshalb Dmytro Povaliaev in seiner Masterarbeit [15] einen Transfer Learning Ansatz vor-schlägt. Durch diese bisheringe Arbeiten motiviert zeige ich einen neuartigen DeepDive Workflow, der es erlaubt, die Qualität der Vorhersagen eines Modell auf der Ebene von einzelnen Anwendungen oder sogar niedriger zu analysieren. Zusätzlicher mögliche die Integration von Explainable AI Algorithmen dem Anwender diese Workflows detaillierte Einsichten in die I/O Muster, welche das Modell gelernt hat. Unter Einsatz dieses Workflows demonstriere ich, dass mein Modell in der Lage ist, die Zeit die weithin genutzte HCP Applikationen mit I/O verbringen mit einer Genauigkeit vorherzusagen, welche von Experten in dieser Domäne wie auch System-besitzern als praxistauglich angesehen wird. Zuletzt ermöglicht es mein Workflow auch, unzureichende Vorhersagen zu isolieren und durch ein Fine Tuning des Modells zu verbessern.

The transition from petascale to exascale systems requires HPC research to investigate I/O performance more than ever before to assist application developers as well as system owners to achieve the best possible performance. In addition to the behaviours of different applications the congestion effects, global I/O weather and system noise come into play. Recent results such as [6] and [5] by Isakov et al. demonstrate that Machine Learning based modeling is a promising tool to cope with this complexity. However, the approach by Isakov et al. requires large amounts of training data which is the reason why Dmytro Povaliaev proposes a transfer learning approach in his master thesis [15]. Motivated by the mentioned previous work, I show a novel deep dive analysis workflow which allows to analyse the predictions quality of a model on the level of individual applications or even lower. Additionally, the integration of explainable AI algorithms enables the practitioner of this workflow to gain detailed insights into the I/O patterns the model has learned. Using this workflow I demonstrate that my model is able to predict the time widely used HPC applications spent on I/O with an accuracy that is considered to be usable in practice by domain experts and system owners. Finally, my workflow allows to isolate insufficient predictions and improve them by further fine tuning the model.

OpenAccess:
Download fulltext PDF

Dokumenttyp
Master Thesis

Format
online

Sprache
English

Interne Identnummern
RWTH-2024-09250
Datensatz-ID: 994335

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Master Theses
Publication server / Open Access
Faculty of Computer Science (Fac.9)
Public records
Publications database
120000
123010

 Record created 2024-10-04, last modified 2025-10-20


OpenAccess:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)