Evaluierung von Optimierungsstrategien zur Datensatzspeicherung für machinelles Lernen auf HPC Systemen

Mainka, Irmin; Kunkel, Julian; Müller, Matthias S.; Viehhauser, Dominik

doi:10.18154/RWTH-2025-03758

Evaluierung von Optimierungsstrategien zur Datensatzspeicherung für machinelles Lernen auf HPC Systemen = Evaluating Optimization Strategies for Dataset Storage for Machine Learning Workloads on HPC Systems

Mainka, Irmin^RWTH*

2025

VerantwortlichkeitsangabeIrmin Mainka

ImpressumAachen : RWTH Aachen University 2025

Umfang1 Online-Ressource : Illustrationen

Bachelorarbeit, RWTH Aachen University, 2025

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Müller, Matthias S. (Thesis advisor)^RWTH* ; Kunkel, Julian (Thesis advisor) ; Viehhauser, Dominik (Consultant)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2025-03-17

Online
DOI: 10.18154/RWTH-2025-03758
URL: https://publications.rwth-aachen.de/record/1009964/files/1009964.pdf

Einrichtungen

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Traditionelle Datensätze zum Trainieren von Modellen für maschinelles Lernen lie-gen oft in Form von riesigen Mengen kleiner Dateien vor. Diese Eigenschaft dieserDatensätze ist jedoch unvorteilhaft für ihre weitverbreitete Verwendung auf HPCSystemen. Der Grund hierfür ist, dass solche Systeme oft parallele Dateisystemeverwenden welche für diese Art von Datensätzen nicht ausgelegt sind. Verschiedenealternative Strategien um diese Datensätze zu speichern, können sowohl im Bereichder Python Programmierung, wo der Großteil des maschinellen Lernens zu verord-nen ist, als auch im Bereich des Hochleistungsrechnens gefunden werden. In dieserArbeit werden Experimente zu solchen Strategien zur Speicherung und zum Ladenvon Datensätzen gemacht. Bei den in dieser Arbeit durchgeführten Experimentengeht es um das Trainieren eines Modells aus dem Bereich der Bild Klassifizierung.Die verwendeten Strategien beinhalten die Verwendung von Numpy Arrays, LMDB,HDF5 und Zarr. Die Resultate dieser Experimente werden dann verwendet, um eineEvaluierung der getesteten Strategien durchzuführen, mit dem Ziel herauszufinden,ob in dieser Arbeit eine Strategie gefunden wurde, welche performanter als die bis-her verwendete ist, oder ob die Verwendung von Datensätzen, die aus vielen Dateienbestehen durch die Ergebnisse bestätigt wird.

Traditional Machine Learning Datasets used to train models are often used in aform consisting of a large amount of small files. This property is detrimental totheir widespread use on HPC systems due to the way parallel filesystems work.Several other ways to store such datasets can be found in the areas of both HPCand Python programming. Strategies for both storing and loading datasets aretested in experiments in this thesis. These experiments focus on training an ImageClassification model. The strategies used in this thesis include the usage of numpyarrays, LMDB, HDF5 and Zarr. The results are then used to evaluate how thedifferent strategies compare to each other. The goal of this thesis is to either finda performant strategy using fewer files or validate the usage of the strategy usingmany small files.

OpenAccess:
PDF
(additional files)