h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Evaluierung von Optimierungsstrategien zur Datensatzspeicherung für machinelles Lernen auf HPC Systemen = Evaluating Optimization Strategies for Dataset Storage for Machine Learning Workloads on HPC Systems



VerantwortlichkeitsangabeIrmin Mainka

ImpressumAachen : RWTH Aachen University 2025

Umfang1 Online-Ressource : Illustrationen


Bachelorarbeit, RWTH Aachen University, 2025

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
; ;

Tag der mündlichen Prüfung/Habilitation
2025-03-17

Online
DOI: 10.18154/RWTH-2025-03758
URL: https://publications.rwth-aachen.de/record/1009964/files/1009964.pdf

Einrichtungen

  1. Lehrstuhl für Hochleistungsrechnen (Informatik 12) (123010)
  2. IT Center (022000)
  3. Fachgruppe Informatik (120000)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Traditionelle Datensätze zum Trainieren von Modellen für maschinelles Lernen lie-gen oft in Form von riesigen Mengen kleiner Dateien vor. Diese Eigenschaft dieserDatensätze ist jedoch unvorteilhaft für ihre weitverbreitete Verwendung auf HPCSystemen. Der Grund hierfür ist, dass solche Systeme oft parallele Dateisystemeverwenden welche für diese Art von Datensätzen nicht ausgelegt sind. Verschiedenealternative Strategien um diese Datensätze zu speichern, können sowohl im Bereichder Python Programmierung, wo der Großteil des maschinellen Lernens zu verord-nen ist, als auch im Bereich des Hochleistungsrechnens gefunden werden. In dieserArbeit werden Experimente zu solchen Strategien zur Speicherung und zum Ladenvon Datensätzen gemacht. Bei den in dieser Arbeit durchgeführten Experimentengeht es um das Trainieren eines Modells aus dem Bereich der Bild Klassifizierung.Die verwendeten Strategien beinhalten die Verwendung von Numpy Arrays, LMDB,HDF5 und Zarr. Die Resultate dieser Experimente werden dann verwendet, um eineEvaluierung der getesteten Strategien durchzuführen, mit dem Ziel herauszufinden,ob in dieser Arbeit eine Strategie gefunden wurde, welche performanter als die bis-her verwendete ist, oder ob die Verwendung von Datensätzen, die aus vielen Dateienbestehen durch die Ergebnisse bestätigt wird.

Traditional Machine Learning Datasets used to train models are often used in aform consisting of a large amount of small files. This property is detrimental totheir widespread use on HPC systems due to the way parallel filesystems work.Several other ways to store such datasets can be found in the areas of both HPCand Python programming. Strategies for both storing and loading datasets aretested in experiments in this thesis. These experiments focus on training an ImageClassification model. The strategies used in this thesis include the usage of numpyarrays, LMDB, HDF5 and Zarr. The results are then used to evaluate how thedifferent strategies compare to each other. The goal of this thesis is to either finda performant strategy using fewer files or validate the usage of the strategy usingmany small files.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Bachelor Thesis

Format
online

Sprache
English

Interne Identnummern
RWTH-2025-03758
Datensatz-ID: 1009964

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Bachelor Theses
Publication server / Open Access
Faculty of Computer Science (Fac.9)
Central and Other Institutions
Public records
Publications database
120000
123010
022000

 Record created 2025-04-11, last modified 2025-04-23


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)