2025
Bachelorarbeit, RWTH Aachen University, 2025
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
; ;
Tag der mündlichen Prüfung/Habilitation
2025-03-17
Online
DOI: 10.18154/RWTH-2025-03758
URL: https://publications.rwth-aachen.de/record/1009964/files/1009964.pdf
Einrichtungen
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Traditionelle Datensätze zum Trainieren von Modellen für maschinelles Lernen lie-gen oft in Form von riesigen Mengen kleiner Dateien vor. Diese Eigenschaft dieserDatensätze ist jedoch unvorteilhaft für ihre weitverbreitete Verwendung auf HPCSystemen. Der Grund hierfür ist, dass solche Systeme oft parallele Dateisystemeverwenden welche für diese Art von Datensätzen nicht ausgelegt sind. Verschiedenealternative Strategien um diese Datensätze zu speichern, können sowohl im Bereichder Python Programmierung, wo der Großteil des maschinellen Lernens zu verord-nen ist, als auch im Bereich des Hochleistungsrechnens gefunden werden. In dieserArbeit werden Experimente zu solchen Strategien zur Speicherung und zum Ladenvon Datensätzen gemacht. Bei den in dieser Arbeit durchgeführten Experimentengeht es um das Trainieren eines Modells aus dem Bereich der Bild Klassifizierung.Die verwendeten Strategien beinhalten die Verwendung von Numpy Arrays, LMDB,HDF5 und Zarr. Die Resultate dieser Experimente werden dann verwendet, um eineEvaluierung der getesteten Strategien durchzuführen, mit dem Ziel herauszufinden,ob in dieser Arbeit eine Strategie gefunden wurde, welche performanter als die bis-her verwendete ist, oder ob die Verwendung von Datensätzen, die aus vielen Dateienbestehen durch die Ergebnisse bestätigt wird.Traditional Machine Learning Datasets used to train models are often used in aform consisting of a large amount of small files. This property is detrimental totheir widespread use on HPC systems due to the way parallel filesystems work.Several other ways to store such datasets can be found in the areas of both HPCand Python programming. Strategies for both storing and loading datasets aretested in experiments in this thesis. These experiments focus on training an ImageClassification model. The strategies used in this thesis include the usage of numpyarrays, LMDB, HDF5 and Zarr. The results are then used to evaluate how thedifferent strategies compare to each other. The goal of this thesis is to either finda performant strategy using fewer files or validate the usage of the strategy usingmany small files.
OpenAccess: PDF
(additional files)
Dokumenttyp
Bachelor Thesis
Format
online
Sprache
English
Interne Identnummern
RWTH-2025-03758
Datensatz-ID: 1009964
Beteiligte Länder
Germany