h1

h2

h3

h4

h5
h6
001009964 001__ 1009964
001009964 005__ 20251020082354.0
001009964 0247_ $$2datacite_doi$$a10.18154/RWTH-2025-03758
001009964 037__ $$aRWTH-2025-03758
001009964 041__ $$aEnglish
001009964 082__ $$a004
001009964 1001_ $$0P:(DE-82)1010389$$aMainka, Irmin$$b0$$urwth
001009964 245__ $$aEvaluierung von Optimierungsstrategien zur Datensatzspeicherung für machinelles Lernen auf HPC Systemen$$cIrmin Mainka$$honline
001009964 246_3 $$aEvaluating Optimization Strategies for Dataset Storage for Machine Learning Workloads on HPC Systems$$yEnglish
001009964 260__ $$aAachen$$bRWTH Aachen University$$c2025
001009964 300__ $$a1 Online-Ressource : Illustrationen
001009964 3367_ $$02$$2EndNote$$aThesis
001009964 3367_ $$0PUB:(DE-HGF)2$$2PUB:(DE-HGF)$$aBachelor Thesis$$bbachelor$$mbachelor
001009964 3367_ $$2BibTeX$$aMASTERSTHESIS
001009964 3367_ $$2DRIVER$$abachelorThesis
001009964 3367_ $$2DataCite$$aOutput Types/Supervised Student Publication
001009964 3367_ $$2ORCID$$aSUPERVISED_STUDENT_PUBLICATION
001009964 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University
001009964 502__ $$aBachelorarbeit, RWTH Aachen University, 2025$$bBachelorarbeit$$cRWTH Aachen University$$d2025$$gFak01$$o2025-03-17
001009964 5203_ $$aTraditionelle Datensätze zum Trainieren von Modellen für maschinelles Lernen lie-gen oft in Form von riesigen Mengen kleiner Dateien vor. Diese Eigenschaft dieserDatensätze ist jedoch unvorteilhaft für ihre weitverbreitete Verwendung auf HPCSystemen. Der Grund hierfür ist, dass solche Systeme oft parallele Dateisystemeverwenden welche für diese Art von Datensätzen nicht ausgelegt sind. Verschiedenealternative Strategien um diese Datensätze zu speichern, können sowohl im Bereichder Python Programmierung, wo der Großteil des maschinellen Lernens zu verord-nen ist, als auch im Bereich des Hochleistungsrechnens gefunden werden. In dieserArbeit werden Experimente zu solchen Strategien zur Speicherung und zum Ladenvon Datensätzen gemacht. Bei den in dieser Arbeit durchgeführten Experimentengeht es um das Trainieren eines Modells aus dem Bereich der Bild Klassifizierung.Die verwendeten Strategien beinhalten die Verwendung von Numpy Arrays, LMDB,HDF5 und Zarr. Die Resultate dieser Experimente werden dann verwendet, um eineEvaluierung der getesteten Strategien durchzuführen, mit dem Ziel herauszufinden,ob in dieser Arbeit eine Strategie gefunden wurde, welche performanter als die bis-her verwendete ist, oder ob die Verwendung von Datensätzen, die aus vielen Dateienbestehen durch die Ergebnisse bestätigt wird.$$lger
001009964 520__ $$aTraditional Machine Learning Datasets used to train models are often used in aform consisting of a large amount of small files. This property is detrimental totheir widespread use on HPC systems due to the way parallel filesystems work.Several other ways to store such datasets can be found in the areas of both HPCand Python programming. Strategies for both storing and loading datasets aretested in experiments in this thesis. These experiments focus on training an ImageClassification model. The strategies used in this thesis include the usage of numpyarrays, LMDB, HDF5 and Zarr. The results are then used to evaluate how thedifferent strategies compare to each other. The goal of this thesis is to either finda performant strategy using fewer files or validate the usage of the strategy usingmany small files.$$leng
001009964 591__ $$aGermany
001009964 7001_ $$0P:(DE-82)IDM01074$$aMüller, Matthias S.$$b1$$eThesis advisor$$urwth
001009964 7001_ $$aKunkel, Julian$$b2$$eThesis advisor
001009964 7001_ $$0P:(DE-82)955771$$aViehhauser, Dominik$$b3$$eConsultant$$urwth
001009964 8564_ $$uhttps://publications.rwth-aachen.de/record/1009964/files/1009964.pdf$$yOpenAccess
001009964 8564_ $$uhttps://publications.rwth-aachen.de/record/1009964/files/1009964_EINV.pdf$$yRestricted
001009964 8564_ $$uhttps://publications.rwth-aachen.de/record/1009964/files/1009964_source.zip$$yRestricted
001009964 909CO $$ooai:publications.rwth-aachen.de:1009964$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
001009964 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)1010389$$aRWTH Aachen$$b0$$kRWTH
001009964 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01074$$aRWTH Aachen$$b1$$kRWTH
001009964 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)955771$$aRWTH Aachen$$b3$$kRWTH
001009964 9141_ $$y2025
001009964 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
001009964 9201_ $$0I:(DE-82)123010_20140620$$k123010$$lLehrstuhl für Hochleistungsrechnen (Informatik 12)$$x0
001009964 9201_ $$0I:(DE-82)022000_20140101$$k022000$$lIT Center$$x1
001009964 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x2
001009964 961__ $$c2025-04-22T14:06:18.376854$$x2025-04-11T11:31:52.390961$$z2025-04-22T14:06:18.376854
001009964 9801_ $$aFullTexts
001009964 980__ $$aI:(DE-82)022000_20140101
001009964 980__ $$aI:(DE-82)120000_20140620
001009964 980__ $$aI:(DE-82)123010_20140620
001009964 980__ $$aUNRESTRICTED
001009964 980__ $$aVDB
001009964 980__ $$abachelor