Extending h5bench with I/O access patterns in common AI applications

Djebarov, Dlyaver; Neuwirth, Sarah; Liem, Radita Tapaning Hesti; Müller, Matthias S.

doi:10.18154/RWTH-2024-10149

Extending h5bench with I/O access patterns in common AI applications = Erweiterung von h5bench um I/O-Zugriffsmuster in gängigen KI-Anwendungen

Djebarov, Dlyaver^RWTH*

2024

VerantwortlichkeitsangabeDlyaver Djebarov

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource: Illustrationen

Bachelorarbeit, RWTH Aachen University, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Müller, Matthias S. (Thesis advisor)^RWTH* ; Neuwirth, Sarah (Thesis advisor) ; Liem, Radita Tapaning Hesti (Consultant)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2024-09-19

Online
DOI: 10.18154/RWTH-2024-10149
URL: https://publications.rwth-aachen.de/record/995779/files/995779.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
AI Workloads (frei) ; Benchmarking (frei) ; HDF5 (frei) ; HPC (frei) ; I/O (frei) ; I/O Benchmark (frei) ; I/O Kernel (frei) ; MLPerf (frei) ; h5bench (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die rasche Einführung von Künstlicher Intelligenz (KI) in der wissenschaftlichen Datenverarbeitung erfordert neue Werkzeuge zur effektiven Bewertung der I/O-Leistung. HDF5 ist eines der Datenformate, die nicht nur in HPC, sondern auch in modernen KI-Anwendungen häufig verwendet werden. Die bestehenden Benchmarks sind jedoch unzureichend, um die aktuellen Herausforderungen von KI-Workloads zu bewältigen. In diesem Beitrag wird eine Erweiterung des bestehenden HDF5-Benchmarks - h5bench - vorgestellt, indem die gleiche Arbeitslast aus dem MLPerf Storage - DLIO Benchmark integriert wird. Diese Erweiterung ermöglicht es Nutzern, KI-Workloads zu testen, ohne dass sie Bibliotheken für maschinelles Lernen installieren müssen, was die Komplexität reduziert und die Nutzbarkeit des Benchmarks verbessert. Die experimentelle Analyse zeigt, dass die Erweiterung in der Lage ist, die bestehenden I/O-Muster mit leicht anpassbaren Konfigurationen zu replizieren, um verschiedene Skalierbarkeitstests durchzuführen.

Rapid artificial intelligence (AI) adoption in scientific computing requires new tools to evaluate I/O performance effectively. HDF5 is one of the data formats commonly used not only in HPC applications but also in modern AI applications. However, the existing benchmarks are insufficient to address the current challenges posed by AI workloads. This thesis introduces an extension to the existing HDF5 benchmark, called h5bench, by incorporating the same workload from the MLPerf Storage - DLIO Benchmark. This extension allows users to test AI workloads without the need to install machine learning libraries, reducing complexity and enhancing the usability of the benchmark. The experimental analysis demonstrates that the extension managed to replicate the existing I/O patterns with easy-to-adjust configurations to perform various scalability tests.

OpenAccess:
PDF