Design and investigation of scheduling mechanisms on accelerator-based heterogeneous computing systems

Tarakji, Ayman; Leupers, Rainer; Ascheid, Gerd

doi:38192

Items
Marc 21

001			761979
005			20230408005953.0
024	7	_	\|2 HBZ \|a HT020080731
024	7	_	\|2 Laufende Nummer \|a 38192
024	7	_	\|2 datacite_doi \|a 10.18154/RWTH-2019-05297
037	_	_	\|a RWTH-2019-05297
041	_	_	\|a English
082	_	_	\|a 621.3
100	1	_	\|0 P:(DE-588)1188366084 \|a Tarakji, Ayman \|b 0 \|u rwth
245	_	_	\|a Design and investigation of scheduling mechanisms on accelerator-based heterogeneous computing systems \|c vorgelegt von Ayman Tarakij (M.Sc.) \|h online
260	_	_	\|a Aachen \|c 2018
260	_	_	\|c 2019
300	_	_	\|a 1 Online-Ressource (xv, 110 Seiten) : Illustrationen, Diagramme
336	7	_	\|0 2 \|2 EndNote \|a Thesis
336	7	_	\|0 PUB:(DE-HGF)11 \|2 PUB:(DE-HGF) \|a Dissertation / PhD Thesis \|b phd \|m phd
336	7	_	\|2 BibTeX \|a PHDTHESIS
336	7	_	\|2 DRIVER \|a doctoralThesis
336	7	_	\|2 DataCite \|a Output Types/Dissertation
336	7	_	\|2 ORCID \|a DISSERTATION
500	_	_	\|a Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2019
502	_	_	\|a Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2018 \|b Dissertation \|c Rheinisch-Westfälische Technische Hochschule Aachen \|d 2018 \|g Fak06 \|o 2018-06-19
520	3	_	\|a Moderne Hochleistungsrechner verfügen über eine Vielzahl an Rechenwerken, die unabhängig voneinander arbeiten. Die bekanntesten Probleme der modernen Beschleuniger-basierten Hochleistungsrechner sind Unterauslastung und Überzeichnung von Rechenressourcen. Insbesondere wenn typische Arbeitsbelastungen parallel anfallen, ist es schwierig eine Balance zwischen einer optimalen Auslastung und Job-Fairness zu finden. Um die Verwendung von modernen Beschleunigern zu vereinfachen und deren Brauchbarkeit zu erhöhen, werden im Rahmen dieser Arbeit die Eigenschaften mehrerer Rechenarchitekturen auf unterschiedlichen Ebenen untersucht und die wesentlichen Hardware-Unterschiede analysiert. Dabei wird weiterhin das Ziel verfolgt, das Potenzial moderner Beschleuniger hinsichtlich der Aufteilung der Verfügbaren Rechenressourcen unter mehreren Benutzern zu erfassen. Zu Beginn dieser Arbeit werden Laufzeitmerkmale unterschiedlicher Recheneinheiten, die im Vorfeld auf Testplattformen unter Linux installiert worden sind, auf Basis von Micro-Benchmarks und realen Anwendungen aus dem Bereich der Physik untersucht. Anschließend, und mithilfe der Hardware-analyse, werden zwei Scheduling-Strategien für heterogene Rechner verfolgt und realisiert. In den beiden Strategien ist jeweils die Zielsetzung, die Zielgruppe von Hardware-Architekturen, und der Umfang unterschiedlich definiert. Darüber hinaus unterscheiden sich die Entwurfsmerkmale der auf den Scheduling-Strategien-basierenden Frameworks stark gemäß der verwalteten Hardware auf der einen Seite, und der darunterliegenden Programmierumgebung -- CUDA oder OpenCL -- auf der anderen Seite. Im Gegensatz zum GPUSched, das zum Zwecke des Managens von CUDA-Anwendungen auf mehreren GPUs entworfen und implementiert ist, liegt der Fokus des OpenCL-basierten Scheduling-Frameworks OCLSched auf der Heterogenität der Hardware. In beiden Fällen entwickeln Programmierer dennoch ihre Anwendungen mit der entsprechenden Programmiersprache. Anschließend übernimmt der Scheduler die Verwaltung und die Ausführung der unterschiedlichen Applikationen in einer heterogenen Rechenumgebung. Ein weiterer Schwerpunkt dieser Arbeit liegt darin, Parallelisierungstechniken eines aktuellen Algorithmus SQFD für die Ähnlichkeitssuche in Multimedia-Daten-banken im Hinsicht auf die Leistung sowie die Effizienz zu untersuchen. Mithilfe von GPUSched wird SQFD parallel zu anderen Rechenanwendungen in einer GPU-basierten Multi-Tenant Umgebung ausgeführt. Diese Fallstudie zeigt, wie eine höhere GPU-Auslastung durch Taskparallelität erzielt werden kann. Die Überlappung verschiedener Rechenphasen des SQFD trägt dazu bei, Wartezeiten zu verkürzen und die volle Leistungsfähigkeit moderner Rechenarchitekturen auszuschöpfen. Mit besserem Verständnis der physikalischen Eigenschaften von modernen Beschleunigern auf der einen Seite, und den versprechenden Ergebnissen der untersuchten Scheduling-Mechanismen auf der anderen, wird diese Arbeit zur Innovation von effizienten heterogenen Hochleistungsrechnern beitragen und zur Bereitstellung und Entwicklung von Hochoptimierten Programmierschnittstellen für Beschleuniger-basierte Cluster dienen. \|l ger
520	_	_	\|a Modern high-performance computers engage a variety of computing devices. Underutilization and oversubscription of processing resources are the common problems in modern accelerator-based computing systems. Particularly, if different tasks are processed simultaneously, achieving a good level of both resource utilization and fairness at the same time is not trivial. For this purpose and to simplify the use of accelerators and to improve their usability while sharing them among multiple users, this thesis explores several design factors of various modern processing architectures and investigates task-scheduling on accelerator-based heterogeneous computing systems. First of all, using diverse microbenchmark suites and real-world applications from the field of physics, the runtime behavior of test programs is observed. Major architectural discrepancies are studied and a higher-level examination is discussed, involving the single unified programming interface OpenCL. Subsequently, starting from the results of this investigation, two independent task-scheduling approaches for heterogeneous systems are pursued. Each scheduling framework considers a certain group of processing architectures, depending on the underlying programming interface. The design characteristics of both frameworks differentiate according to the architecture of the managed devices on the one hand, as well as the corresponding programming framework -- CUDA or OpenCL -- on the other. While GPUSched is designed and implemented for managing the execution of CUDA applications on multiple NVIDIA GPUs, the focus on heterogeneity represents the contribution of the OpenCL-based scheduling framework OCLSched discussed in the second approach. However, in both cases programmers formulate their own tasks in the corresponding programming language, whereby the scheduler autonomously takes over and manages the processing of applications in a heterogeneous computing environment. Subsequently, the parallelization of a modern algorithm for similarity search in multimedia databases is discussed, considering multiple performance- and efficiency issues. With the presented scheduler, the similarity search algorithm is processed with general computation tasks in a multi-tenant compute environment simultaneously. During the experiments, the extended functionality and the deployed strategies on the one hand, and the scheduling algorithms on the other are discussed and evaluated. It will be shown that by means of concurrent kernel execution and multitasking, the presented scheduler achieves better resource utilization, although the job execution times are not specified in advance. Through the headway in understanding the architectural characteristics of modern accelerators in depth on the one hand, and the promising results of the presented scheduling mechanisms on the other, this thesis contributes to the innovation of efficient heterogeneous computing clusters and describes highly-optimized programming interfaces designed for accelerator-based computers. \|l eng
588	_	_	\|a Dataset connected to Lobid/HBZ
591	_	_	\|a Germany
653	_	7	\|a CUDA
653	_	7	\|a GPGPU
653	_	7	\|a GPUSched
653	_	7	\|a OCLSched
653	_	7	\|a OpenCL
653	_	7	\|a benchmarking
653	_	7	\|a heterogeneous parallel systems
653	_	7	\|a modern processing architectures
653	_	7	\|a scheduling
700	1	_	\|0 P:(DE-82)IDM00503 \|a Leupers, Rainer \|b 1 \|e Thesis advisor \|u rwth
700	1	_	\|0 P:(DE-82)IDM00630 \|a Ascheid, Gerd \|b 2 \|e Thesis advisor \|u rwth
856	4	_	\|u https://publications.rwth-aachen.de/record/761979/files/761979.pdf \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/761979/files/761979_source.7z \|y Restricted
856	4	_	\|u https://publications.rwth-aachen.de/record/761979/files/761979.gif?subformat=icon \|x icon \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/761979/files/761979.jpg?subformat=icon-1440 \|x icon-1440 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/761979/files/761979.jpg?subformat=icon-180 \|x icon-180 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/761979/files/761979.jpg?subformat=icon-640 \|x icon-640 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/761979/files/761979.jpg?subformat=icon-700 \|x icon-700 \|y OpenAccess
909	C	O	\|o oai:publications.rwth-aachen.de:761979 \|p dnbdelivery \|p driver \|p VDB \|p open_access \|p openaire
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-588)1188366084 \|a RWTH Aachen \|b 0 \|k RWTH
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM00503 \|a RWTH Aachen \|b 1 \|k RWTH
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM00630 \|a RWTH Aachen \|b 2 \|k RWTH
914	1	_	\|y 2018
915	_	_	\|0 StatID:(DE-HGF)0510 \|2 StatID \|a OpenAccess
920	1	_	\|0 I:(DE-82)611910_20140620 \|k 611910 \|l Lehrstuhl für Software für Systeme auf Silizium \|x 0
980	1	_	\|a FullTexts
980	_	_	\|a I:(DE-82)611910_20140620
980	_	_	\|a UNRESTRICTED
980	_	_	\|a VDB
980	_	_	\|a phd

Library	Collection	CLSMajor	CLSMinor	Language	Author

Marc 21

h1

h2

h3

h4

h5

h6