h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

High-performance tensor operations : tensor transpositions, spin summations, and tensor contractions



Verantwortlichkeitsangabevorgelegt von Paul Springer, Master of Science

ImpressumAachen 2019

Umfang1 Online-Ressource (xiii, 169 Seiten) : Illustrationen


Dissertation, RWTH Aachen University, 2019

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2019-01-07

Online
DOI: 10.18154/RWTH-2019-01778
URL: http://publications.rwth-aachen.de/record/755345/files/755345.pdf

Einrichtungen

  1. Lehr- und Forschungsgebiet für Algorithmen-Orientierte Code-Generierung für Hochleistungsrechnerarchitekturen (123620)
  2. Fachgruppe Informatik (120000)
  3. Aachen Institute for Advanced Study in Computational Engineering Science (AICES) (080003)

Inhaltliche Beschreibung (Schlagwörter)
HPC (frei) ; dense linear algebra (frei) ; tensor (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Diese Dissertation befasst sich mit der Entwicklung von neuartigen, hoch- performanten Algorithmen zur Ausführung von Tensor-Transpositionen, Spin-Summationen sowie Tensor-Kontraktionen. Eine zentrale Herausforderung, die diesen Operationen zugrunde liegt ist das komplexe Muster der Speicherzugriffe, welches aus der mehrdimensionalen Natur der Tensoren hervorgerufen wird; des Weiteren führen diese komplexen Speicherzugriffsmuster oftmals zu einer geringen Ausnutzung der CPU-eigenen Cachehierarchie und somit zu einer geringen Performanz. Um diese Ineffizienzen zu überkommen, werfen die entwickelten Algorithmen in dieser Dissertation einen speziellen Fokus auf die Ausnutzung der räumlichen sowie temporären Lokalität; dies führt zu strukturierten und vorteilhaften Speicherzugriffen und somit zu einer hohen Performanz. Da Tensor-Transpositionen, Spin-Summationen, und Tensor-Kontraktionen die haupt Performanz-Engpässe in vielen wissenschaftlichen Anwendungen darstellen, ist es das Ziel dieser Dissertation signifikante Beschleunigungen gegenüber hochmodernen Softwarelösungen für solche Operationen zu erzielen. Wir beschreiben einen Ansatz zu Tensor-Transpositionen, welcher nahezu die maximale Speicherbandbreite auf verschiedenen Rechnerarchitekturen erzielt. Des Weiteren präsentieren wir mehrere Algorithmen für Spin-Summationen aus dem Blickwinkel des hochperformanten Rechnens, welche sowohl die räumliche als auch die temporäre Lokalität der Spin-Summation ausnutzen. Darüber hinaus stellen wir eine neuartige GEMM-ähnliche Methodik für Tensor- Kontraktionen vor. Dieser Ansatz vermeidet die Nachteile vorheriger Verfahren—allem voran übermäßige Speicherzugriffe sowie ein erhöhter Speicherbedarf—und ist damit in der Lage, die Performanz-Kluft zwischen Tensor-Kontraktionen und hoch-performanten Matrix-Matrix Multiplikationen zu schließen.

This dissertation is concerned with the development of novel high-performance algorithms for tensor transpositions, spin summations, and tensor contractions. A central challenge that is common to these operations is the complex memory access pattern, which is due to the multidimensional nature of tensors, and which often leads to a poor utilization of the CPU’s rich cache hierarchy and consequently to low performance. To overcome this inefficiency, the algorithms presented in this dissertation pay special attention to the exploitation of spatial as well as temporal locality, resulting in a preferable memory access pattern, and thus high performance. With tensor transpositions, spin summations, and tensor contractions being the major performance bottlenecks in many scientific applications, the goal of this dissertation is to provide significant speedups over other state-of-the-art software solutions for such operations. We describe an approach to tensor transpositions that is able to attain close-to-peak memory bandwidth across multiple architectures. We also present a high-performance perspective on spin summations and propose an algorithm that exploits both the spatial as well as temporal locality inherent to the problem. Finally, a novel GEMM-like methodology for tensor contractions is introduced; this approach avoids the drawbacks of previous approaches—namely excess memory accesses or an increased memory footprint—and is able to close the performance gap between tensor contractions and high-performance matrix-matrix multiplications.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT019974024

Interne Identnummern
RWTH-2019-01778
Datensatz-ID: 755345

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Central and Other Institutions
Public records
Publications database
120000
080003
123620

 Record created 2019-02-16, last modified 2023-04-08


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)