Stochastic Approaches for Speeding-Up the Analysis of the Propagation of Hardware-Induced Errors and Characterization of System-Level Mitigation Schemes in Digital Communication Systems

Psychou, Georgia; Noll, Tobias G.; Gemmeke, Tobias; Blume, Holger

doi:36776

Stochastic Approaches for Speeding-Up the Analysis of the Propagation of Hardware-Induced Errors and Characterization of System-Level Mitigation Schemes in Digital Communication Systems

Psychou, Georgia^RWTH*

2017 & 2018

Verantwortlichkeitsangabevorgelegt von Diplom-Ingenieurin Georgia Psychou, M.Sc.

ImpressumAachen 2017

Umfang1 Online-Ressource (xiv, 123 Seiten) : Illustrationen

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2017

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2018

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Noll, Tobias G. (Thesis advisor)^RWTH* ; Blume, Holger (Thesis advisor) ; Gemmeke, Tobias (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2017-09-29

Online
DOI: 10.18154/RWTH-2017-10881
URL: http://publications.rwth-aachen.de/record/711539/files/711539.pdf

Einrichtungen

Lehrstuhl für Integrierte digitale Systeme und Schaltungsentwurf (611110)

Inhaltliche Beschreibung (Schlagwörter)
error propagation (frei) ; hardware-induced errors (frei) ; mitigation techniques (frei) ; reliability (frei) ; stochastic modeling (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Mit den Fortschritten bei der Strukturverkleinerung bis in den nano-skaligen Bereich und der Verringerung des Energieumsatzes integrierter digitaler CMOS-Schaltungen werden die Schaltungen zunehmend anfällig gegenüber transienten Fehlern. Der Einsatz bekannter Hardening- bzw. Fehlertoleranz-Techniken auf Architektur- und Schaltungsebene führt in aller Regel zu signifikant größeren und inakzeptablen Chipflächen sowie insbesondere höheren Verlustleistungsaufnahmen. Die Vorteile der fortschreitenden Technologieskalierung können dadurch mehr als überkompensiert werden. Als attraktiver Ausweg erscheint hier, Fehler auf höheren Systemebenen zu korrigieren oder gar zu tolerieren. Im einfachsten Fall kann dies z.B. in digitalen Übertragungssystemen vorteilhafterweise in den empfängerseitigen Kanaldecodern erfolgen, wenn sichergestellt werden kann, dass diese dann eine immer noch hinreichende Decoder-Performance gegenüber Kanalfehlern aufweisen. Dazu ist eine möglichst quantitative Bewertung des Einflusses der möglichen Bit-Fehler auf die Systemzuverlässigkeit unabdingbar. Nur solche Schaltungsteile, die zu Bit-Fehlern führen, die auf höheren Systemebenen nur aufwändig zu korrigieren sind, müssen dann besonders geschützt werden. Die vorliegende Dissertationsschrift widmet sich daher der hochaktuellen und herausfordernden Fragestellung, wie der Einfluss von Bit-Fehlern auf die Systemzuverlässigkeit analysiert, modelliert und quantifiziert werden kann. Da der Einfluss von Bit-Fehlern auf die Systemzuverlässigkeit vom aktuellen Status des Systems abhängt, sind nur statistische Ansätze zur Modellierung darstellbar. Einfache statistische Bitfehlerraten-Modelle greifen häufig zu kurz, da damit Korrelationseffekte nicht erfasst werden. Da eine hinreichend aussagekräftige Charakterisierung komplexer Systeme eine sehr große Zahl von Bit-Fehler-Experimenten erfordert, führen einfache Ansätze zur Simulation von Bit-Fehler-Experimenten zu inakzeptablen Rechenzeiten. Als Abhilfe wird die Analyse der Bit-Fehler-Propagation in nicht-rekursiven Linear-Time-Invariant- (LTI-) Blöcken mittels statistischer Momente untersucht. Dieser Ansatz erlaubt signifikante Rechenzeitbeschleunigungen, scheitert jedoch, sobald Korrelationseffekte relevant werden. Korrelationseffekte können mit Principal-Component-Analysis-Ansätzen vorteilhaft behandelt werden, diese sind jedoch nur eingeschränkt anwendbar. Es wird ein Framework vorgeschlagen, das die repetitive Natur der Fehler-Injektions-Experimente zur Beschleunigung der Rechenzeit ausnutzt. Damit können sowohl lineare als auch aufgrund von Quantisierungseffekten nichtlineare Operatoren behandelt werden. Ergänzend und zur Abrundung der Thematik wird eine breit angelegte Klassifikations-Studie zu Hardware-basierten Fehlertoleranz- und Fehlerkorrektur-Techniken auf höheren Systemebenen durchgeführt. Die Techniken werden systematisch charakterisiert um je nach Anwendungserfordernissen die Auswahl geeigneter Ansätze zu erleichtern.

Today's nano-scale technology nodes are bringing reliability concerns back to the center stage of digital system design because of issues, like process variability, noise effects, radiation particles, as well as increasing variability at run time. Alleviations of these effects can become potentially very costly and the benefits of technology scaling can be significantly reduced or even lost. In order to build more robust digital systems, initially, their behavior in the presence of hardware-induced bit errors must be analyzed. In many systems, certain types of errors can be tolerated. These cases can be revealed through such an analysis. Overhead can be avoided and remedy measures can be applied only when needed. Communication systems are an interesting domain for such explorations: First, they have high societal relevance due to their ubiquity. Second, they can potentially tolerate hardware-induced errors due to their built-in redundancy present to cope with channel noise. This work focuses on analyzing the impact of such errors on the behavior of communication systems. Typically, error propagation studies are performed through time-consuming fault injection campaigns. These approaches do not scale well with growing system sizes. Stochastic experiments allow a more time-efficient approach. On top, breaking down the system into subsystems and propagating error statistics through each of these subsystems further improves the speed-up and flexibility in the reliability evaluation of complex systems. As an initial step in this thesis, statistical moments are propagated through the signal flows of Linear-Time-Invariant (LTI) blocks. Such a scheme, although fast, can only be applied in the case that the signal lacks autocorrelation. However, autocorrelation can be introduced in the signal due to various reasons, like by signal processing blocks. In that case, other approaches are available to reduce the computational cost of the necessary (repetitive) experiments, like the Principal Component Analysis (PCA). Benefits of such a technique depend on several parameters and, therefore, a more broadly usable technique is required. To address this need, a framework is proposed that exploits the repetitive nature of fault injection experiments for speed-up in LTI blocks. Two cases are distinguished: One, in which all operators of the LTI block act in a linear time-invariant way, and one, in which non-linear operations due to finite wordlengths are present. To complement the subject matter, the broad range of hardware-based mitigation techniques at the higher system level are explored and characterized. In this way, the main properties of each mitigation category are identified and, therefore, suitable choices can be made according to the application needs.

OpenAccess:
PDF
(additional files)