Investigations on neural networks, discriminative training criteria and error bounds

Nußbaum-Thom, Markus; Häb-Umbach, Reinhold; Ney, Hermann

doi:39852

Investigations on neural networks, discriminative training criteria and error bounds

Nußbaum-Thom, Markus^RWTH*

2020 & 2021

Verantwortlichkeitsangabevorgelegt von Diplom-Informatiker Markus Nußbaum-Thom

ImpressumAachen 2020

Umfang1 Online-Ressource(xi, 107 Seiten) : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2020

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2021

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Häb-Umbach, Reinhold (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2020-11-13

Online
DOI: 10.18154/RWTH-2020-11914
URL: https://publications.rwth-aachen.de/record/808218/files/808218.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
classification error bounds (frei) ; discriminative training (frei) ; f-divergence (frei) ; generalization error (frei) ; minimum phone error (frei) ; neural network (frei) ; symbol error bounds (frei) ; word errror rate (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die Aufgabe der Spracherkennung ist es mittels einer statistischen Entscheidungsregel Sprachsignale in geschriebene Sprache zu transformieren. Das diskriminative Training des entsprechenden statistischen Modells ist eine wichtige Komponente, um die Wortfehlerrate des Systems zu verbessern. Allerdings existiert in der Spracherkennung eine fundamentale Diskrepanz zwischen der Verlustfunktion der Wortfehlerrate, der Verlustfunktion der Entscheidungsregel und der Verlustfunktion des diskriminativen Trainingskriteriums. Im Laufe dieser Arbeit führt die Analyse dieser Diskrepanz zu neuen Fehlerschranken und Trainingskriterien, die in praktischen Spracherkennungsexperimenten ausgewertet werden. Zusammenfassend kann man sagen, dass das statistische Modell dazu fähig ist, die Diskrepanz zwischen der Verlustfunktion der Wortfehlerrate und der Entscheidungsregel zu überwinden, wenn das diskriminative Trainingskriterium die Verlustfunktion der Wortfehlerrate berücksichtigt. Spracherkennung beruht auf der Bayes Entscheidungsregel. Diese wählt für ein gegebenes Sprachsignal den wahrscheinlichsten Satz als Erkennungsergebnis aus. Die Qualität der Erkennung wird anhand der Wortfehlerrate gemessen. Diese basiert auf der Levenshtein Verlustfunktion und gibt die minimale Anzahl von Einfüge-, Lösch- und Ersetzungsoperationen an, um den gesprochenen in den erkannten Satz zu transformieren. Doch dies birgt eine grundlegende Diskrepanz zwischen dem Qualitätsmaß und der Entscheidungsregel. Denn die Bayes Entscheidungsregel minimiert per Definition die Satzfehlerrate, was nicht zwingend zu einer Minimierung des Qualitätsmaßes – der Wortfehlerrate – führt. Um dieses Problem zu beseitigen, wäre es naheliegend, die Levenshtein Verlustfunktion in die Bayes Entscheidungsregel miteinzubeziehen. Hiermit würde die Bayes Entscheidungsregel die erwartete Levenshtein Verlustfunktion minimieren. Aber dieser Ansatz beansprucht in der Praxis zu viele Resourcen (wie Zeit und Speicher) und kann daher nur als anschließender Verarbeitungsschritt zu einer Suche nach dem wahrscheinlichsten Satz durchgeführt werden. In der Praxis müssen Modellannahmen an die Bayes Entscheidungsregel gemacht werden, da die Bayes Entscheidungstheorie auf der wahren Verteilung beruht, die durch die relativen Häufigkeiten des Sprachsignals und der gesprochenen Sätze definiert ist, und diese in der Praxis nicht bekannt sind. Um weiterhin dem Prinzip der Bayes Entscheidungsregel zu folgen, ersetzt man die wahre Verteilung durch eine Modellverteilung. Die entsprechende Entscheidungsregel heißt modellbasierte Entscheidungsregel. Die freien Parameter des Modells werden durch Trainingsdaten gelernt, zum Beispiel durch Training eines generativen Modells. Anschließend wird das Modell in mehreren Schritten durch diskriminatives Training verbessert. Die mathematische Form des Trainingskriteriums spielt für die automatische Spracherkennung eine wichtige Rolle. Zum Beispiel erreicht das Kriterium, welches die erwartete Levenshtein Verlustfunktion der gesprochenen Phonemesequenz minimieren soll, in der Praxis die besten Ergebnisse. Theoretisch ist dieses Kriterium aber schlecht fundiert. Das entsprechende Kriterium wird auch das Minimum Phone Error Kriterium genannt. Im Gegensatz dazu ist das Kreuzentropiekriterium theoretisch gut fundiert und kann anhand eines formalen Schemas aus der Kullback-Leibler Divergenz zwischen der wahren und der Modellverteilung hergeleitet werden. In diesem Schema ist die Kullback-Leibler Divergenz eine obere Schranke an die Fehlerdifferenz zwischen der Bayes und modellbasierten Entscheidungsregel. Ein solches Schema existiert für das MPE Kriterium nicht. In dieser Arbeit schließen wir diese Lücke und leiten eine theoretische Motivation für diese Art von Kriterium her. Im ersten Teil dieser Arbeit entwickeln wir ein Schema, um diskriminative Trainingskriterien aus oberen Schranken an die Fehlerdifferenz zwischen der Bayes und modellbasierten Entscheidungsregel herzuleiten. Alle untersuchten Fehlerschranken basieren auf der f-Divergenz, die eine Verallgemeinerung der Kullback-Leibler Divergenz ist. Beide Arten von Divergenzen werden verwendet, um jeweils zwei Verteilungen miteinander zu vergleichen. In dieser Arbeit formulieren wir Beweise von oberen f-Divergenz-Schranken an die Klassifikationsfehlerdifferenz. Diese Beweise werden dann erweitert zu Fehlerschranken für allgemeinere Verlustfunktionen. Sie umfassen auch den Fall der Levenshtein Verlustfunktion, und sind relevant für den Fall, in dem eine Diskrepanz zwischen dem Qualitätsmaß und der modellbasierten Entscheidungsregel vorliegt, wie zum Beispiel im Fall der Spracherkennung. Es zeigt sich, dass eine bestimmte Art von expliziten Schranken geeignet ist, um diskriminative Trainingskriterien herzuleiten. Es ist hervorzuheben, dass es vor dieser Arbeit kein Schema gab, welches das Trainingskriterium, basierend auf einer allgemeinen Verlustfunktion, wie der Levenshtein Verlustfunktion, aus einer oberen Schranke auf der Fehlerdifferenz herleiten kann. Die neuen Trainingskriterien werden in Experimenten auf praktischen Spracherkennungsdaten ausgewertet. In diesen Experimenten werden akustische Modelle, wie neuronale Netzwerke und log-lineare Mischverteilungen, diskriminativ trainiert. Wir verwenden für die Verfeinerung des akustischen Modells sowohl positionsweise als auch sequentielle Trainingskriterien. Wir zeigen, dass unsere neuen Trainingskriterien, die auf der f-Divergenz basieren, eine konkurrenzfähige Leistung im Vergleich zu konventionellen diskriminativen Kriterien erreichen. Der zweite Teil dieser Arbeit fasst unsere erfolgreiche Teilnahme an der QUAERO Projekt-evaluierung zusammen, an der wir mit konkurrenzfähigen Spracherkennungssystemen in Deutsch teilgenommen haben.

The task of an automatic speech recognition system is to convert speech signals into written text by choosing the recognition result according to a statistical decision rule. The discriminative training of the underlying statistical model is an essential part to improve the word error rate performance of the system. In automatic speech recognition a mismatch exists between the loss used in the word error rate performance measure, the loss of the decision rule and the loss of the discriminative training criterion. In the course of this thesis the analysis of this mismatch leads to the development of novel error bounds and training criteria. The novel training criteria are evaluated in practical speech recognition experiments. In summary, we come to the conclusion the statistical model is able to compensate for this mismatch if the discriminative training criterion involves the loss of the performance measure.Automatic speech recognition is based on Bayes decision rule. This rule chooses the most probable sentence as the recognition result for a given speech signal. The word error rate measures the performance of the recognition result. This measure is based on the Levenshtein loss and calculates the minimum number of insertions, deletions, and substitutions to transform the spoken into the recognized sentence. However, this choice of performance measure bears a fundamental mismatch to the one targeted in the maximum probability decision rule, as by definition, Bayes decision rule minimizes the sentence error rate, which does not guarantee to optimize the performance measure of automatic speech recognition — the word error rate. The straightforward approach to overcome this problem incorporates the Levenshtein loss into Bayes decision rule by choosing the recognition result according to the sentence minimizing the posterior-expected Levenshtein loss. Nevertheless, the evaluation of this decision rule is too time and memory consuming. It only is performed as a post-processing step after the search of the maximum probability decision rule. In practice, we have to make a model assumption to Bayes decision theory. The theory assumes the true distribution, which is the empirical prior of all speech signals and spoken sentences. This distribution is unknown in practice. To stay as close to the principle of Bayes decision rule, a model distribution with free parameters substitutes the true distribution. The corresponding maximum probability decision rule using the model is called the model-based decision rule. The free parameters of the model are learned from training data, e.g., with generative training. Subsequently, discriminative training finetunes the model. For automatic speech recognition, the type of discriminative training criterion plays a crucial role. For example, the Minimum Phone Error (MPE) criterion, which involves the Levenshtein loss, performs better than other discriminative criteria like cross-entropy or maximum-mutual-information. Apart from its superior practical performance, the MPE criterion has a lack of theoretical justification. In contrast to this criterion, the cross-entropy criterion can be derived based on a formal derivation scheme from the Kullback-Leibler divergence comparing the true and model distribution. In this scheme, the Kullback-Leibler divergence is an upper bound to the error difference between the model-based and Bayes decision rule. The error difference measures the performance difference between both decision rules. For the MPE criterion, different from the cross-entropy criterion, no such derivation scheme exists relating the training criterion to an upper bound on the error difference. In this thesis, we close this gap and give a theoretical justification for the MPE criterion. In the first part of this thesis, we develop a scheme to derive discriminative training criteria from bounds on the error difference between the model-based and Bayes decision rule. The f-Divergence is the basis for the examined error bounds. This divergence family is a generalization of the Kullback-Leibler divergence and is used to compare two distributions. We start by formulating proofs to derive upper f-Divergence bounds on the classification error difference. These proofs are then extended to error bounds based on a more general loss. These also include error bounds based on the Levenshtein loss, which are relevant to the mismatch between performance measure and model-based decision rule in automatic speech recognition. We ultimatively find a type of explicit bound which is suitable to derive discriminative training criteria. Before this thesis, no derivation scheme for more general losses like the Levenshtein loss existed relating the training criterion to an upper bound on the error difference. Practical automatic speech recognition experiments evaluate our novel training criteria. These experiments include frame-wise training of neural network training as well as sequence training of log-linear mixture models. We show that our novel f-Divergence training criteria achieve a competitive or better performance than the conventional cross-entropy and minimum phone error criteria. The second part of this thesis summarizes our successful participation in the QUAERO project evaluation campaign. We contributed the automatic speech recognition system for German in all project periods achieving the best or competitive results.

OpenAccess:
PDF
(zusätzliche Dateien)