Data-driven deep modeling and training for automatic speech recognition

Golik, Pavel; Häb-Umbach, Reinhold; Ney, Hermann
doi:10.18154/RWTH-2020-08504
000795683 001__ 795683
000795683 005__ 20230411161127.0
000795683 0247_ $$2HBZ$$aHT020582933
000795683 0247_ $$2Laufende Nummer$$a39555
000795683 0247_ $$2datacite_doi$$a10.18154/RWTH-2020-08504
000795683 037__ $$aRWTH-2020-08504
000795683 041__ $$aEnglish
000795683 082__ $$a004
000795683 1001_ $$0P:(DE-82)IDM00949$$aGolik, Pavel$$b0$$urwth
000795683 245__ $$aData-driven deep modeling and training for automatic speech recognition$$cvorgelegt von Dipl.-Inform. Pavel Golik$$honline
000795683 246_3 $$aDatengetriebene tiefe Modellierung und Training für automatische Spracherkennung$$yGerman
000795683 260__ $$aAachen$$c2020
000795683 300__ $$a1 Online-Ressource (xiii, 124 Seiten) : Illustrationen, Diagramme
000795683 3367_ $$02$$2EndNote$$aThesis
000795683 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
000795683 3367_ $$2BibTeX$$aPHDTHESIS
000795683 3367_ $$2DRIVER$$adoctoralThesis
000795683 3367_ $$2DataCite$$aOutput Types/Dissertation
000795683 3367_ $$2ORCID$$aDISSERTATION
000795683 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University
000795683 502__ $$aDissertation, RWTH Aachen University, 2020$$bDissertation$$cRWTH Aachen University$$d2020$$gFak01$$o2020-08-14
000795683 5203_ $$aViele der aktuell besten Systeme zur automatischen Spracherkennung basieren heute auf hybriden Hidden Markov Modellen (HMM), die auf Wahrscheinlichkeistschätzung durch das akustische und das Sprachmodell angewiesen sind. Der auf dynamischer Programmierung basierte Decoder benutzt diese Größen, um die wahrscheinlichste Wortfolge zu finden, die zu einem gegebenen Audio-Signal passt. Dafür müssen die Parameter des akustischen Modells zuvor auf transkribierten Aufnahmen trainiert werden. Das akustische Training steht im Fokus dieser Arbeit. Das Eingabesignal wird üblicherweise als Folge von relativ niedrigdimensionalen reelwertigen Vektoren repräsentiert, die die Energieverteilung in kurzen Analysefenstern erfassen. Die konventionelle Extraktion akustischer Merkmale basiert auf Zeit-Frequenz-Analyse des eindimensionalen Eingabesignals, die mithilfe von Kurzzeit-Fourier-Transformation oder einer Filterbank berechnet wird. Im ersten Teil dieser Arbeit werden wir uns mit der folgenden Frage befassen: in welchem Ausmaß kann die Merkmalsextraktion vom akustischen Modell anhand von transkribierten Aufnahmen gelernt werden, ohne die genaue Verarbeitungsschritte explizit vorgegeben zu bekommen? Wir werden zeigen, dass ein künstliches neuronales Netz die Verteilung über die Zustände des HMM aus zeitlicher Wellenform lernen kann. Des Weiteren zeigen wir, dass die Eingabeschicht eines trainierten neuronalen Netzes ebenfalls eine Zeit-Frequenz-Analyse des Eingabesignals durchführt. Von dieser Interpretation inspiriert, werden wir die vollständig verbundene Eingabeschicht durch eine Faltungsschicht ersetzen, da Faltung eine natürliche Operation zur Filterung von Zeitsignalen darstellt und sehr gut geeignet ist, um zeitinvariante Muster zu repräsentieren. Obwohl die Erkennungsgenauigkeit eines solchen Systems noch nicht ganz an die einer manuellen Merkmalsextraktion heranreicht, zeigen wir, dass die Fehlerraten insgesamt sehr ähnlich sind. Im zweiten Teil beschäftigen wir uns mit der Zielfunktion, die beim Trainieren von neuronalen Netzen optimiert wird. Es wird oft angenommen, dass die Softmax-Operation in der Ausgabeschicht des Modells die Minimierung von Kreuzentropie erfordert. Dabei ist kein theoretischer Grund für eine solche Notwendigkeit bekannt. Es ist bekannt, dass sowohl Kreuzentropie als auch die mittlere quadratische Abweichung eine obere Schranke bilden für die Differenz zwischen dem Bayes'schen Fehler und dem Modellfehler (d.h. die Differenz, die dadurch entsteht, dass die Entscheidung anhand eines Modells und nicht der wahren Verteilung getroffen wird). Wir werden demonstrieren, dass es durchaus möglich ist, ein hybrides akustisches Modell mit Softmax mittels Minimierung der mittleren quadratischen Abweichung zu trainieren. Wir werden die Konvergenz analysieren und durch Initialisierung mit einem mit Kreuzentropie vortrainierten Modell verbessern. Im dritten Teil untersuchen wir verschiedene Strategien zur Verwendung von i-vectors für die Adaption des akustischen Modells. Wir zeigen, dass die i-vectors die Wortfehlerrate auf mehreren Evaluationscorpora konsistent reduzieren. Wir analysieren die Integrationsmöglichkeiten und die Parametrisierung der i-vector Extraktion. Im vierten und letzten Teil dieser Arbeit wenden wir diese und andere Methoden zur akustischen Modellierung auf die Schlagwortsuche an. Dabei konzentrieren wir uns auf Sprachen mit geringer Resourcen-Verfügbarkeit, für die es nur eine sehr begrenzte Menge an transkribierten Aufnahmen und anderen linguistischen Resourcen gibt. Wir stellen eine Reihe von Experimenten vor, die im Rahmen des internationalen Projektes IARPA Babel durchgeführt wurden. Dabei stehen die multilingualen ``Flaschenhals-Merkmale'' im Mittelpunkt, die mithilfe von speziell entworfenen neuronalen Netzen erstellt werden, sowie Methoden zum teil-überwachten akustischen Training, graphemischer Aussprachemodellierung und Schlagwortsuche von Begriffen, die zuvor vom System nicht beobachtet wurden.$$lger
000795683 520__ $$aMany of today's state-of-the-art automatic speech recognition (ASR) systems are based on hybrid hidden Markov models (HMM) that rely on neural networks to provide acoustic and language model probabilities. A dynamic programming decoder then uses these probabilities to find and output the most likely sequence of words for a given input audio signal. As one of the prerequisites, the acoustic model needs to be trained on a collection of transcribed recordings: this acoustic training is the main focus of this thesis. Commonly, the input signal is represented as a sequence of relatively low-dimensional feature vectors that capture the distribution of short-time energy within a sliding analysis window. The process of conventional feature extraction is based on time-frequency decomposition of the one-dimensional input signal using either Fourier transform or a bank of band pass filters. The first part of this thesis centers around the question: to which extent can the feature extraction be learned by the acoustic model from transcribed audio data, without manually specifying a pre-processing pipeline? We will show that not only can a neural network learn to classify the HMM states from the raw time signal, but also learn to perform the time-frequency decomposition in its input layer. Inspired by this finding, we will replace the fully-connected input layer by a convolutional layer that is well suited to assist the neural network in learning shift-invariant patterns, and whose operation can be interpreted as filtering in time. Such models show very similar error rates, while not yet outperforming the hand-crafted feature extraction pipeline. In the second part, we will investigate the objective function that is optimized during the supervised acoustic training. While it is commonly believed that softmax normalization in the output layer requires the training to minimize the negative log posterior probability of the data (cross entropy), there is no reason to assume that it cannot be done with other objective functions. In fact, both cross entropy and squared error can be shown to be upper bound of the difference between the Bayes error and the model error (i.e. the difference that arises when the decision rule relies on a model instead of the true probability). We will demonstrate how a hybrid acoustic model can be trained using squared error criterion, and its accuracy improved by initializing it with a model pre-trained with the cross entropy criterion. In the third part of this study, we will investigate how i-vectors can be used for acoustic adaptation, and show that they can help obtain a consistent reduction of word error rate on multiple tasks. Additionally, we will outline a careful analysis of different integration strategies as well as of the parameters of the i-vector extraction pipeline. Finally, in the fourth part of this thesis we will apply these and other methods to the task of speech recognition and keyword search on low-resource languages. The limited amount of available resources makes the acoustic training extremely challenging. We will present a series of experiments performed in the scope of the IARPA Babel project that make heavy use of multilingual bottleneck features and explore techniques such as semi-supervised training, graphemic pronunciation modeling, and handling of keywords not observed during training.$$leng
000795683 588__ $$aDataset connected to Lobid/HBZ
000795683 591__ $$aGermany
000795683 653_7 $$aautomatic speech recognition
000795683 653_7 $$amachine learning
000795683 653_7 $$aneural networks
000795683 7001_ $$0P:(DE-82)IDM01519$$aNey, Hermann$$b1$$eThesis advisor$$urwth
000795683 7001_ $$aHäb-Umbach, Reinhold$$b2$$eThesis advisor
000795683 8564_ $$uhttps://publications.rwth-aachen.de/record/795683/files/795683.pdf$$yOpenAccess
000795683 8564_ $$uhttps://publications.rwth-aachen.de/record/795683/files/795683_source.zip$$yRestricted
000795683 8564_ $$uhttps://publications.rwth-aachen.de/record/795683/files/795683.gif?subformat=icon$$xicon$$yOpenAccess
000795683 8564_ $$uhttps://publications.rwth-aachen.de/record/795683/files/795683.jpg?subformat=icon-180$$xicon-180$$yOpenAccess
000795683 8564_ $$uhttps://publications.rwth-aachen.de/record/795683/files/795683.jpg?subformat=icon-700$$xicon-700$$yOpenAccess
000795683 909CO $$ooai:publications.rwth-aachen.de:795683$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
000795683 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM00949$$aRWTH Aachen$$b0$$kRWTH
000795683 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01519$$aRWTH Aachen$$b1$$kRWTH
000795683 9141_ $$y2020
000795683 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
000795683 9201_ $$0I:(DE-82)122010_20140620$$k122010$$lLehrstuhl für Informatik 6 (Maschinelles Lernen)$$x0
000795683 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1
000795683 961__ $$c2020-09-21T10:22:08.144008$$x2020-08-19T11:54:48.890861$$z2020-09-21T10:22:08.144008
000795683 9801_ $$aFullTexts
000795683 980__ $$aI:(DE-82)120000_20140620
000795683 980__ $$aI:(DE-82)122010_20140620
000795683 980__ $$aUNRESTRICTED
000795683 980__ $$aVDB
000795683 980__ $$aphd
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines