Advancing neural language modeling in automatic speech recognition

Irie, Kazuki; Ney, Hermann; de Mori, Renato
doi:HT020451479
000789081 001__ 789081
000789081 005__ 20230411160951.0
000789081 0247_ $$2HBZ$$aHT020451479
000789081 0247_ $$2datacite_doi$$a10.18154/RWTH-2020-04984
000789081 0247_ $$2Laufende Nummer$$a39201
000789081 037__ $$aRWTH-2020-04984
000789081 041__ $$aEnglish
000789081 082__ $$a004
000789081 1001_ $$0P:(DE-588)120997245X$$aIrie, Kazuki$$b0$$urwth
000789081 245__ $$aAdvancing neural language modeling in automatic speech recognition$$cvorgelegt von Kazuki Irie, Diplôme d'Ingénieur, M.S. Applied Mathematics$$honline
000789081 246_3 $$aFortschritte bei der neuronalen Sprachmodellierung in der automatischen Spracherkennung$$yGerman
000789081 260__ $$aAachen$$c2020
000789081 300__ $$a1 Online-Ressource (xi, 151 Seiten) : Illustrationen
000789081 3367_ $$02$$2EndNote$$aThesis
000789081 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
000789081 3367_ $$2BibTeX$$aPHDTHESIS
000789081 3367_ $$2DRIVER$$adoctoralThesis
000789081 3367_ $$2DataCite$$aOutput Types/Dissertation
000789081 3367_ $$2ORCID$$aDISSERTATION
000789081 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University
000789081 502__ $$aDissertation, RWTH Aachen University, 2020$$bDissertation$$cRWTH Aachen University$$d2020$$gFak01$$o2020-05-05
000789081 5203_ $$aDie statistische Sprachmodellierung ist eines der grundlegenden Probleme bei der maschinellen Verarbeitung natürlicher Sprache. In den letzten Jahren hat die Sprachmodellierung große Fortschritte gemacht, durchaktiven Arbeitsaufwand bei der Anwendung künstlicher neuronaler Netzwerke, insbesondere der rekurrenten Netzwerke. Die Anwendung neuronaler Sprachmodelle auf die Spracherkennung ist inzwischen gut etabliert und allgegenwärtig. Dennoch argumentieren wir, dass das volle Potenzial der auf neuronalen Netzwerken basierenden Sprachmodellierung noch nicht ausgeschöpft ist. In dieser Arbeit entwickeln wir die neuronale Sprachmodellierung in der automatischen Spracherkennung weiter. Dazu untersuchen wir eine Reihe neuer Perspektiven. Wir untersuchen die neu vorgeschlagenen Transformer-Modelle für die Anwendung in der Sprachmodellierung. Die für die maschinelle Übersetzung ursprüngliche vorgeschlagene Transformer-Modellarchitektur wird untersucht und an die spezifischen Anforderungen der Sprachmodellierung angepasst. Sehr tiefe Modelle mit etwa hundert Schichten werden entwickelt. Wir führen einen detaillierten Vergleich mit den Long-Short-Term-Memory basierten Sprachmodellen. Bei der Skalierung der Sprachmodellierung auf größere Datensätze erscheint die Vielfalt der Daten als Chance und Herausforderung. Der aktuellen besten neuronalen Sprachmodellierung fehlt ein Mechanismus zur Handhabung unterschiedlicher Daten aus verschiedenen Domänen, damit ein einziges Modell in verschiedenen Domänen gut funktioniert. In diesem Zusammenhang stellen wir eine domänenrobuste Sprachmodellierung mit neuronalen Netzwerken vor. Wir stellen zwei Lösungen vor. Als erste Lösung schlagen wir eine neue Art von adaptiver Mixture-of-Experts Modellen vor, die vollständig auf neuronalen Netzwerken basieren. Dieser Ansatz hat einen Nachteil der sperrigen Modellgröße. Im zweiten Ansatz untersuchen wir daher die Knowledge-Distillation aus Expertenmodellen mit mehreren Domänen. Methoden zur praktischen Anwendung der Knowledge-Distillation auf die Sprachmodellierung mit großem Vokabular werden vorgeschlagen und ausführlich untersucht. Schließlich untersuchen wir das Potenzial neuronaler Sprachmodelle zur Nutzung von langen satzübergreifenden Kontexten für verbesserte Spracherkennung. Die geeignete Trainingsmethode für ein solches Szenario ist in den existierenden Arbeiten noch nicht ausreichend erforscht. Wir führen einen systematischen Vergleich der Trainingsmethoden durch, wodurch wir Verbesserungen bei der satzübergreifenden Spracherkennung erzielen. Im gleichen Zusammenhang untersuchen wir die Robustheit verschiedener Sequenzlängen sowohl für rekurrente Long-Short-Term-Memory neuronale Netzwerke als auch für Transformer-Modelle. Eine solche Robustheit ist eine der grundlegenden Eigenschaften, die wir uns in neuronalen Netzwerken mit der Fähigkeit zur Handhabung von Kontexten variabler Länge wünschen. In der gesamten Arbeit gehen wir diese Themen mit neuen Perspektiven der neuronalen Sprachmodellierung an, wobei wir die traditionelle Weise der Sprachmodellierung in der automatischen Spracherkennung beibehalten.$$lger
000789081 520__ $$aStatistical language modeling is one of the fundamental problems in natural language processing. In the recent years, language modeling has seen great advances by active research and engineering efforts in applying artificial neural networks, especially those which are recurrent. The application of neural language models to speech recognition has now become well established and ubiquitous. Despite this impression of some degree of maturity, we claim that the full potential of the neural network based language modeling is yet to be explored. In this thesis, we further advance neural language modeling in automatic speech recognition, by investigating a number of new perspectives. From the architectural view point, we investigate the newly proposed Transformer neural net- works for language modeling application. The original model architecture proposed for machine translation is studied and modified to accommodate the specific task of language modeling. Particularly deep models with about one hundred layers are developed. We present an in-depth comparison with the state-of-the-art recurrent neural network language models based on the long short-term memory. While scaling up language modeling to larger scale datasets, the diversity of the data emerges as an opportunity and a challenge. The current state-of-the-art neural language modeling lacks a mechanism of handling diverse data from different domains for a single model to perform well across different domains. In this context, we introduce domain robust language modeling with neural networks, and propose two solutions. As a first solution, we propose a new type of adaptive mixture of experts model which is fully based on neural networks. In the second approach, we investigate knowledge distillation from multiple domain expert models, as a solution to the large model size problem seen in the first approach. Methods for practical applications of knowledge distillation to large vocabulary language modeling are proposed, and studied to a large extent. Finally, we investigate the potential of neural language models to leverage long-span cross- sentence contexts for cross-utterance speech recognition. The appropriate training method for such a scenario is under-explored in the existing works. We carry out systematic comparisons of the training methods, allowing us to achieve improvements in cross-utterance speech recognition. In the same context, we study the sequence length robustness for both recurrent neural networks based on the long short-term memory and Transformers, because such a robustness is one of the fundamental properties we wish to have, in neural networks with the ability to handle variable length contexts. Throughout the thesis, we tackle these problems through novel perspectives of neural language modeling, while keeping the traditional spirit of language modeling in speech recognition.$$leng
000789081 588__ $$aDataset connected to Lobid/HBZ
000789081 591__ $$aGermany
000789081 653_7 $$aartificial neural networks
000789081 653_7 $$adeep learning
000789081 653_7 $$alanguage modeling
000789081 653_7 $$aspeech recognition
000789081 7001_ $$0P:(DE-82)IDM01519$$aNey, Hermann$$b1$$eThesis advisor$$urwth
000789081 7001_ $$0P:(DE-82)021830$$ade Mori, Renato$$b2$$eThesis advisor
000789081 8564_ $$uhttps://publications.rwth-aachen.de/record/789081/files/789081.pdf$$yOpenAccess
000789081 8564_ $$uhttps://publications.rwth-aachen.de/record/789081/files/789081_source.zip$$yRestricted
000789081 8564_ $$uhttps://publications.rwth-aachen.de/record/789081/files/789081.gif?subformat=icon$$xicon$$yOpenAccess
000789081 8564_ $$uhttps://publications.rwth-aachen.de/record/789081/files/789081.jpg?subformat=icon-180$$xicon-180$$yOpenAccess
000789081 8564_ $$uhttps://publications.rwth-aachen.de/record/789081/files/789081.jpg?subformat=icon-700$$xicon-700$$yOpenAccess
000789081 909CO $$ooai:publications.rwth-aachen.de:789081$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
000789081 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-588)120997245X$$aRWTH Aachen$$b0$$kRWTH
000789081 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01519$$aRWTH Aachen$$b1$$kRWTH
000789081 9141_ $$y2020
000789081 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
000789081 9201_ $$0I:(DE-82)122010_20140620$$k122010$$lLehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung)$$x0
000789081 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1
000789081 961__ $$c2020-06-05T10:46:21.401808$$x2020-05-07T23:47:37.364176$$z2020-06-05T10:46:21.401808
000789081 9801_ $$aFullTexts
000789081 980__ $$aI:(DE-82)120000_20140620
000789081 980__ $$aI:(DE-82)122010_20140620
000789081 980__ $$aUNRESTRICTED
000789081 980__ $$aVDB
000789081 980__ $$aphd
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines