Alignment models for recurrent neural networks

Doetsch, Patrick; Ney, Hermann; Juan, Alfons
doi:39744
000805289 001__ 805289
000805289 005__ 20251015135513.0
000805289 0247_ $$2HBZ$$aHT020637917
000805289 0247_ $$2Laufende Nummer$$a39744
000805289 0247_ $$2datacite_doi$$a10.18154/RWTH-2020-10873
000805289 037__ $$aRWTH-2020-10873
000805289 041__ $$aEnglish
000805289 082__ $$a004
000805289 1001_ $$0P:(DE-588)1221090232$$aDoetsch, Patrick$$b0$$urwth
000805289 245__ $$aAlignment models for recurrent neural networks$$cvorgelegt von Diplom-Informatiker Patrick Doetsch$$honline
000805289 260__ $$aAachen$$c2020
000805289 300__ $$a1 Online-Ressource (xiii, 108 Seiten) : Illustrationen, Diagramme
000805289 3367_ $$02$$2EndNote$$aThesis
000805289 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
000805289 3367_ $$2BibTeX$$aPHDTHESIS
000805289 3367_ $$2DRIVER$$adoctoralThesis
000805289 3367_ $$2DataCite$$aOutput Types/Dissertation
000805289 3367_ $$2ORCID$$aDISSERTATION
000805289 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University
000805289 502__ $$aDissertation, RWTH Aachen University, 2020$$bDissertation$$cRWTH Aachen University$$d2020$$gFak01$$o2020-10-08
000805289 5203_ $$aHeutige Sprach- und Handschrifterkennungssysteme nutzen neuronale Netze um das akustische Signal bzw. das Bild mit Handschrift in Text umzuwandeln. Neuronale Netze lernen die notwendigen Parameter dabei durch transkribierte Daten in einer Trainingsphase. Ursprünglich wurden dabei nur vorwärtsgerichtete neuronale Netze genutzt, welche stets mit einer Alignierung von Merkmalsvektoren und Ausgabesymbolen eines vorher trainierten Gaußschen hidden Markov Modells initialisiert werden mussten, um eine gute Leistung zu erzielen. Seit einiger Zeit ist bekannt, dass rekurrente neuronale Netzarchitekturen ihre nicht-rekurrenten Gegenstücke an Leistung übertreffen, mit dem Long Short-Term Memory als bekanntestes Beispiel. Rekurrente neuronale Netze können die zeitliche Struktur der Daten direkt modellieren und sind somit in der Lage dynamische Änderungen an der Alignierung vorzunehmen um sie dem Modell besser anzupassen. In dieser Arbeit werden wir die Anwendungen und Trainingsverfahren rekurrenter neuronaler Netzarchitekturen für die Sprach- und Handschrifterkennung untersuchen. Im Rahmen dieser Arbeit wurde hierfür ein Softwarepaket für neuronale Netze entwickelt, welches erlaubt hardware-beschleunigtes Training and die Erkennung von Sprache und Handschrift durchzuführen. Die Software ermöglicht es, sowohl rekurrente als auch rein vorwärtsgerichtete neuronale Netzarchitekturen zu trainieren, und ist in der Lage, sehr große Datenmengen auf unterschiedlichen Hardwareimplementierungen parallel zu verarbeiten. Trainierte Modelle können für die Erkennung direkt in das Spracherkennungssystems der RWTH Aachen geladen werden. Unsere Experimente zeigen, dass rekurrente Modelle bessere Erkennungsergebnisse erzielen als rein vorwärts gerichtete Strukturen, und wir demonstrieren diese Leistungsfähigkeit in mehreren Experimenten zur Handschrifterkennung. Weitere wissenschaftliche Beiträge beinhalten die Entwicklung von Datenanordnungsverfahren, durch die das Training erheblich beschleunigt wird. Mithilfe unseres Softwarepakets evaluieren wir daraufhin auf neuronalen Netzen basierte Methoden für die Handschrifterkennung. Unser Fokus liegt hierbei auf rekurrenten Topologien, in denen die Bilder in einer eindimensionalen oder zweidimensionalen Weise verarbeitet werden und wir untersuchen dabei verschiedene Architekturen und Implementierungsdetails. Die Leistungsfähigkeit unserer vorgestellten Systeme beurteilen wir auf bekannten Datensätzen für Handschrifterkennung und wir vergleichen unsere Systeme mit den Systemen anderer Gruppen in Wettbewerben. Im letzten Teil der Arbeit untersuchen wir, welche Auswirkungen sich ergeben, wenn das Alignierungsproblem innerhalb rekurrenter neuronaler Netze behandelt wird. Wir beschreiben Probleme der Überanpassung bei der Anwendung herkömmlicher Alignierungsverfahren und analysieren Eigenschaften des "Connectionist Temporal Classification" Fehlerkriteriums. Desweiteren untersuchen wir Methoden die völlig ohne die externe Berechnung von Alignierungen auskommen, und stattdessen auf einer speziellen Komposition zweier rekurrenter neuronaler Netze basieren, die es ermöglicht, Merkmalsvektoren direkt in Ausgabesymbole zu transkribieren. Auf der Basis dieser Ergebnisse entwickeln wir ein neuartiges invertiertes Alignierungsverfahren, welches in der Lage ist, einige der erkannten Limiterungen zu vermeiden. Wir evaluieren unsere Methode auf Sprach- und Handschrifterkennungsdaten.$$lger
000805289 520__ $$aModern recognition systems for speech and handwriting make use of neural networks to convert the acoustic signal or handwritten image into text. Neural networks hereby learn the required parameters from transcribed data in a training phase. In the beginning only feed-forward neural networks were used, which had to be initialized with the alignment of observations and labels of a previously trained Gaussian hidden Markov model for good performance. More recently, recurrent neural network architectures have been shown to outperform their non-recurrent counterparts, with Long Short-Term Memories being the most prominent example. Recurrent neural networks can model the temporal nature of the data directly, and thus are able to dynamically change the alignment to better fit the model. In this thesis, we will investigate applications and training techniques of recurrent neural network architectures for speech and handwriting recognition. As part of this thesis we developed a neural network toolkit for hardware accelerated training and recognition of speech and handwriting systems. The software allows to train recurrent neural network architectures as well as traditional feed-forward neural networks and is capable of processing very large amounts of data on multiple computing devices. After training, he models can be loaded into the the RWTH Aachen speech recognition toolkit for recognition. Our experiments show that recurrent models outperform feed-forward structures in terms of recognition error and we demonstrate their effectiveness in various experiments on handwriting recognition. Further contributions were made by developing techniques to improve the training performance through optimized data ordering. With our toolkit we then evaluate neural network based methods for handwriting recognition. Our focus is hereby on recurrent topologies that operate on images either in a one-dimensional or two-dimensional fashion, and we investigate various system architectures and implementation techniques. We examine the effectiveness of our proposed solutions on prominent handwriting recognition corpora and compare our systems to other groups in a competitive setting. In the final part of this thesis we investigate the effects of handling the alignment problem within recurrent neural networks. We describe overfitting problems of conventional alignment approaches and study properties of the connectionist temporal classification error criterion. Furthermore, we investigate methods that do not make use of external alignment computations, and instead only rely on a special composition of two recurrent neural networks that is able transcribe input observations into output symbols directly. Motivated by these results, we develop direct hidden Markov models as a novel inverted alignment method, which is able to overcome some of the limitations we noticed, and we evaluate our method on speech and handwriting recognition tasks.$$leng
000805289 588__ $$aDataset connected to Lobid/HBZ
000805289 591__ $$aGermany
000805289 653_7 $$aalignments
000805289 653_7 $$aautomatic speech recognition
000805289 653_7 $$ahandwriting recognition
000805289 653_7 $$amachine learning
000805289 653_7 $$arecurrent neural networks
000805289 7001_ $$0P:(DE-82)IDM01519$$aNey, Hermann$$b1$$eThesis advisor$$urwth
000805289 7001_ $$0P:(DE-82)066911$$aJuan, Alfons$$b2$$eThesis advisor
000805289 8564_ $$uhttps://publications.rwth-aachen.de/record/805289/files/805289.pdf$$yOpenAccess
000805289 8564_ $$uhttps://publications.rwth-aachen.de/record/805289/files/805289_source.zip$$yRestricted
000805289 8564_ $$uhttps://publications.rwth-aachen.de/record/805289/files/805289.gif?subformat=icon$$xicon$$yOpenAccess
000805289 8564_ $$uhttps://publications.rwth-aachen.de/record/805289/files/805289.jpg?subformat=icon-180$$xicon-180$$yOpenAccess
000805289 8564_ $$uhttps://publications.rwth-aachen.de/record/805289/files/805289.jpg?subformat=icon-700$$xicon-700$$yOpenAccess
000805289 909CO $$ooai:publications.rwth-aachen.de:805289$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
000805289 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01519$$aRWTH Aachen$$b1$$kRWTH
000805289 9141_ $$y2020
000805289 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
000805289 9201_ $$0I:(DE-82)122010_20140620$$k122010$$lLehrstuhl für Informatik 6 (Maschinelles Lernen)$$x0
000805289 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1
000805289 961__ $$c2020-11-26T13:56:19.410673$$x2020-11-04T13:16:04.482337$$z2020-11-26T13:56:19.410673
000805289 9801_ $$aFullTexts
000805289 980__ $$aI:(DE-82)120000_20140620
000805289 980__ $$aI:(DE-82)122010_20140620
000805289 980__ $$aUNRESTRICTED
000805289 980__ $$aVDB
000805289 980__ $$aphd
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines