Alignment models for recurrent neural networks

Doetsch, Patrick; Ney, Hermann; Juan, Alfons

doi:39744

Alignment models for recurrent neural networks

Doetsch, Patrick

2020

Verantwortlichkeitsangabevorgelegt von Diplom-Informatiker Patrick Doetsch

ImpressumAachen 2020

Umfang1 Online-Ressource (xiii, 108 Seiten) : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2020

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Juan, Alfons (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2020-10-08

Online
DOI: 10.18154/RWTH-2020-10873
URL: https://publications.rwth-aachen.de/record/805289/files/805289.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
alignments (frei) ; automatic speech recognition (frei) ; handwriting recognition (frei) ; machine learning (frei) ; recurrent neural networks (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Heutige Sprach- und Handschrifterkennungssysteme nutzen neuronale Netze um das akustische Signal bzw. das Bild mit Handschrift in Text umzuwandeln. Neuronale Netze lernen die notwendigen Parameter dabei durch transkribierte Daten in einer Trainingsphase. Ursprünglich wurden dabei nur vorwärtsgerichtete neuronale Netze genutzt, welche stets mit einer Alignierung von Merkmalsvektoren und Ausgabesymbolen eines vorher trainierten Gaußschen hidden Markov Modells initialisiert werden mussten, um eine gute Leistung zu erzielen. Seit einiger Zeit ist bekannt, dass rekurrente neuronale Netzarchitekturen ihre nicht-rekurrenten Gegenstücke an Leistung übertreffen, mit dem Long Short-Term Memory als bekanntestes Beispiel. Rekurrente neuronale Netze können die zeitliche Struktur der Daten direkt modellieren und sind somit in der Lage dynamische Änderungen an der Alignierung vorzunehmen um sie dem Modell besser anzupassen. In dieser Arbeit werden wir die Anwendungen und Trainingsverfahren rekurrenter neuronaler Netzarchitekturen für die Sprach- und Handschrifterkennung untersuchen. Im Rahmen dieser Arbeit wurde hierfür ein Softwarepaket für neuronale Netze entwickelt, welches erlaubt hardware-beschleunigtes Training and die Erkennung von Sprache und Handschrift durchzuführen. Die Software ermöglicht es, sowohl rekurrente als auch rein vorwärtsgerichtete neuronale Netzarchitekturen zu trainieren, und ist in der Lage, sehr große Datenmengen auf unterschiedlichen Hardwareimplementierungen parallel zu verarbeiten. Trainierte Modelle können für die Erkennung direkt in das Spracherkennungssystems der RWTH Aachen geladen werden. Unsere Experimente zeigen, dass rekurrente Modelle bessere Erkennungsergebnisse erzielen als rein vorwärts gerichtete Strukturen, und wir demonstrieren diese Leistungsfähigkeit in mehreren Experimenten zur Handschrifterkennung. Weitere wissenschaftliche Beiträge beinhalten die Entwicklung von Datenanordnungsverfahren, durch die das Training erheblich beschleunigt wird. Mithilfe unseres Softwarepakets evaluieren wir daraufhin auf neuronalen Netzen basierte Methoden für die Handschrifterkennung. Unser Fokus liegt hierbei auf rekurrenten Topologien, in denen die Bilder in einer eindimensionalen oder zweidimensionalen Weise verarbeitet werden und wir untersuchen dabei verschiedene Architekturen und Implementierungsdetails. Die Leistungsfähigkeit unserer vorgestellten Systeme beurteilen wir auf bekannten Datensätzen für Handschrifterkennung und wir vergleichen unsere Systeme mit den Systemen anderer Gruppen in Wettbewerben. Im letzten Teil der Arbeit untersuchen wir, welche Auswirkungen sich ergeben, wenn das Alignierungsproblem innerhalb rekurrenter neuronaler Netze behandelt wird. Wir beschreiben Probleme der Überanpassung bei der Anwendung herkömmlicher Alignierungsverfahren und analysieren Eigenschaften des "Connectionist Temporal Classification" Fehlerkriteriums. Desweiteren untersuchen wir Methoden die völlig ohne die externe Berechnung von Alignierungen auskommen, und stattdessen auf einer speziellen Komposition zweier rekurrenter neuronaler Netze basieren, die es ermöglicht, Merkmalsvektoren direkt in Ausgabesymbole zu transkribieren. Auf der Basis dieser Ergebnisse entwickeln wir ein neuartiges invertiertes Alignierungsverfahren, welches in der Lage ist, einige der erkannten Limiterungen zu vermeiden. Wir evaluieren unsere Methode auf Sprach- und Handschrifterkennungsdaten.

Modern recognition systems for speech and handwriting make use of neural networks to convert the acoustic signal or handwritten image into text. Neural networks hereby learn the required parameters from transcribed data in a training phase. In the beginning only feed-forward neural networks were used, which had to be initialized with the alignment of observations and labels of a previously trained Gaussian hidden Markov model for good performance. More recently, recurrent neural network architectures have been shown to outperform their non-recurrent counterparts, with Long Short-Term Memories being the most prominent example. Recurrent neural networks can model the temporal nature of the data directly, and thus are able to dynamically change the alignment to better fit the model. In this thesis, we will investigate applications and training techniques of recurrent neural network architectures for speech and handwriting recognition. As part of this thesis we developed a neural network toolkit for hardware accelerated training and recognition of speech and handwriting systems. The software allows to train recurrent neural network architectures as well as traditional feed-forward neural networks and is capable of processing very large amounts of data on multiple computing devices. After training, he models can be loaded into the the RWTH Aachen speech recognition toolkit for recognition. Our experiments show that recurrent models outperform feed-forward structures in terms of recognition error and we demonstrate their effectiveness in various experiments on handwriting recognition. Further contributions were made by developing techniques to improve the training performance through optimized data ordering. With our toolkit we then evaluate neural network based methods for handwriting recognition. Our focus is hereby on recurrent topologies that operate on images either in a one-dimensional or two-dimensional fashion, and we investigate various system architectures and implementation techniques. We examine the effectiveness of our proposed solutions on prominent handwriting recognition corpora and compare our systems to other groups in a competitive setting. In the final part of this thesis we investigate the effects of handling the alignment problem within recurrent neural networks. We describe overfitting problems of conventional alignment approaches and study properties of the connectionist temporal classification error criterion. Furthermore, we investigate methods that do not make use of external alignment computations, and instead only rely on a special composition of two recurrent neural networks that is able transcribe input observations into output symbols directly. Motivated by these results, we develop direct hidden Markov models as a novel inverted alignment method, which is able to overcome some of the limitations we noticed, and we evaluate our method on speech and handwriting recognition tasks.

OpenAccess:
PDF
(additional files)