Progress in Decoding for Large Vocabulary Continuous Speech Recognition

Nolden, David; Ney, Hermann; Gauvain, Jean-Luc

doi:36504

Progress in Decoding for Large Vocabulary Continuous Speech Recognition

Nolden, David

2017

Verantwortlichkeitsangabevorgelegt von Diplom-Informatiker David Nolden

ImpressumAachen 2017

Umfang1 Online-Ressource (8,iv, 208 Seiten) : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2017

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Gauvain, Jean-Luc (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2017-04-19

Online
DOI: 10.18154/RWTH-2017-08247
URL: http://publications.rwth-aachen.de/record/699368/files/699368.pdf
URL: http://publications.rwth-aachen.de/record/699368/files/699368.pdf?subformat=pdfa

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
FST (frei) ; HMM (frei) ; LVCSR (frei) ; Look-Ahead (frei) ; Viterbi (frei) ; WFST (frei) ; decoding (frei) ; pruning (frei) ; search (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Das Thema dieser Arbeit ist die Suche für automatische Spracherkennung mit großem Vokabular. Die Suche vergleicht ein akustischen Eingangssignal mit statistischen Spracherkennungs-Modellen, um diejenige Wortfolge zu finden, welche bezüglich der Modelle am wahrscheinlichsten erscheint. Im Prinzip müssten sämtliche Wortfolgen aufgezählt werden, und für jede Wortfolge müsste eine Wahrscheinlichkeit bezüglich der Modelle berechnet werden, um anschließend die beste Wortfolge auszuwählen. Dieser naive Ansatz ist aber nicht vereinbar mit einem großen Vokabular, wegen der enormen Anzahl möglicher Wortfolgen. Moderne Verfahren transformieren die Modelle in kompakte Such-Graphen, vergleichen das Eingangssignal Zeit-synchron mit den Graphen, und verwenden Rekombination sowie Pruning um den Suchraum einzuschränken. In dieser Arbeit untersuchen wir verschiedene existierende Suchverfahren bezüglich ihrer Effizienz, kombinieren deren Vorzüge, und schlagen neue Erweiterungen vor. Wir präsentieren eine ganzheitliche Übersicht über die Komponenten, welche ein effizientes Suchverfahren ausmachen. Wir beschäftigen uns damit, wie der Suchgraph strukturiert sein sollte und wie der Suchraum möglichst effizient verwaltet werden kann. Normalerweise ist der Suchraum abhängig vom Sprachmodell; wir führen ein neues Verfahren ein, mit welchem die Größe des Suchraums teilweise von der Ordnung des Sprachmodells entkoppelt werden kann. Wir führen eine neue Theorie ein, mit welcher erklärt werden kann, warum Pruning möglich ist, und welche dabei hilft, neue effektive Pruning-Verfahren zu entwickeln; dabei wird ein direktes Verhältnis zwischen Pruning und Rekombination hergestellt. Anschließend untersuchen wir übliche Pruning-Methoden bezüglich ihrer Effektivität und Motivation, führen neue Pruning-Methoden ein, und schlagen neue Look-Ahead Techniken vor, welche die Effektivität des Prunings weiter verbessern. Durch Pruning werden stets Suchfehler eingeführt, und es muss manuell ein ausgewogenes Verhältnis zwischen Suchfehlern und Geschwindigkeit gewählt werden. In einem letzten Schritt präsentieren wir eine neue Methode, mit deren Hilfe Suchfehler ohne Kenntnis der tatsächlich gesprochene Wortfolge erkannt werden können, und entwickeln darauf basierend ein Verfahren, das eine effiziente Suche fast ohne Suchfehler ermöglicht. Alle neuen Methoden werden auf einer Reihe unterschiedlicher Spracherkennungs-Systeme ausgewertet. Auf allen Systemen wird eine substanzielle Reduktion des Suchraums erzielt; insgesamt wird eine Beschleunigung der Suche um einen Faktor von mehr als 10 im Vergleich zum Basisverfahren erzielt.

The subject of this thesis is the search problem in automatic speech recognition. The search is responsible for matching an incoming acoustic speech signal with statistical speech models, in order to find the word sequence which is most most likely to have been spoken. In principle, it is necessary to enumerate all possible word sequences, to compute a likelihood for each word sequence according to the models, and to select the best one. When the vocabulary is large, then such a straightforward approach is not feasible, due to the huge number of possible word sequences; instead, state-of-the-art approaches transform the models into compact search network structures, match the input signal time-synchronously against the search network, and exploit recombination and pruning to limit the search effort. In this work, we analyze existing search strategies, combine them, and introduce novel extensions which further improve their efficiency and precision. We give a holistic overview of the ingredients required for efficient search. We investigate how the search network should be structured, and how the search space can be managed most efficiently. Normally, the search space depends on the language model; we introduce a novel search space management algorithm, which partially decouples the search effort from the language model’s order. We introduce a novel framework which explains why pruning is possible, and which helps motivating and finding effective pruning methods; it establishes a direct relationship between pruning and recombination. Then we analyze common pruning methods regarding effectiveness and motivation, introduce novel pruning methods, and propose improved look-ahead techniques which make the pruning more effective. Pruning induces a certain amount of search errors, and usually a specific trade-off between precision and efficiency needs to be selected manually. In a last step, we show how search errors can be detected, and derive a search algorithm which allows efficient search without search errors. All methods are evaluated experimentally on a variety of state-of-the-art speech recognition tasks. On all tasks, a considerable reduction of the search space is achieved using the new methods, and overall, a speedup of the core search by a factor of more than 10 is achieved in comparison to the baseline method.

OpenAccess:
PDF PDF (PDFA)
(additional files)