Across-word phoneme models for large vocabulary continuous speech recognition

Sixtus, Achim; Ney, Hermann

doi:24726

Across-word phoneme models for large vocabulary continuous speech recognition

Sixtus, Achim (Author)

2003

Verantwortlichkeitsangabevorgelegt von Achim Sixtus

ImpressumAachen : Publikationsserver der RWTH Aachen University 2003

Umfang182 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2003

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2003-01-10

Online
URN: urn:nbn:de:hbz:82-opus-5013
URL: https://publications.rwth-aachen.de/record/60038/files/Sixtus_Achim.pdf

Einrichtungen

Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; Speech Recognition (frei) ; Across-Word Phoneme Models (frei) ; Cross-Word Models (frei) ; Acoustic Model (frei) ; Context Dependent Models (frei) ; Search (frei) ; Wordgraph (frei) ; Training (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Innerhalb dieser Arbeit wird die Anwendung von wortübergreifenden Phonemmodellen in der automatischen Erkennung kontinuierlicher Sprache bei großem Vokabular untersucht. Es wird ein Erkennungssystem entwickelt, welches das Training von hoch leistungsfähigen wortübergreifendenden Phonemmodellen, die effiziente Anwendung dieser Modelle zusammen mit langreichweitigen Sprachmodellen in einem einzigen Suchdurchlauf, sowie die Erzeugung von Wortgraphen ermöglicht. Im Gegensatz zu rein wortinternen Phonemmodellen, die die Kontextabhängigkeit der Phoneme, die die Worte des Vokabulars repräsentieren, nur innerhalb dieser Worte berücksichtigen und an Wortgrenzen lediglich einen reduzierten Phonemkontext verwenden, berücksichtigen wortübergreifende Phonemmodelle die Kontextabhänigkeit der Phoneme auch über die Wortgrenzen hinweg. Es ist seit langem bekannt, daß dies zu einer signifikanten Verbesserung der Wortfehlerrate führt, aber auch einen erheblich höheren Rechenaufwand erfordert. Heutzutage werden wortübergreifende Phonemmodelle von einer Reihe von Forschungsgruppen eingesetzt. Die veröffentlichten Beschreibungen der jeweiligen Erkennungssysteme sind allerdings häufig sehr allgemein gehalten. Implementierungsdetails, die eine erfolgreiche Anwendung von wortübergreifenden Phonemmodellen zwingend erfordert, fehlen üblicherweise in den Systembeschreibungen. Diese Arbeit beschreibt im Detail alle notwendingen Modifikationen eines ursprünglich wortinternen Spracherkennungssystem, um die effiziente Anwendung von wortübergreifenden Phonemmodellen zu ermöglichen. Die Auswirkungen der Einführung von wortübergreifenden Phonemmodellen auf Erkennunsgleistung, Laufzeit und Speicherbedarf des Erkennungssystems werden umfassend analysiert. Zunächst wird das Prinzip der wortübergreifendenden Phonemmodelle in die sehr allgemeine Bayes'sche Entscheidungsregel integriert, auf der die Technologie der automatischen Spracherkennung basiert. Es wird eine spezialisierte Entscheidungsregel hergeleitet, die alle Modellannahmen und Approximationen berücksichtigt, die für den Einsatz von wortübergreifenden Phonemmodellen benötigt werden. Diese spezialisierte Entscheidungsregel bildet die Grundlage für die Realisierung des wortübergreifenden Erkennungssystems. Im Vergleich zu der ursprünglichen wortinternen Phonemmodellierung führt die Einführung von wortübergreifenden Phonemmodellen zu einem erheblich komplexeren Such-Netzwerk. Die effiziente Anwendung von wortübergreifenden Phonemmodellen zusammen mit langreichweitigen Sprachmodellen in einem einzigen Suchdurchlauf erfordert somit einen sorgfältigen Entwurf sowohl des Such-Netzwerkes als auch des Such-Algorithmus. Während des Trainings ist, im Unterschied zur ursprünglichen wortinternen Phonemmodellierung, die phonetische Repräsentation der Trainingsäußerungen nicht mehr eindeutig, wenn wortübergreifende Phonemmodelle trainiert werden sollen. Weiterhin ist die Konfiguration des Trainings zu modifizieren, um wortübergreifende Phonnemmodelle mit optimaler Erkennungsleistung zu erhalten. Schließlich beeinflußt die Einführung von wortübergreifenden Phonemmodellen auch die Erzeugung von Wortgraphen. Um die Laufzeit der neu entwickelten Suche weiter zu verbessern, werden diverse Beschleunigungsmethoden eingesetzt, die in der Literatur zum Teil bereits für wortinterne Systeme vorgestellt wurden. Weiterhin werden diverse Methoden zur weiteren Verfeinerung der Aussprache-Modellierung untersucht, um die Genauigkeit der wortübergreifenden Phonemmodelle noch weiter zu erhöhen. Das entwickelte wortübergreifende Erkennungssystem wird schließlich auf drei unterschiedlichen Sprachdatensammlungen evaluiert. Die Erkennungsleistung der wortübergreifenden Phonemmodelle des neuen Systems wird verglichen mit der Erkennungsleistung der wortinternen Phonemmodelle des ursprünglichen Systems. Weiterhin werden auf zwei dieser Datensammlungen die Erkennungsergebnisse des neuen Systems mit den Ergebnissen anderer Forschungsgruppen verglichen. Es wird sich zeigen, daß das neu entwickelte System in der Lage ist, Wortfehlerraten zu erzeugen, die dem aktuellen Stand der Technik entsprechen.

In this work, the application of across-word phoneme models during large vocabulary continuous speech recognition is studied. A recognition system will be developed which allows for the training of high performance across-word phoneme models, the efficient application of these across-word phoneme models in combination with long-span language models in one single search pass, and the construction of word graphs. In contrast to within-word phoneme models which consider the context dependency of the phonemes representing the words in the vocabulary only within the words and use a reduced phonetic context at word boundaries, across-word phoneme models consider the context dependency of the phonemes also across word boundaries. As it is known for many years, this results in significant word error rate improvements but also in a considerably higher computational effort. Today, across-word phoneme models are applied by a number of groups. However, the published descriptions of these recognition systems are often quite general, many implementation details needed for the successful application of across-word phoneme models are usually missing. In this work, all details about the transformation of a baseline within-word model system into an across-word model system will be discussed. It will be analyzed in detail how the introduction of across-word phoneme models affects word error rate, runtime and memory requirements of the recognition system. First, the across-word model paradigm will be integrated into the very general Bayes' decision rule which is the basis of speech recognition. Taking all model assumptions and approximations needed for the application of across-word models into account, a specialized decision rule will be derived. Based on this specialized decision rule the across-word model system will be developed. Compared to the baseline within-word model system, the introduction of across-word phoneme models results in a significantly more complex search network. The efficient application of across-word phoneme models in combination with long-span language models in one single search pass requires a careful design of the search network as well as of the search algorithm which will be discussed in detail. In contrast to the baseline within-word model training, the phonetic representation of the training utterances is not unique anymore if across-word models are to be trained. Furthermore, the parameterization of the baseline within-word model training should be modified in order to obtain optimally performing across-word models. Finally, the introduction of across-word models affects also the construction of word graphs. In order to optimize the runtime of the developed across-word model search further, several acceleration methods will be applied which have partly already been discussed for within-word model systems in the literature. In addition, methods for further increasing the accuracy of across-word models will be studied which are based on a refined pronunciation modeling. The developed across-word system will be finally evaluated on three different speech corpora by comparing the recognition results of this system to the recognition results of the baseline within-word model system. On two of the corpora, these results will also be compared to the results of other research groups, as they are published in the literature. It will be seen that the developed recognition system produces state-of-the-art word error rates.

Fulltext:
PDF
(additional files)