Efficient setup of acoustic models for large vocabulary continuous speech recognition

Gollan, Christian; Ney, Hermann; Lamel, Lori

doi:urn:nbn:de:hbz:82-rwth-2015-033258

Efficient setup of acoustic models for large vocabulary continuous speech recognition = Effiziente Entwicklung akustischer Modelle für kontinuierliche Spracherkennungssysteme mit großem Vokabular

Gollan, Christian

2015

Verantwortlichkeitsangabevorgelegt von Christian Gollan

ImpressumAachen : Publikationsserver der RWTH Aachen University 2015

UmfangXVI, 106 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2015

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Lamel, Lori (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2014-08-21

Online
URN: urn:nbn:de:hbz:82-rwth-2015-033258
URL: http://publications.rwth-aachen.de/record/479842/files/479842.pdf
URL: http://publications.rwth-aachen.de/record/479842/files/479842.pdf?subformat=pdfa

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Automatische Sprachtranskriptionssysteme werden für zahlreiche Sprachen, Domänen, und Applikationen entwickelt. Herkömmliche Transkriptionssysteme verwenden statistischeModelle zur Bestimmung der wahrscheinlichsten Transkription. Für eine optimale Transkriptionsleistung werden große, der Aufgabe entsprechende Datensätzebenötigt, um die Parameter der statistischen Modelle datengetrieben zu trainieren. Das manuelle Aufsetzen von qualitativ hochwertig transkribierten Sprachdaten zur Entwicklung von statistischen akustischen Modellen ist dabei eine der zeit- und kostenintensivstenAufgaben. In dieser Arbeit werden Methoden für die unüberwachte datengetriebene Bestimmungvon akustischen Modellparametern untersucht, welche den Zeit- und Kostenfaktorder Entwicklung eines automatischen Sprachtranskriptionssystemes reduzieren. Zuerst wird der aufwändige Entstehungsprozess eines manuell verschrifteten Sprachkorpuszum initialen Aufsetzen eines Sprachtranskriptionssystemes beschrieben. Demgegenüber präsentieren wir kosteneffiziente Ansätze zur schnellen Portierung eines bestehenden Sprachtranskriptionssystemes zu einer neuen Domäne oder anderen Sprache, für den Fall das Kosten- oder Zeitvorgaben die Systementwicklung einschränken. Es folgt die Systembeschreibung zur effizienten Generierung von Posteriorkonfidenzenfür die verschiedenen Details einer automatisch erzeugten Transkriptionshypothese: Posteriorkonfidenzen auf Wort-, Ausprache-, oder Zustandsebene. Konfidenzbasierte Gewichtungs- und Selektionsmethoden werden mit verschiedenen unüberwachten Adaptionsverfahren für akustische Modelle evaluiert. Posteriorkonfidenzen auf Zustandsebene werden sowohl zur unüberwachten Adaption als auch zum unüberwachten Trainingvon akustischen Modellparametern untersucht. Ebenso werden verschiedene unüberwachte Trainingsszenarien betrachtet, die sich durch die Quantität und Qualität der Trainingsdaten voneinander unterscheiden. Wir verbessern die Erkennungsrate eines Transkriptionssystemes optimiert für in Englischgehaltene Reden im Europäischen Parlament – trainiert mit einhundert Stunden manuell sorgsam transkribierter Sprachdaten – durch die Hinzunahme von automatisch transkribiertenSprachdaten. Im Gegensatz dazu initialisieren wir ein polnisches akustisches Modell durch ein spanisches Modell und verbessern das polnische Modell iterativ indem wir ausschließlich automatisch transkribierte Trainingsdaten verwenden. Desweiterenwird die Verbesserung eines persischen Aussprachelexikons durch die unüberwachte Optimierung eines statistischen Aussprachemodells beschrieben. Abschließend diskutieren wir die Aufgabe – analog zur Lösung eines Verschlüsselungssystemes – ein akustisches Modell ohne manuell transkribierte Trainings- oder Testdaten zu entwickeln.

Automatic speech transcription systems are developed for various languages, domains,and applications. Statistical models are used in conventional automatic speech transcription systems to produce the most likely transcription. For optimal performance, large task representative databases are required for data driven parameter estimationof statistical speech transcription models. The manual creation of high quality labeled speech data for statistical model training is by far the most time consuming processand also one of the largest cost factors to be considered. In this thesis, we investigate unsupervised parameter training and refinement methods for acoustic models to reduce time and cost factors in the development of automatic speech transcription systems. First, we describe the costly creation process of manually labeled training data to setup a transcription system from scratch. In contrast, we present a cost-efficient rapidporting of an existing transcription system for a new domain or language, when the setup of a transcription system is constrained by a budget or time limit. We summarize a framework to efficiently enrich automatically generated transcription hypotheses with posterior confidence scores for different transcription details, e.g.word, pronunciation, or state confidence scores. We evaluate confidence based weightingand filtering approaches for various unsupervised acoustic model adaptation techniques. Posterior confidence scores on state level are studied for unsupervised adaptation as well as for unsupervised training of acoustic model parameters. We examine different unsupervised training scenarios where the amount and thequality of available language resources vary. We improve the accuracy of a well tuned English transcription system for European parliament speeches – trained on one hundredhours of carefully manually transcribed speech data – by applying additional automatically labeled audio recordings. In contrast to this scenario, we then bootstrap the acoustic model of a Polish transcription system from a Spanish model and iteratively refine the Polish model by exclusively using automatically labeled training data. In addition, we address the scenario of improving a Persian pronunciation lexicon by unsupervised refinement of a statistical pronunciation model. Finally, we discuss the task of developing an acoustic model for a transcription system without any manually labeled training or evaluation data analogously to the task of breaking a cipher system.

OpenAccess:
PDF PDF (PDFA)
(additional files)