Quantile based histogram equalization for noise robust speech recognition

Hilger, Florian Erich; Ney, Hermann

doi:1050

Quantile based histogram equalization for noise robust speech recognition

Hilger, Florian Erich

2004 & 2005

Verantwortlichkeitsangabevorgelegt von Florian Erich Hilger

ImpressumAachen : Publikationsserver der RWTH Aachen University 2004

UmfangX, 150 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2004

Prüfungsjahr: 2004. - Publikationsjahr: 2005

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2004-12-06

Online
URN: urn:nbn:de:hbz:82-20050567
DOI: 10.18154/RWTH-CONV-121065
URL: https://publications.rwth-aachen.de/record/59262/files/59262.pdf

Einrichtungen

Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Störgeräusch (Genormte SW) ; Robustheit (Genormte SW) ; Merkmalsextraktion (Genormte SW) ; Histogramm (Genormte SW) ; Quantil (Genormte SW) ; Informatik (frei) ; automatic speech recognition (frei) ; noise (frei) ; robustness (frei) ; quantile equalization (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In vielen praktischen Anwendungen müssen Spracherkennungsysteme unter ungünstigen akustischen Umgebungsbedingungen arbeiten. Automatische Systeme reagieren viel empfindlicher als Menschen auf Variabilitäten im akustischen Signal. Sobald Geräusche dazu führen, dass sich die Verteilung der Trainingsdaten von derjenigen der zu erkennenden Daten unterscheidet, steigen die Wortfehlerraten bei der Erkennung. Der auf Quantilen basierende Histogram-Ausgleich ist eine Methode zur Verbesserung der Geräuschrobustheit. Während der Merkmalsextraktion verringert er einen etwaigen Unterschied zwischen den Verteilungen der Trainings- und Testdaten mit einer nichtlinearen, parametrischen Transformationsfunktion. Diese Arbeit beschreibt den Algorithmus und präsentiert die detaillierten experimentellen Untersuchungen. Basierend auf den Quantilen der kumulativen Verteilungen, können die Parameter der Transformationsfunktion verlässlich auf kleinen Datenmengen geschätzt werden. Das Verfahren ist in eine modifizierte Mel Cepstrum Merkmalsextraktion integriert, bei der eine Wurzelfunktion den Logarithmus ersetzt, um die Geräuschrobustheit zusätzlich zu erhöhen. Die eigentliche Transformationsfunktion, die hier vorgeschlagen wird, besteht aus zwei Schritten. Zuerst wird eine Potenzfunktion auf die einzelnen Ausgänge der Mel-skalierten Filterbank angewandt, dann werden benachbarte Filter linear kombiniert. Um die Verallgemeinerbarkeit des Verfahrens und der empfohlenen Parametereinstellungen zu untersuchen, wurden experimentelle Untersuchungen mit verschiedenen Spracherkennungsystemen auf unterschiedlich komplexen Datensätzen durchgeführt, von Ziffernketten (SpeechDat Car), zu Erkennungsaufgaben mit größerem Vokabular und Einzelworten (Car Navigation), sowie kontinuierlicher Sprache (Wall Street Journal mit Hintergrundgeräuschen). Auf allen Datensätzen wurden konsistente Erkennungsergebnisse beobachtet. Die modifizierte Merkmalsextraktion, mit der Wurzelfunktion an Stelle des Logarithmus, lieferte auf verrauschten Daten bereits bessere Erkennungsergebnisse als das Original. Die auf Quantilen basierende Transformation individueller Filterkanäle konnte diese Ergebnisse immer verbessern, abhängig von der Erkennungsaufgabe und dem Missverhältnis zwischen den Trainings- und Testdaten lagen die relativen Verbesserungen zwischen 5% und 50%. Schließlich konnte die Kombination benachbarter Filterkanäle die Fehlerrate noch etwas weiter reduzieren, insbesondere bei bandbegrenzten Geräuschen wie beispielsweise Fahrgeräuschen in Autos.

In many practical applications automatic speech recognition systems have to work in adverse acoustic environment conditions. Automatic systems are much more sensitive to the variabilities of the acoustic signal than humans. Whenever noise causes a mismatch between the distribution of the training data and the data that is to be recognized, the recognition word error rates will increase. Quantile based histogram equalization is a method to increase the noise robustness. During the feature extraction it reduces an eventual mismatch between the recognition and training data distributions with a non-linear parametric transformation function. This work describes the algorithm and presents detailed experimental evaluations. Based on the quantiles of the cumulative distributions, the parameters of the transformation functions can be reliably estimated from small amounts of data. The approach is integrated into a modified Mel cepstrum feature extraction, in which the logarithm is replaced by a root function to further increase the noise robustness. The actual transformation that is proposed in this work consists of two steps. First, a power function transformation is applied to each output of the Mel-scaled filter-bank, then neighboring filter are channels combined linearly. To investigate the genericity of the approach and the proposed setup experimental evaluations have been carried out with different speech recognition systems, on several databases with different levels of complexity, ranging from digit strings (SpeechDat Car) to larger vocabulary isolated word (Car Navigation) and continuous speech recognition tasks (Wall Street Journal with added noise). Consistent recognition results were observed on all databases. The modified feature extraction, with the root instead of the logarithm, already outperformed the original baseline on noisy data. Filter channel specific quantile equalization always improved these results, yielding relative improvements between of 5% and 50%, depending on the recognition task and the mismatch of the data. Finally, the combination of neighboring filter channels was able to reduce the error rates somewhat further, especially if the noise, like car noise, was band limited.

OpenAccess:
PDF
(additional files)