h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Speech signal enhancement by information combining = Sprachsignalverbesserung mittels Information Combining



Verantwortlichkeitsangabevorgelegt von Diplom-Ingenieur Florian Kurt Wolfgang Paul Heese

Ausgabe1. Auflage

ImpressumAachen : Wissenschaftsverlag Mainz 2016

Umfang1 Online-Ressource (x, 194 Seiten) : Illustrationen, Diagramme

ISBN978-3-95886-125-1

ReiheAachener Beiträge zu digitalen Nachrichtensystemen ; 44


Dissertation, RWTH Aachen University, 2016

Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2016-09-22

Online
URN: urn:nbn:de:hbz:82-rwth-2016-096782
URL: http://publications.rwth-aachen.de/record/674894/files/674894.pdf
URL: http://publications.rwth-aachen.de/record/674894/files/674894.pdf?subformat=pdfa

Einrichtungen

  1. Lehrstuhl und Institut für Nachrichtengeräte und Datenverarbeitung (613310)

Inhaltliche Beschreibung (Schlagwörter)
speech enhancement (frei) ; near field beamforming (frei) ; noise (frei) ; suppression (frei) ; codebook (frei) ; noise estimation (frei) ; speech estimation (frei) ; baseline tracing (frei) ; information combining (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Mobiltelefone sowie Tabletcomputer sind allgegenwärtig und gehören mittlerweile zum Alltag. Heutzutage findet audiovisuelle Kommunikation häufig an verschiedenen Orten und in einer Vielzahl von akustischen Umgebungen statt. Infolgedessen können sowohl die Sprachverständlichkeit als auch die Qualität der Sprache durch Umgebungsgeräusch deutlich verschlechtert werden. Um die Sprachverständlichkeit zu verbessern und eine Kommunikation mit hoher Audioqualität sicherzustellen, sind Algorithmen zur Sprachverbesserung erforderlich. In dieser Arbeit werden alle kritischen Komponenten, die zur Verbesserung des Uplinksignals beitragen, adressiert: • Die Signalaufnahme am akustischen Front-End mittels eines neuen Nahfeld-Beamformers, • ein neues codebuchbasiertes Sprach- und Störgeräuschschätzverfahren unter Ausnutzung von Zuverlässigkeitsinformationen und • die eigentliche Störgeräuschunterdrückung unter Ausnutzung der spektralen Abhängigkeiten der menschlichen Sprache. Für das akustische Front-End der digitalen Verarbeitungskette wird ein neues Konzept für die Filteroptimierung eines Nahfeld-Beamformers eingeführt. Das Optimierungsschema ermöglicht eine genaue Approximation an eine vordefinierte gewünschte Empfangscharakteristik, die je nach Anwendung frei gewählt werden kann. Das verbesserte Ausgangssignal des Beamformers weist ein verbessertem SNR auf und kann im folgenden zur weitere einkanalmikrofon basierte Sprachverbesserung verwendet werden. Die einkanalige Störgeräuschreduktion basiert in der Regel auf statistischen Eigenschaften von Sprache und Störung. Im allgemeinen wird angenommen, daß das Rauschen stationär oder nur langsam zeitvariabel ist, was in der Praxis jedoch oft nicht gegeben ist. Wegen der unpräzisen Störgeräuschschätzung sind einkanalige Störgeräuschreduktionssysteme anfällig für unangenehme Artefakte, die als „Musical Tones“ bezeichnet werden. Vor diesem Hintergrund werden verschiedene Methoden des „Information Combining“ vorgestellt, die unterschiedliche Sprach und Störgeräuschschätzungen kombinieren und speziell das Problem der nichtstationären Störgeräusche in Angriff nehmen. Dies führt zu einer signifikant verbesserten Schätzgenauigkeit. Einerseits wird das vorgeschlagene „Information Combining“ in Bezug auf die spektralen Abhängigkeiten der menschlichen Sprache verwendet. Andererseits ist es mögliche das Beste aus mehreren Sprach-und Störgeräuschschätzungen in Abhängigkeit ihrer Zuverlässigkeit zu kombinieren. Die notwendigen Schätzungen werden durch einen neuen statistischen Störgeräuschschätzer sowie einen codebuchbasiertes Sprach- und Störgeräuschschätzverfahren zur Verfügung gestellt. Die erreichte Schätzqualität eröffnet die Möglichkeit, die Lücke zwischen den gegensätzlichen Zielen der hohen Störgeräuschdämpfung, einer geringen Sprachverzerrung und der Vermeidung von unerwünschten „Musical Tone“ Artefakten zu schließen. Schließlich werden praktischen Aspekte der vorgeschlagenen Sprachverbesserungssysteme betrachtet und anhand von zwei implementierten Echtzeit-Demonstratoren diskutiert.

Mobile phones as well as tablets are omnipresent and belong to everyday life. Today audiovisual communication takes place at different locations and in a large variety of acoustic environments. In consequence, the intelligibility as well as the quality of speech may significantly be degraded by ambient background noise. In order to improve speech intelligibility and to ensure a convenient communication with high audio quality, speech enhancement techniques are required. In this thesis all critical components contributing to the enhancement of the up-link signal are addressed: • signal capturing at the acoustic front-end with a new near field beam former, • new codebook based speech and noise estimation procedure generating and exploiting reliability information, and • actual noise reduction exploiting spectral dependencies of human speech. For the acoustic front-end of the digital processing chain a novel concept for the filter optimization of a near field beamformer is introduced. The optimization scheme allows to closely approximate a predefined reception characteristic which can be freely chosen according to the application. The output of the beamformer provides a pre-enhanced signal with improved SNR for subsequent single-microphone based speech enhancement. Single-microphone noise reduction usually relies on statistical properties of speech and noise. In general, the noise is assumed to be stationary or only slightly time-varying, which is in practice often not fulfilled. Due to imprecise noise estimation, single-microphone systems are prone to unpleasant artifacts that are called musical tones. In this context different Information Combining methods, merging various estimates, are presented which address specifically the problem of non-stationary noise signals, leading to a significant improved estimation accuracy. On the one hand, the proposed Information Combining is used with respect to spectral dependencies of human speech. On the other hand, it merges the best of several speech and noise estimates depending on their reliability. The necessary estimates are provided by a new statistical noise estimator as well as a codebook driven speech and noise estimation algorithm. The achieved estimation quality opens up the possibility to close the gap between the conflicting goals of high noise attenuation, low speech distortion, and the prevention of undesired musical tone artifacts. Finally, the practical aspects of the proposed enhancement systems are considered and discussed with two implemented real-time demonstrators.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Dissertation / PhD Thesis/Book

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT019156101

Interne Identnummern
RWTH-2016-09678
Datensatz-ID: 674894

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Document types > Books > Books
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
613310

 Record created 2016-11-16, last modified 2025-06-13