Speech signal enhancement by information combining

Heese, Florian; Vary, Peter; Martin, Rainer

doi:1437-6768

Items
Marc 21

001			674894
005			20250613101300.0
020	_	_	\|a 978-3-95886-125-1
024	7	_	\|2 URN \|a urn:nbn:de:hbz:82-rwth-2016-096782
024	7	_	\|2 HBZ \|a HT019156101
024	7	_	\|2 ISSN \|a 1437-6768
024	7	_	\|2 Laufende Nummer \|a 35454
037	_	_	\|a RWTH-2016-09678
041	_	_	\|a English
082	_	_	\|a 621.3
100	1	_	\|0 P:(DE-82)IDM01658 \|a Heese, Florian \|b 0 \|u rwth
245	_	_	\|a Speech signal enhancement by information combining \|c vorgelegt von Diplom-Ingenieur Florian Kurt Wolfgang Paul Heese \|h online, print
246	_	3	\|a Sprachsignalverbesserung mittels Information Combining \|y German
250	_	_	\|a 1. Auflage
260	_	_	\|a Aachen \|b Wissenschaftsverlag Mainz \|c 2016
300	_	_	\|a 1 Online-Ressource (x, 194 Seiten) : Illustrationen, Diagramme
336	7	_	\|2 DataCite \|a Output Types/Dissertation
336	7	_	\|2 ORCID \|a DISSERTATION
336	7	_	\|2 BibTeX \|a PHDTHESIS
336	7	_	\|0 2 \|2 EndNote \|a Thesis
336	7	_	\|0 PUB:(DE-HGF)11 \|2 PUB:(DE-HGF) \|a Dissertation / PhD Thesis \|b phd \|m phd
336	7	_	\|2 DRIVER \|a doctoralThesis
336	7	_	\|0 PUB:(DE-HGF)3 \|2 PUB:(DE-HGF) \|a Book \|m book
490	0	_	\|a Aachener Beiträge zu digitalen Nachrichtensystemen \|v 44
500	_	_	\|a Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University
502	_	_	\|a Dissertation, RWTH Aachen University, 2016 \|b Dissertation \|c RWTH Aachen University \|d 2016 \|g Fak06 \|o 2016-09-22
520	3	_	\|a Mobiltelefone sowie Tabletcomputer sind allgegenwärtig und gehören mittlerweile zum Alltag. Heutzutage findet audiovisuelle Kommunikation häufig an verschiedenen Orten und in einer Vielzahl von akustischen Umgebungen statt. Infolgedessen können sowohl die Sprachverständlichkeit als auch die Qualität der Sprache durch Umgebungsgeräusch deutlich verschlechtert werden. Um die Sprachverständlichkeit zu verbessern und eine Kommunikation mit hoher Audioqualität sicherzustellen, sind Algorithmen zur Sprachverbesserung erforderlich. In dieser Arbeit werden alle kritischen Komponenten, die zur Verbesserung des Uplinksignals beitragen, adressiert: • Die Signalaufnahme am akustischen Front-End mittels eines neuen Nahfeld-Beamformers, • ein neues codebuchbasiertes Sprach- und Störgeräuschschätzverfahren unter Ausnutzung von Zuverlässigkeitsinformationen und • die eigentliche Störgeräuschunterdrückung unter Ausnutzung der spektralen Abhängigkeiten der menschlichen Sprache. Für das akustische Front-End der digitalen Verarbeitungskette wird ein neues Konzept für die Filteroptimierung eines Nahfeld-Beamformers eingeführt. Das Optimierungsschema ermöglicht eine genaue Approximation an eine vordefinierte gewünschte Empfangscharakteristik, die je nach Anwendung frei gewählt werden kann. Das verbesserte Ausgangssignal des Beamformers weist ein verbessertem SNR auf und kann im folgenden zur weitere einkanalmikrofon basierte Sprachverbesserung verwendet werden. Die einkanalige Störgeräuschreduktion basiert in der Regel auf statistischen Eigenschaften von Sprache und Störung. Im allgemeinen wird angenommen, daß das Rauschen stationär oder nur langsam zeitvariabel ist, was in der Praxis jedoch oft nicht gegeben ist. Wegen der unpräzisen Störgeräuschschätzung sind einkanalige Störgeräuschreduktionssysteme anfällig für unangenehme Artefakte, die als „Musical Tones“ bezeichnet werden. Vor diesem Hintergrund werden verschiedene Methoden des „Information Combining“ vorgestellt, die unterschiedliche Sprach und Störgeräuschschätzungen kombinieren und speziell das Problem der nichtstationären Störgeräusche in Angriff nehmen. Dies führt zu einer signifikant verbesserten Schätzgenauigkeit. Einerseits wird das vorgeschlagene „Information Combining“ in Bezug auf die spektralen Abhängigkeiten der menschlichen Sprache verwendet. Andererseits ist es mögliche das Beste aus mehreren Sprach-und Störgeräuschschätzungen in Abhängigkeit ihrer Zuverlässigkeit zu kombinieren. Die notwendigen Schätzungen werden durch einen neuen statistischen Störgeräuschschätzer sowie einen codebuchbasiertes Sprach- und Störgeräuschschätzverfahren zur Verfügung gestellt. Die erreichte Schätzqualität eröffnet die Möglichkeit, die Lücke zwischen den gegensätzlichen Zielen der hohen Störgeräuschdämpfung, einer geringen Sprachverzerrung und der Vermeidung von unerwünschten „Musical Tone“ Artefakten zu schließen. Schließlich werden praktischen Aspekte der vorgeschlagenen Sprachverbesserungssysteme betrachtet und anhand von zwei implementierten Echtzeit-Demonstratoren diskutiert. \|l ger
520	_	_	\|a Mobile phones as well as tablets are omnipresent and belong to everyday life. Today audiovisual communication takes place at different locations and in a large variety of acoustic environments. In consequence, the intelligibility as well as the quality of speech may significantly be degraded by ambient background noise. In order to improve speech intelligibility and to ensure a convenient communication with high audio quality, speech enhancement techniques are required. In this thesis all critical components contributing to the enhancement of the up-link signal are addressed: • signal capturing at the acoustic front-end with a new near field beam former, • new codebook based speech and noise estimation procedure generating and exploiting reliability information, and • actual noise reduction exploiting spectral dependencies of human speech. For the acoustic front-end of the digital processing chain a novel concept for the filter optimization of a near field beamformer is introduced. The optimization scheme allows to closely approximate a predefined reception characteristic which can be freely chosen according to the application. The output of the beamformer provides a pre-enhanced signal with improved SNR for subsequent single-microphone based speech enhancement. Single-microphone noise reduction usually relies on statistical properties of speech and noise. In general, the noise is assumed to be stationary or only slightly time-varying, which is in practice often not fulfilled. Due to imprecise noise estimation, single-microphone systems are prone to unpleasant artifacts that are called musical tones. In this context different Information Combining methods, merging various estimates, are presented which address specifically the problem of non-stationary noise signals, leading to a significant improved estimation accuracy. On the one hand, the proposed Information Combining is used with respect to spectral dependencies of human speech. On the other hand, it merges the best of several speech and noise estimates depending on their reliability. The necessary estimates are provided by a new statistical noise estimator as well as a codebook driven speech and noise estimation algorithm. The achieved estimation quality opens up the possibility to close the gap between the conflicting goals of high noise attenuation, low speech distortion, and the prevention of undesired musical tone artifacts. Finally, the practical aspects of the proposed enhancement systems are considered and discussed with two implemented real-time demonstrators. \|l eng
591	_	_	\|a Germany
653	_	7	\|a speech enhancement
653	_	7	\|a near field beamforming
653	_	7	\|a noise
653	_	7	\|a suppression
653	_	7	\|a codebook
653	_	7	\|a noise estimation
653	_	7	\|a speech estimation
653	_	7	\|a baseline tracing
653	_	7	\|a information combining
700	1	_	\|0 P:(DE-82)005758 \|a Vary, Peter \|b 1 \|e Thesis advisor
700	1	_	\|0 P:(DE-82)005721 \|a Martin, Rainer \|b 2 \|e Thesis advisor
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894.pdf \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894_source.zip \|y Restricted
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894.gif?subformat=icon \|x icon \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-1440 \|x icon-1440 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-180 \|x icon-180 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-640 \|x icon-640 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-700 \|x icon-700 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/674894/files/674894.pdf?subformat=pdfa \|x pdfa \|y OpenAccess
909	C	O	\|o oai:publications.rwth-aachen.de:674894 \|p dnbdelivery \|p VDB \|p driver \|p urn \|p open_access \|p openaire
914	1	_	\|y 2016
915	_	_	\|0 StatID:(DE-HGF)0510 \|2 StatID \|a OpenAccess
920	1	_	\|0 I:(DE-82)613310_20140620 \|k 613310 \|l Lehrstuhl und Institut für Nachrichtengeräte und Datenverarbeitung \|x 0
980	1	_	\|a FullTexts
980	_	_	\|a phd
980	_	_	\|a VDB
980	_	_	\|a I:(DE-82)613310_20140620
980	_	_	\|a UNRESTRICTED
980	_	_	\|a book

Library	Collection	CLSMajor	CLSMinor	Language	Author

Marc 21

h1

h2

h3

h4

h5

h6