Speech signal enhancement by information combining

Heese, Florian; Vary, Peter; Martin, Rainer
doi:1437-6768
000674894 001__ 674894
000674894 005__ 20250613101300.0
000674894 020__ $$a978-3-95886-125-1
000674894 0247_ $$2URN$$aurn:nbn:de:hbz:82-rwth-2016-096782
000674894 0247_ $$2HBZ$$aHT019156101
000674894 0247_ $$2ISSN$$a1437-6768
000674894 0247_ $$2Laufende Nummer$$a35454
000674894 037__ $$aRWTH-2016-09678
000674894 041__ $$aEnglish
000674894 082__ $$a621.3
000674894 1001_ $$0P:(DE-82)IDM01658$$aHeese, Florian$$b0$$urwth
000674894 245__ $$aSpeech signal enhancement by information combining$$cvorgelegt von Diplom-Ingenieur Florian Kurt Wolfgang Paul Heese$$honline, print
000674894 246_3 $$aSprachsignalverbesserung mittels Information Combining$$yGerman
000674894 250__ $$a1. Auflage
000674894 260__ $$aAachen$$bWissenschaftsverlag Mainz$$c2016
000674894 300__ $$a1 Online-Ressource (x, 194 Seiten) : Illustrationen, Diagramme
000674894 3367_ $$2DataCite$$aOutput Types/Dissertation
000674894 3367_ $$2ORCID$$aDISSERTATION
000674894 3367_ $$2BibTeX$$aPHDTHESIS
000674894 3367_ $$02$$2EndNote$$aThesis
000674894 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
000674894 3367_ $$2DRIVER$$adoctoralThesis
000674894 3367_ $$0PUB:(DE-HGF)3$$2PUB:(DE-HGF)$$aBook$$mbook
000674894 4900_ $$aAachener Beiträge zu digitalen Nachrichtensystemen$$v44
000674894 500__ $$aAuch veröffentlicht auf dem Publikationsserver der RWTH Aachen University
000674894 502__ $$aDissertation, RWTH Aachen University, 2016$$bDissertation$$cRWTH Aachen University$$d2016$$gFak06$$o2016-09-22
000674894 5203_ $$aMobiltelefone sowie Tabletcomputer sind allgegenwärtig und gehören mittlerweile zum Alltag. Heutzutage findet audiovisuelle Kommunikation häufig an verschiedenen Orten und in einer Vielzahl von akustischen Umgebungen statt. Infolgedessen können sowohl die Sprachverständlichkeit als auch die Qualität der Sprache durch Umgebungsgeräusch deutlich verschlechtert werden. Um die Sprachverständlichkeit zu verbessern und eine Kommunikation mit hoher Audioqualität sicherzustellen, sind Algorithmen zur Sprachverbesserung erforderlich. In dieser Arbeit werden alle kritischen Komponenten, die zur Verbesserung des Uplinksignals beitragen, adressiert: • Die Signalaufnahme am akustischen Front-End mittels eines neuen Nahfeld-Beamformers, • ein neues codebuchbasiertes Sprach- und Störgeräuschschätzverfahren unter Ausnutzung von Zuverlässigkeitsinformationen und • die eigentliche Störgeräuschunterdrückung unter Ausnutzung der spektralen Abhängigkeiten der menschlichen Sprache. Für das akustische Front-End der digitalen Verarbeitungskette wird ein neues Konzept für die Filteroptimierung eines Nahfeld-Beamformers eingeführt. Das Optimierungsschema ermöglicht eine genaue Approximation an eine vordefinierte gewünschte Empfangscharakteristik, die je nach Anwendung frei gewählt werden kann. Das verbesserte Ausgangssignal des Beamformers weist ein verbessertem SNR auf und kann im folgenden zur weitere einkanalmikrofon basierte Sprachverbesserung verwendet werden. Die einkanalige Störgeräuschreduktion basiert in der Regel auf statistischen Eigenschaften von Sprache und Störung. Im allgemeinen wird angenommen, daß das Rauschen stationär oder nur langsam zeitvariabel ist, was in der Praxis jedoch oft nicht gegeben ist. Wegen der unpräzisen Störgeräuschschätzung sind einkanalige Störgeräuschreduktionssysteme anfällig für unangenehme Artefakte, die als „Musical Tones“ bezeichnet werden. Vor diesem Hintergrund werden verschiedene Methoden des „Information Combining“ vorgestellt, die unterschiedliche Sprach und Störgeräuschschätzungen kombinieren und speziell das Problem der nichtstationären Störgeräusche in Angriff nehmen. Dies führt zu einer signifikant verbesserten Schätzgenauigkeit. Einerseits wird das vorgeschlagene „Information Combining“ in Bezug auf die spektralen Abhängigkeiten der menschlichen Sprache verwendet. Andererseits ist es mögliche das Beste aus mehreren Sprach-und Störgeräuschschätzungen in Abhängigkeit ihrer Zuverlässigkeit zu kombinieren. Die notwendigen Schätzungen werden durch einen neuen statistischen Störgeräuschschätzer sowie einen codebuchbasiertes Sprach- und Störgeräuschschätzverfahren zur Verfügung gestellt. Die erreichte Schätzqualität eröffnet die Möglichkeit, die Lücke zwischen den gegensätzlichen Zielen der hohen Störgeräuschdämpfung, einer geringen Sprachverzerrung und der Vermeidung von unerwünschten „Musical Tone“ Artefakten zu schließen. Schließlich werden praktischen Aspekte der vorgeschlagenen Sprachverbesserungssysteme betrachtet und anhand von zwei implementierten Echtzeit-Demonstratoren diskutiert.$$lger
000674894 520__ $$aMobile phones as well as tablets are omnipresent and belong to everyday life. Today audiovisual communication takes place at different locations and in a large variety of acoustic environments. In consequence, the intelligibility as well as the quality of speech may significantly be degraded by ambient background noise. In order to improve speech intelligibility and to ensure a convenient communication with high audio quality, speech enhancement techniques are required. In this thesis all critical components contributing to the enhancement of the up-link signal are addressed: • signal capturing at the acoustic front-end with a new near field beam former, • new codebook based speech and noise estimation procedure generating and exploiting reliability information, and • actual noise reduction exploiting spectral dependencies of human speech. For the acoustic front-end of the digital processing chain a novel concept for the filter optimization of a near field beamformer is introduced. The optimization scheme allows to closely approximate a predefined reception characteristic which can be freely chosen according to the application. The output of the beamformer provides a pre-enhanced signal with improved SNR for subsequent single-microphone based speech enhancement. Single-microphone noise reduction usually relies on statistical properties of speech and noise. In general, the noise is assumed to be stationary or only slightly time-varying, which is in practice often not fulfilled. Due to imprecise noise estimation, single-microphone systems are prone to unpleasant artifacts that are called musical tones. In this context different Information Combining methods, merging various estimates, are presented which address specifically the problem of non-stationary noise signals, leading to a significant improved estimation accuracy. On the one hand, the proposed Information Combining is used with respect to spectral dependencies of human speech. On the other hand, it merges the best of several speech and noise estimates depending on their reliability. The necessary estimates are provided by a new statistical noise estimator as well as a codebook driven speech and noise estimation algorithm. The achieved estimation quality opens up the possibility to close the gap between the conflicting goals of high noise attenuation, low speech distortion, and the prevention of undesired musical tone artifacts. Finally, the practical aspects of the proposed enhancement systems are considered and discussed with two implemented real-time demonstrators.$$leng
000674894 591__ $$aGermany
000674894 653_7 $$aspeech enhancement
000674894 653_7 $$anear field beamforming
000674894 653_7 $$anoise
000674894 653_7 $$asuppression
000674894 653_7 $$acodebook
000674894 653_7 $$anoise estimation
000674894 653_7 $$aspeech estimation
000674894 653_7 $$abaseline tracing
000674894 653_7 $$ainformation combining
000674894 7001_ $$0P:(DE-82)005758$$aVary, Peter$$b1$$eThesis advisor
000674894 7001_ $$0P:(DE-82)005721$$aMartin, Rainer$$b2$$eThesis advisor
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.pdf$$yOpenAccess
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894_source.zip$$yRestricted
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.gif?subformat=icon$$xicon$$yOpenAccess
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-1440$$xicon-1440$$yOpenAccess
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-180$$xicon-180$$yOpenAccess
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-640$$xicon-640$$yOpenAccess
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-700$$xicon-700$$yOpenAccess
000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.pdf?subformat=pdfa$$xpdfa$$yOpenAccess
000674894 909CO $$ooai:publications.rwth-aachen.de:674894$$popenaire$$popen_access$$purn$$pdriver$$pVDB$$pdnbdelivery
000674894 9141_ $$y2016
000674894 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
000674894 9201_ $$0I:(DE-82)613310_20140620$$k613310$$lLehrstuhl und Institut für Nachrichtengeräte und Datenverarbeitung$$x0
000674894 961__ $$c2016-12-20T16:30:35.008529$$x2016-11-16T16:50:05.181100$$z2016-12-20T16:30:35.008529
000674894 9801_ $$aFullTexts
000674894 980__ $$aphd
000674894 980__ $$aVDB
000674894 980__ $$aI:(DE-82)613310_20140620
000674894 980__ $$aUNRESTRICTED
000674894 980__ $$abook
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines