000674894 001__ 674894 000674894 005__ 20250613101300.0 000674894 020__ $$a978-3-95886-125-1 000674894 0247_ $$2URN$$aurn:nbn:de:hbz:82-rwth-2016-096782 000674894 0247_ $$2HBZ$$aHT019156101 000674894 0247_ $$2ISSN$$a1437-6768 000674894 0247_ $$2Laufende Nummer$$a35454 000674894 037__ $$aRWTH-2016-09678 000674894 041__ $$aEnglish 000674894 082__ $$a621.3 000674894 1001_ $$0P:(DE-82)IDM01658$$aHeese, Florian$$b0$$urwth 000674894 245__ $$aSpeech signal enhancement by information combining$$cvorgelegt von Diplom-Ingenieur Florian Kurt Wolfgang Paul Heese$$honline, print 000674894 246_3 $$aSprachsignalverbesserung mittels Information Combining$$yGerman 000674894 250__ $$a1. Auflage 000674894 260__ $$aAachen$$bWissenschaftsverlag Mainz$$c2016 000674894 300__ $$a1 Online-Ressource (x, 194 Seiten) : Illustrationen, Diagramme 000674894 3367_ $$2DataCite$$aOutput Types/Dissertation 000674894 3367_ $$2ORCID$$aDISSERTATION 000674894 3367_ $$2BibTeX$$aPHDTHESIS 000674894 3367_ $$02$$2EndNote$$aThesis 000674894 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd 000674894 3367_ $$2DRIVER$$adoctoralThesis 000674894 3367_ $$0PUB:(DE-HGF)3$$2PUB:(DE-HGF)$$aBook$$mbook 000674894 4900_ $$aAachener Beiträge zu digitalen Nachrichtensystemen$$v44 000674894 500__ $$aAuch veröffentlicht auf dem Publikationsserver der RWTH Aachen University 000674894 502__ $$aDissertation, RWTH Aachen University, 2016$$bDissertation$$cRWTH Aachen University$$d2016$$gFak06$$o2016-09-22 000674894 5203_ $$aMobiltelefone sowie Tabletcomputer sind allgegenwärtig und gehören mittlerweile zum Alltag. Heutzutage findet audiovisuelle Kommunikation häufig an verschiedenen Orten und in einer Vielzahl von akustischen Umgebungen statt. Infolgedessen können sowohl die Sprachverständlichkeit als auch die Qualität der Sprache durch Umgebungsgeräusch deutlich verschlechtert werden. Um die Sprachverständlichkeit zu verbessern und eine Kommunikation mit hoher Audioqualität sicherzustellen, sind Algorithmen zur Sprachverbesserung erforderlich. In dieser Arbeit werden alle kritischen Komponenten, die zur Verbesserung des Uplinksignals beitragen, adressiert: • Die Signalaufnahme am akustischen Front-End mittels eines neuen Nahfeld-Beamformers, • ein neues codebuchbasiertes Sprach- und Störgeräuschschätzverfahren unter Ausnutzung von Zuverlässigkeitsinformationen und • die eigentliche Störgeräuschunterdrückung unter Ausnutzung der spektralen Abhängigkeiten der menschlichen Sprache. Für das akustische Front-End der digitalen Verarbeitungskette wird ein neues Konzept für die Filteroptimierung eines Nahfeld-Beamformers eingeführt. Das Optimierungsschema ermöglicht eine genaue Approximation an eine vordefinierte gewünschte Empfangscharakteristik, die je nach Anwendung frei gewählt werden kann. Das verbesserte Ausgangssignal des Beamformers weist ein verbessertem SNR auf und kann im folgenden zur weitere einkanalmikrofon basierte Sprachverbesserung verwendet werden. Die einkanalige Störgeräuschreduktion basiert in der Regel auf statistischen Eigenschaften von Sprache und Störung. Im allgemeinen wird angenommen, daß das Rauschen stationär oder nur langsam zeitvariabel ist, was in der Praxis jedoch oft nicht gegeben ist. Wegen der unpräzisen Störgeräuschschätzung sind einkanalige Störgeräuschreduktionssysteme anfällig für unangenehme Artefakte, die als „Musical Tones“ bezeichnet werden. Vor diesem Hintergrund werden verschiedene Methoden des „Information Combining“ vorgestellt, die unterschiedliche Sprach und Störgeräuschschätzungen kombinieren und speziell das Problem der nichtstationären Störgeräusche in Angriff nehmen. Dies führt zu einer signifikant verbesserten Schätzgenauigkeit. Einerseits wird das vorgeschlagene „Information Combining“ in Bezug auf die spektralen Abhängigkeiten der menschlichen Sprache verwendet. Andererseits ist es mögliche das Beste aus mehreren Sprach-und Störgeräuschschätzungen in Abhängigkeit ihrer Zuverlässigkeit zu kombinieren. Die notwendigen Schätzungen werden durch einen neuen statistischen Störgeräuschschätzer sowie einen codebuchbasiertes Sprach- und Störgeräuschschätzverfahren zur Verfügung gestellt. Die erreichte Schätzqualität eröffnet die Möglichkeit, die Lücke zwischen den gegensätzlichen Zielen der hohen Störgeräuschdämpfung, einer geringen Sprachverzerrung und der Vermeidung von unerwünschten „Musical Tone“ Artefakten zu schließen. Schließlich werden praktischen Aspekte der vorgeschlagenen Sprachverbesserungssysteme betrachtet und anhand von zwei implementierten Echtzeit-Demonstratoren diskutiert.$$lger 000674894 520__ $$aMobile phones as well as tablets are omnipresent and belong to everyday life. Today audiovisual communication takes place at different locations and in a large variety of acoustic environments. In consequence, the intelligibility as well as the quality of speech may significantly be degraded by ambient background noise. In order to improve speech intelligibility and to ensure a convenient communication with high audio quality, speech enhancement techniques are required. In this thesis all critical components contributing to the enhancement of the up-link signal are addressed: • signal capturing at the acoustic front-end with a new near field beam former, • new codebook based speech and noise estimation procedure generating and exploiting reliability information, and • actual noise reduction exploiting spectral dependencies of human speech. For the acoustic front-end of the digital processing chain a novel concept for the filter optimization of a near field beamformer is introduced. The optimization scheme allows to closely approximate a predefined reception characteristic which can be freely chosen according to the application. The output of the beamformer provides a pre-enhanced signal with improved SNR for subsequent single-microphone based speech enhancement. Single-microphone noise reduction usually relies on statistical properties of speech and noise. In general, the noise is assumed to be stationary or only slightly time-varying, which is in practice often not fulfilled. Due to imprecise noise estimation, single-microphone systems are prone to unpleasant artifacts that are called musical tones. In this context different Information Combining methods, merging various estimates, are presented which address specifically the problem of non-stationary noise signals, leading to a significant improved estimation accuracy. On the one hand, the proposed Information Combining is used with respect to spectral dependencies of human speech. On the other hand, it merges the best of several speech and noise estimates depending on their reliability. The necessary estimates are provided by a new statistical noise estimator as well as a codebook driven speech and noise estimation algorithm. The achieved estimation quality opens up the possibility to close the gap between the conflicting goals of high noise attenuation, low speech distortion, and the prevention of undesired musical tone artifacts. Finally, the practical aspects of the proposed enhancement systems are considered and discussed with two implemented real-time demonstrators.$$leng 000674894 591__ $$aGermany 000674894 653_7 $$aspeech enhancement 000674894 653_7 $$anear field beamforming 000674894 653_7 $$anoise 000674894 653_7 $$asuppression 000674894 653_7 $$acodebook 000674894 653_7 $$anoise estimation 000674894 653_7 $$aspeech estimation 000674894 653_7 $$abaseline tracing 000674894 653_7 $$ainformation combining 000674894 7001_ $$0P:(DE-82)005758$$aVary, Peter$$b1$$eThesis advisor 000674894 7001_ $$0P:(DE-82)005721$$aMartin, Rainer$$b2$$eThesis advisor 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.pdf$$yOpenAccess 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894_source.zip$$yRestricted 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.gif?subformat=icon$$xicon$$yOpenAccess 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-1440$$xicon-1440$$yOpenAccess 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-180$$xicon-180$$yOpenAccess 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-640$$xicon-640$$yOpenAccess 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.jpg?subformat=icon-700$$xicon-700$$yOpenAccess 000674894 8564_ $$uhttps://publications.rwth-aachen.de/record/674894/files/674894.pdf?subformat=pdfa$$xpdfa$$yOpenAccess 000674894 909CO $$ooai:publications.rwth-aachen.de:674894$$popenaire$$popen_access$$purn$$pdriver$$pVDB$$pdnbdelivery 000674894 9141_ $$y2016 000674894 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess 000674894 9201_ $$0I:(DE-82)613310_20140620$$k613310$$lLehrstuhl und Institut für Nachrichtengeräte und Datenverarbeitung$$x0 000674894 961__ $$c2016-12-20T16:30:35.008529$$x2016-11-16T16:50:05.181100$$z2016-12-20T16:30:35.008529 000674894 9801_ $$aFullTexts 000674894 980__ $$aphd 000674894 980__ $$aVDB 000674894 980__ $$aI:(DE-82)613310_20140620 000674894 980__ $$aUNRESTRICTED 000674894 980__ $$abook