Phase-Aware spectral speech enhancement using deep learning techniques

Thieling, Lars-Hendrik; Fingscheidt, Tim; Jax, Peter
doi:SWB:1936771454
001022044 001__ 1022044
001022044 005__ 20260112115543.0
001022044 0247_ $$2HBZ$$aHT031364748
001022044 0247_ $$2Laufende Nummer$$a44753
001022044 0247_ $$2SWB$$aSWB:1936771454
001022044 0247_ $$2datacite_doi$$a10.18154/RWTH-2025-09844
001022044 020__ $$a978-3-8191-0312-4
001022044 020__ $$a9783819103124
001022044 037__ $$aRWTH-2025-09844
001022044 041__ $$aEnglish
001022044 082__ $$a621.3
001022044 1001_ $$0P:(DE-82)IDM05189$$aThieling, Lars-Hendrik$$b0$$urwth
001022044 245__ $$aPhase-Aware spectral speech enhancement using deep learning techniques$$cLars-Hendrik Thieling$$honline, print
001022044 260__ $$aAachen$$bShaker Verlag$$c2025
001022044 260__ $$c2026
001022044 300__ $$ax, 173 Seiten : Illustrationen
001022044 3367_ $$02$$2EndNote$$aThesis
001022044 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
001022044 3367_ $$0PUB:(DE-HGF)3$$2PUB:(DE-HGF)$$aBook$$mbook
001022044 3367_ $$2BibTeX$$aPHDTHESIS
001022044 3367_ $$2DRIVER$$adoctoralThesis
001022044 3367_ $$2DataCite$$aOutput Types/Dissertation
001022044 3367_ $$2ORCID$$aDISSERTATION
001022044 4900_ $$aAachen series on communication systems$$v7
001022044 502__ $$aDissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2025$$bDissertation$$cRheinisch-Westfälische Technische Hochschule Aachen$$d2025$$gFak06$$o2025-05-08
001022044 500__ $$aDruckausgabe: 2025. - Zweitveröffentlicht auf dem Publikationsserver der RWTH Aachen University 2026
001022044 5203_ $$aIm Alltag ist Sprache häufig Hintergrundgeräuschen, Nachhall, Echo oder Paketverlusten ausgesetzt. Diese Störungen beeinträchtigen die Qualität und Verständlichkeit der Sprache und erschweren somit die Kommunikation. Sprachverbesserungsansätze zielen darauf ab, die negativen Auswirkungen dieser Störungen zu verringern, indem sie die wahrgenommene Qualität und Klarheit der Sprache verbessern. Diese Dissertation befasst sich mit dem aufstrebenden Gebiet der phasenbewussten Sprachverbesserung, die herkömmliche amplitudenbasierte Methoden durch die zusätzliche Verarbeitung des oft vernachlässigten Phasenspektrums erweitert. Es werden neuartige Konzepte für Deep-Learning-basierte Ansätze vorgeschlagen und evaluiert, wobei ein besonderer Schwerpunkt auf der Phasenschätzung und ihrer Integration in die Sprachverbesserung liegt. Neben theoretischen Untersuchungen, die das Potenzial der Phasenverarbeitung hervorheben, werden Methoden zur Phasenschätzung mit tiefen neuronalen Netzen vorgestellt und Strategien zur gemeinsamen Optimierung der Amplituden- und Phasenschätzung vorgeschlagen. Objektive Bewertungsmaße und subjektive Hörversuche bestätigen die Wirksamkeit der vorgeschlagenen Ansätze und unterstreichen ihre Relevanz für die nächste Generation von Sprachverbesserungssystemen.$$lger
001022044 520__ $$aIn everyday environments, speech is often degraded by background noise, reverberation, echo, or transmission losses. These distortions reduce quality and intelligibility, impairing communication. Speech enhancement techniques aim to overcome these challenges by improving the perceptual quality and clarity of speech under adverse conditions. This dissertation advances the emerging field of phase-aware speech enhancement, which extends conventional magnitude-based methods by also processing the often-overlooked phase spectrum. Novel concepts for deep learning-based approaches are proposed and evaluated, with a particular focus on phase estimation and its integration into speech enhancement. Beyond theoretical investigations that highlight the potential of phase processing, methods for estimating the phase with deep neural networks are introduced, and strategies for jointly optimizing magnitude and phase estimation are proposed. Objective measures and subjective listening experiments confirm the effectiveness of the proposed approaches, underlining their relevance for the next generation of speech enhancement systems.$$leng
001022044 588__ $$aDataset connected to SWB
001022044 591__ $$aGermany
001022044 653_7 $$adeep learning
001022044 653_7 $$aphase estimation
001022044 653_7 $$aspeech enhancement
001022044 7001_ $$0P:(DE-82)IDM01628$$aJax, Peter$$b1$$eThesis advisor$$urwth
001022044 7001_ $$0P:(DE-82)018197$$aFingscheidt, Tim$$b2$$eThesis advisor
001022044 8564_ $$uhttps://publications.rwth-aachen.de/record/1022044/files/1022044_ZV.pdf$$yOpenAccess
001022044 909CO $$ooai:publications.rwth-aachen.de:1022044$$pdnbdelivery$$pdriver$$pVDB$$popen_access$$popenaire
001022044 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
001022044 9141_ $$y2025
001022044 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM05189$$aRWTH Aachen$$b0$$kRWTH
001022044 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM01628$$aRWTH Aachen$$b1$$kRWTH
001022044 9201_ $$0I:(DE-82)613310_20140620$$k613310$$lLehrstuhl und Institut für Kommunikationssysteme$$x0
001022044 961__ $$c2026-01-09T08:40:45.029350$$x2025-11-19T16:53:00.949419$$z2026-01-09T08:40:45.029350
001022044 9801_ $$aFullTexts
001022044 980__ $$aI:(DE-82)613310_20140620
001022044 980__ $$aUNRESTRICTED
001022044 980__ $$aVDB
001022044 980__ $$abook
001022044 980__ $$aphd
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines