Phase-Aware spectral speech enhancement using deep learning techniques

Thieling, Lars-Hendrik; Fingscheidt, Tim; Jax, Peter

doi:SWB:1936771454

Items
Marc 21

001			1022044
005			20260112115543.0
020	_	_	\|a 978-3-8191-0312-4
020	_	_	\|a 9783819103124
024	7	_	\|2 HBZ \|a HT031364748
024	7	_	\|2 Laufende Nummer \|a 44753
024	7	_	\|2 SWB \|a SWB:1936771454
024	7	_	\|2 datacite_doi \|a 10.18154/RWTH-2025-09844
037	_	_	\|a RWTH-2025-09844
041	_	_	\|a English
082	_	_	\|a 621.3
100	1	_	\|0 P:(DE-82)IDM05189 \|a Thieling, Lars-Hendrik \|b 0 \|u rwth
245	_	_	\|a Phase-Aware spectral speech enhancement using deep learning techniques \|c Lars-Hendrik Thieling \|h online, print
260	_	_	\|a Aachen \|b Shaker Verlag \|c 2025
260	_	_	\|c 2026
300	_	_	\|a x, 173 Seiten : Illustrationen
336	7	_	\|0 2 \|2 EndNote \|a Thesis
336	7	_	\|0 PUB:(DE-HGF)11 \|2 PUB:(DE-HGF) \|a Dissertation / PhD Thesis \|b phd \|m phd
336	7	_	\|0 PUB:(DE-HGF)3 \|2 PUB:(DE-HGF) \|a Book \|m book
336	7	_	\|2 BibTeX \|a PHDTHESIS
336	7	_	\|2 DRIVER \|a doctoralThesis
336	7	_	\|2 DataCite \|a Output Types/Dissertation
336	7	_	\|2 ORCID \|a DISSERTATION
490	0	_	\|a Aachen series on communication systems \|v 7
500	_	_	\|a Druckausgabe: 2025. - Zweitveröffentlicht auf dem Publikationsserver der RWTH Aachen University 2026
502	_	_	\|a Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2025 \|b Dissertation \|c Rheinisch-Westfälische Technische Hochschule Aachen \|d 2025 \|g Fak06 \|o 2025-05-08
520	3	_	\|a Im Alltag ist Sprache häufig Hintergrundgeräuschen, Nachhall, Echo oder Paketverlusten ausgesetzt. Diese Störungen beeinträchtigen die Qualität und Verständlichkeit der Sprache und erschweren somit die Kommunikation. Sprachverbesserungsansätze zielen darauf ab, die negativen Auswirkungen dieser Störungen zu verringern, indem sie die wahrgenommene Qualität und Klarheit der Sprache verbessern. Diese Dissertation befasst sich mit dem aufstrebenden Gebiet der phasenbewussten Sprachverbesserung, die herkömmliche amplitudenbasierte Methoden durch die zusätzliche Verarbeitung des oft vernachlässigten Phasenspektrums erweitert. Es werden neuartige Konzepte für Deep-Learning-basierte Ansätze vorgeschlagen und evaluiert, wobei ein besonderer Schwerpunkt auf der Phasenschätzung und ihrer Integration in die Sprachverbesserung liegt. Neben theoretischen Untersuchungen, die das Potenzial der Phasenverarbeitung hervorheben, werden Methoden zur Phasenschätzung mit tiefen neuronalen Netzen vorgestellt und Strategien zur gemeinsamen Optimierung der Amplituden- und Phasenschätzung vorgeschlagen. Objektive Bewertungsmaße und subjektive Hörversuche bestätigen die Wirksamkeit der vorgeschlagenen Ansätze und unterstreichen ihre Relevanz für die nächste Generation von Sprachverbesserungssystemen. \|l ger
520	_	_	\|a In everyday environments, speech is often degraded by background noise, reverberation, echo, or transmission losses. These distortions reduce quality and intelligibility, impairing communication. Speech enhancement techniques aim to overcome these challenges by improving the perceptual quality and clarity of speech under adverse conditions. This dissertation advances the emerging field of phase-aware speech enhancement, which extends conventional magnitude-based methods by also processing the often-overlooked phase spectrum. Novel concepts for deep learning-based approaches are proposed and evaluated, with a particular focus on phase estimation and its integration into speech enhancement. Beyond theoretical investigations that highlight the potential of phase processing, methods for estimating the phase with deep neural networks are introduced, and strategies for jointly optimizing magnitude and phase estimation are proposed. Objective measures and subjective listening experiments confirm the effectiveness of the proposed approaches, underlining their relevance for the next generation of speech enhancement systems. \|l eng
588	_	_	\|a Dataset connected to SWB
591	_	_	\|a Germany
653	_	7	\|a deep learning
653	_	7	\|a phase estimation
653	_	7	\|a speech enhancement
700	1	_	\|0 P:(DE-82)IDM01628 \|a Jax, Peter \|b 1 \|e Thesis advisor \|u rwth
700	1	_	\|0 P:(DE-82)018197 \|a Fingscheidt, Tim \|b 2 \|e Thesis advisor
856	4	_	\|u https://publications.rwth-aachen.de/record/1022044/files/1022044_ZV.pdf \|y OpenAccess
909	C	O	\|o oai:publications.rwth-aachen.de:1022044 \|p openaire \|p open_access \|p VDB \|p driver \|p dnbdelivery
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM05189 \|a RWTH Aachen \|b 0 \|k RWTH
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM01628 \|a RWTH Aachen \|b 1 \|k RWTH
914	1	_	\|y 2025
915	_	_	\|0 StatID:(DE-HGF)0510 \|2 StatID \|a OpenAccess
920	1	_	\|0 I:(DE-82)613310_20140620 \|k 613310 \|l Lehrstuhl und Institut für Kommunikationssysteme \|x 0
980	1	_	\|a FullTexts
980	_	_	\|a I:(DE-82)613310_20140620
980	_	_	\|a UNRESTRICTED
980	_	_	\|a VDB
980	_	_	\|a book
980	_	_	\|a phd

Library	Collection	CLSMajor	CLSMinor	Language	Author

Marc 21

h1

h2

h3

h4

h5

h6