h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Improving sound source localization and characterization with machine learning techniques = Verbesserung der Lokalisierung und Charakterisierung von Schallquellen mit Verfahren des maschinellen Lernens



Verantwortlichkeitsangabevorgelegt von M.Sc.Thiago Henrique Gomes Lobato

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource : Illustrationen


Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
; ;

Tag der mündlichen Prüfung/Habilitation
2024-04-12

Online
DOI: 10.18154/RWTH-2024-04316
URL: https://publications.rwth-aachen.de/record/984946/files/984946.pdf

Einrichtungen

  1. Lehrstuhl für Technische Akustik (613510)

Inhaltliche Beschreibung (Schlagwörter)
Schallquellenlokalisierung (frei) ; beamforming (frei) ; inverse methods (frei) ; machine learning (frei) ; sound source localization (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Die Lokalisierung und Quantifizierung von Schallquellen ist ein wesentlicher Bestandteil einer Vielzahl von Akustikanwendungen wie Troubleshooting, Produktoptimierung und Schallquellenmodellierung in einer virtuellen Umgebung mit realistischen Abstrahleigenschaften. Bei Troubleshooting werden häufig auf Beamforming basierende Techniken eingesetzt, um die Hauptstrahlungsquellen zu identifizieren. Idealerweise wird ein Echtzeit-Ergebnis angestrebt, sodass der Benutzer die möglichen Auswirkungen ihrer Änderungen direkt erkennen können, was für ein deutlich besseres Benutzererlebnis sorgen und die allgemeine Qualität der Bewertung verbessern kann. Die Genauigkeit der Lokalisierung und Quantifizierung beim Beamforming hängt häufig vom Array ab. Größere Arrays mit einer höheren Mikrofondichte führen normalerweise zu besseren Ergebnissen, allerdings mit höheren Kosten. Diese Kosten entstehen durch die Ausrüstung selbst, den Verarbeitungs-/Speicherbedarf und die Schwierigkeiten bei Transport und Montage des Arrays. Einige Ansätze versuchen mit unterschiedlichem Erfolg mithilfe der Entfaltung, den Einfluss des Arrays aus dem Ergebnis zu entfernen. Allerdings erfordern diese Methoden eine sehr hohe Rechenzeit und sind daher nicht mit Echtzeitanwendungen kompatibel. In dieser Dissertation wird ein Vorverarbeitungsschritt eingeführt, der neuronale Netze nutzt, um den Entfaltungsprozessum 2 bis 3 Größenordnungen zu beschleunigen, ohne dass es zu nennenswerten Verlusten bei der Genauigkeit kommt (und diese in einigen Anwendungen sogar verbessert wird), basierend auf einer Gitterkomprimierung der Beamforming Map. Die erzielte Beschleunigung ist so groß, dass erstmals gezeigt wurde, dass eine Entfaltungsmethode, die alle Quellen gleichzeitig auflösen kann, in Echtzeit in einer Software mit Streaming-Funktionen läuft. Dies wurde in dieser Arbeit implementiert. Eine weitere Einschränkung von Beamforming-Verfahren besteht darin, dass die oft von Monopolquellen ausgehen. Das ist besonders problematisch für aeroakustische Anwendungen, bei denen zusätzlich zu Monopolen auch Dipole und Quadrupole erwartet werden. Aktuelle Ansätze zur Bewältigung dieses Problems sind entweder zu rechenintensiv und basieren auf einer „Brute-Force“-Philosophie, oder sie sind nicht zuverlässig genug, da sie auf einer sehr sensiblen Abstimmung eines Regularisierungshyperparameters beruhen, der nicht automatisiert werden kann. Diese Arbeit schlägt eine Erweiterung der DAMAS-Entfaltungsmethode vor, die Quellen höherer Ordnung wie Dipole und Quadrupole ohne unzuverlässige Hyperparameter-Abstimmung verarbeiten kann. Die Methode ist auch schnell genug, um in Echtzeit ausgeführt zu werden. Darüber hinaus wird gezeigt, dassdie Methode Quellen basierend auf mehreren Beamforming-Ergebnissen finden kann, was bei aktuellen Ansätzen ein unerschwingliches Problem darstellt, mit dem entwickelten Ansatz jedoch in weniger als 1 Sekunde gelöst werden kann. Ein weiterer Beitrag dieser Arbeit liegt in der Abschätzung der Strahlungseigenschaften von Schallquellen. Normalerweise werden die Strahlungseigenschaften einer Quelle mithilfe eines Quellenmodells identifiziert. Das Modell wird durch das Lösen eines inversen Problems basierend auf der Messung einer sphärischen Array Anordnung um die Quelle herum bestimmt. Die Auflösung, für die die Strahlung geschätzt werden kann, hängt von der Anzahl der Mikrofone im Array ab. Wenn daher eine höhere Auflösung gewünscht wird, ist ein teurer Aufbau erforderlich. Eine reduzierte Anzahl von Mikrofonen kann verwendet werden, um mit Regularisierungsansätzenwie der Nutzung von Compressed-Sensing-Techniken die gleichen Ergebnisse zu erzielen. Ein solcher Ansatz erfordert jedoch eine nicht triviale Optimierung der Hyperparameter, zumal aber nur für Quellen gültig, die durch eine spärliche Basisfunktionsdarstellung beschrieben werden können. In dieser Arbeit wird eine Methode vorgeschlagen, die empirisch erlernte Priors nutzt, HELS Flow. Die Methode kann ein solch inverses Problem besser regulieren, indem sie die Datenverteilung lernt. Einige aktuelle Methoden versuchen auch, die Data-Priors zu nutzen, allerdings mit Einschränkungen hinsichtlich der Span ihres Modells und ihrer Fähigkeit eines expressiven Priors zu lernen. Durch die Nutzung von Normalizing Flows, die mit neuronalen Netzen erstellt werden, können Priors mit einer Span definiert werden, die den Datenbereich vollständig abdeckt und gleichzeitig eine sehr hohe Expressivität besitzt. Dies ermöglicht es, die Anzahl der erforderlichen Mikrofone für die gleiche Richtwirkungsauflösung erheblich zu reduzieren, und es hat sich gezeigt, dass es besser ist als herkömmliche Regularisierungsansätze, selbst wenn ihre Hyperparameter optimal ausgewählt sind.

The localization and quantification of sound sources is an essential part from a plethora of acoustics applications such as troubleshooting, product optimization and sound sources modeling in a virtual environment with realistic radiation characteristics. When dealing with troubleshooting, techniques based on Beamforming are often employed, so that main radiating sources can be identified. Ideally, a real-time result is desired, so that the practitioners can direct see the effects of their modifications, which can provide a significantly better user experience and improve the general quality of the evaluation. The accuracy of the localization and quantification on beamforming is often dependent on the array. Larger arrays with a higher microphone density tend to produce better results, although with an increase in cost, related to the equipment itself, processing/memory requirement and the trouble of transporting and mounting it. Some approaches use deconvolution to try to remove the influence of the array from the result with various levels of success, however, those methods demand a very high calculation time and are thus not compatible with real-time applications. In this thesis, a beamforming pre-processing step is introduced. The approach leverages neural networks to drastically speed-up the deconvolution process by 2to 3 orders of magnitude without any significant loss on accuracy (and actually, even improving it in some applications) based on a grid compression of the beamforming map. The achieved speed-up is so large, that a deconvolution method capable of solving for all sources simultaneously is, for the first time, shown to runin real-time in a software with streaming capabilities, which was implemented within the scope of this thesis.Another limitation of beamforming techniques is that they often make the assumption of a monopole source, which can be especially problematic for aeroacoustic applications, in which, besides monopoles, dipoles and quadrupoles are also expected. Current approaches to deal with this problem are either too calculation intensiveusing a "brute-force" philosophy or not reliable enough since they depend on a very sensitive tuning of a regularization hyperparameter that cannot be automated. This thesis proposes an expansion of the Deconvolution Approach for the Mapping of Acoustic Sources (DAMAS) deconvolution method that can handle higher-order sources such as dipole and quadrupoles without any unreliable hyperparameter tuning while being fast enough to be run on real-time. Additionally, it is shown that the method can be used to solve for sources based on multiple beamforming results simultaneously, which is a problem prohibitively expensive with current approaches, but can be solved almost instantaneously with the method developed in this thesis. Another contribution of this thesis is in the estimation of radiation characteristics of sound sources. Normally, the radiation characteristics of a source are identified by means of a source model obtained by solving an inverse problem based on spherical array measurement around the source. The resolution for which the radiation can be estimated is dependent on the number of microphones in the array, and thus if a higher resolution is desired, an expensive set-up is needed. A reduced number of microphones can be used to achieve the same results withregularization approaches, such as leveraging techniques of compressed sensing. However, such an approach requires a non-trivial hyperparameter tuning while being valid only for sources that can be described by a sparse basis-function representation. In this thesis, a method that leverages empirical learned priors, the HELS Flow (Helmholtz-Equation Least-Squares), is proposed. The method can better regularize such inverse problem by learning the data distribution. Some recent methods also try to leverage the prior data distribution, but with limitations on the span of their model and the expressiveness of the learned prior. By leveraging normalizing flows constructed with neural networks, priors can be defined with a span that fully covers the data domain without sacrificing expressiveness. This allows one to considerably reduce the number of necessary microphones for the same directivity resolution and it was shown to be better than traditional regularization approaches even when their hyperparameters are optimally selected.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT030732987

Interne Identnummern
RWTH-2024-04316
Datensatz-ID: 984946

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
613510

 Record created 2024-04-22, last modified 2025-10-08


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)