2024
Dissertation, RWTH Aachen University, 2024
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2024-02-23
Online
DOI: 10.18154/RWTH-2024-02247
URL: https://publications.rwth-aachen.de/record/980418/files/980418.pdf
Einrichtungen
Projekte
Inhaltliche Beschreibung (Schlagwörter)
machine learning (frei) ; neural networks (frei) ; neuroscience (frei) ; statistical physics (frei) ; time series processing (frei)
Thematische Einordnung (Klassifikation)
DDC: 530
Kurzfassung
Der Begriff der neuronalen Netze umfasst zwei große Bereiche: In den Neurowissenschaften ist ihre inspirationsquelle das Gehirn, wo Milliarden von Neuronen externe und interne Informationen kombinieren, um kontinuierlich Aufgaben zu lösen, und beim maschinellen Lernen werden sie zur Verarbeitung riesiger Datenmengenverwendet, um komplexe Aufgaben zu lösen. Das Ziel dieser Arbeit ist es, eine statistische Perspektive auf das Lernen in neuronalen Netzen zu bieten und dabei ihre biologische Inspiration und ihre Anwendung beim maschinellen Lernen zu berücksichtigen. Eine statistische Perspektive impliziert Stochastizität, die in unserem Fall aus zwei Quellen stammt: Erstens ist die biologische neuronale Aktivität von Natur aus verrauscht, und hochkomplexe Hintergrundaktivitäten beeinflussen die Verarbeitung von Reizen. Zweitens weisen die natürlichen Reize selbst stochastische Merkmale auf. Hier zielen wir auf beide Szenarien ab, indem wir Werkzeuge aus der statistischen Physik verwenden. Während wir die Sichtweisen sowohl des biologischen als auch des maschinellen Lernens aufgreifen, konzentrieren wir uns auf die Verarbeitung von Reizen, wie sie im Gehirn vorkommt: alles ist zeitabhängig. Im Gehirn hallen Signale aufgrund der rekurrenten neuronalen Verbindungen nach, wodurch natürliche Wechselwirkungen zwischen Eingaben aus verschiedenen Zeitpunkten entstehen. Aufgrund der nichtlinearen Natur dieser Wechselwirkungen stellt das Verständnis ihres dynamischen Zustands jedoch eine komplizierte Herausforderung dar. Für schwach nichtlineare Interaktionen entwickeln wir eine Methode zur Entfaltung der rekurrenten Dynamik in ein effektives Feed-Forward-System. Dadurch erhalten wir eine analytisch nachvollziehbare Annäherung an die Zustandsverteilung des Netzwerks mit Hilfe der Störungstheorie. Wir nutzen die Lösung der Netzwerkdynamik, um die optimalen Eingabe- und Ausleseprojektionen für die Klassifizierung in einem zufälligen rekurrenten Reservoir zu finden und so die Netzwerkleistung zu verbessern. Der optimale Klassifikator in diesem Rahmen ändert sich jedoch, wenn eine unabhängige Hintergrundaktivität vorhanden ist. Für lineare Interaktionen leiten wir den empirischen Risikominimierer für die Eingangs und Ausgangsabbildung mit verrauschter Dynamik ab. Wir stellen fest, dass die optimale Lösung einen Kompromiss zwischen Stabilität und Leistung darstellt, und vergleichen sie mit dem rauschfreien Fall. Wie aber beeinflusst die Nichtlinearität der Interaktionen die statistische Verarbeitung von Reizen? Um diese Frage zu beantworten, verwenden wir ein einschichtiges Feedforward-Modell und verbinden die statistischen Merkmale der Eingangs- und Ausgangsschicht. Durch die Entwicklung eines Klassifizierers mit trainierbarer Verstärkungsfunktion finden wir eine direkte Beziehung zwischen der Nichtlinearität und der Darstellung und Verarbeitung von Statistiken höherer Ordnung. Zum Schluss gehen wir vom Lernen einzelner statistischer Merkmale zur Datenverteilung selbst über. Mit Hilfe eines invertierbaren neuronalen Feedforward-Netzwerks lernen wir die nichtlineare Verteilung aus Stichproben und extrahieren die informativsten Moden aus den Daten. Auf diese Weise erhalten wir einen vollständig anpassungsfähigen Mechanismus zur gleichzeitigen Aufdeckung von Struktur, Dimensionalität und aussagekräftigen latenten Merkmalen auf unüberwachte Weise.The notion of neural networks encompasses two major domains: In neuroscience, their source of inspiration is the brain, where billions of neurons combine external and internal information to continuously solve tasks, and in machine learning, they are used to process vast amounts of data to solve complex tasks. The goal of this thesis is to provide a statistical perspective on learning in neural networks, while considering their biological inspiration and machine learning application. A statistical perspective implies stochasticity, which in our case comes from two sources: Firstly, biological neural activity is intrinsically noisy, and highly complex background activity influences the processing of stimuli. Secondly, natural stimuli themselves inherit stochastic features. Here, we target both scenarios using tools from statistical physics. While we take up the viewpoints of both biological and machine learning, we focus on processing of stimuli as present in the brain; to wit, everything is time-dependent. In the brain, signals reverberate due to the recurrent neural connections, creating natural interactions between inputs stemming from different time points. Because of the non-linear nature of those interactions, however, understanding their dynamical state forms an intricate challenge. For weakly non-linear interactions, we develop a method to unfold the recurrent dynamics into an effective feed-forward system. We thereby obtain an analytically tractable approximation of the network state distribution using perturbation theory. We utilize the solution of the network dynamics to find the optimal input and readout projections for classification in a random recurrent reservoir, improving the network performance. The optimal classifier in this framework changes, however, when independent background activity is present. For linear interactions, we derive the empirical risk minimizer for the input and output mapping with noisy dynamics. We find that the optimal solution employs a trade-off between stability and performance and we compare it to the noise-free case. But how does the non-linearity of the interactions shape the statistical processing of stimuli? We employ a single-layer feedforward model to answer this question, and connect the statistical features of the input and output layer. Creating a classifier with trainable gain function, we find a direct relation between the non-linearity and representation and processing of higher-order statistics. To conclude, we move from learning individual statistical features to the data distribution itself. Using an invertible type of feedforward neural network, we learn the non-linear manifold from samples and extract the most informative modes from the data. In this way, we obtain a fully adaptable mechanism to uncover structure, dimensionality, and meaningful latent features at once in an unsupervised fashion.
OpenAccess:
PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT030697631
Interne Identnummern
RWTH-2024-02247
Datensatz-ID: 980418
Beteiligte Länder
Germany
|
The record appears in these collections: |