Mechanics of deep neural networks beyond the Gaussian limit

Fischer, Kirsten Margaret; Helias, Moritz; Krämer, Michael

doi:urn:nbn:de:hbz:5:2-1451365

Mechanics of deep neural networks beyond the Gaussian limit

Fischer, Kirsten Margaret^RWTH*

2025

VerantwortlichkeitsangabeKirsten Fischer

ImpressumJülich : Forschungszentrum Jülich GmbH, Zentralbibliothek, Verlag 2025

Umfang1 Online-Ressource (xvi, 138 Seiten) : Illustrationen, Diagramme

ISBN978-3-95806-815-5

ReiheSchriften des Forschungszentrums Jülich. Reihe Information ; 110

Dissertation, RWTH Aachen University, 2025

Druckausgabe: 2025. - Onlineausgabe: 2025. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Helias, Moritz (Thesis advisor)^RWTH* ; Krämer, Michael (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2025-03-07

Online
DOI: 10.18154/RWTH-2025-03269
URN: urn:nbn:de:hbz:5:2-1451365
URL: https://publications.rwth-aachen.de/record/1008953/files/1008953.pdf

Einrichtungen

Projekte

Thematische Einordnung (Klassifikation)
DDC: 530

Kurzfassung
Die aktuellen Entwicklungen im Bereich der künstlichen Intelligenz und neuronaler Netzwerke im Besonderen übersteigen unser theoretisches Verständnis dieser Netzwerke. Im Limes unendlicher Netzwerkbreite werden untrainierte Netzwerke bei Initialisierung als ein Gauß-Prozess, kurz NNGP, beschrieben: die Wahrscheinlichkeitsverteilung der Netzwerkausgaben ist eine Gaußverteilung mit Mittelwert Null, der durch seine Kovarianz charakterisiert wird. Der “Neural Tangent Kernel” beschreibt trainierte Netzwerke im sogenannten lazy learning Bereich, wo sich die Netzwerkparameter während des Trainings mit Gradientenabstieg nur geringfügig von ihren Anfangswerten unterscheiden. Trotz des Erfolgs dieser Gaußschen Charakterisierungen von tiefen neuronale Netze, erfassen diese wichtige Eigenschaften nicht, wie die Trainierbarkeit von Netzwerken oder das Lernen von Merkmalen aus den Daten.In dieser Arbeit gehen wir über die Gaußschen Grenzwerte von tiefen neuronalen Netzwerken hinaus, indem wir Korrekturen höherer Ordnung mithilfe von feldtheoretischen Methoden bestimmen. Aus statistischer Sicht sind zwei komplementäre Beschreibungen von Bedeutung: die Wahrscheinlichkeitsverteilung der Datenpunkte und die Wahrscheinlichkeitsverteilung der Netzwerkparameter. Wir untersuchen beide Fälle und bekommen so unterschiedliche Einblicke in die Mechanismen tiefer neuronaler Netzwerke. Im ersteren Fall untersuchen wir, wie die Datenstatistik durch die Netzwerkschichten transformiert wird um eine Klassifikationsaufgabe zu lösen. Wir stellen fest, dass die mittleren Netzwerkschichten durch eine nichtlineare Abbildung der Gaußschen Statistik gut beschrieben werden, während die erste Netzwerkschicht Informationenaus Kumulanten höherer Ordnung extrahiert. Die entwickelte Theorie ermöglicht es uns, die Bedeutung von Kumulanten verschiedener Ordnungen für die Klassifikation zu untersuchen: Bei MNIST ist die Gaußsche Statistik für den größten Teil der Klassifizierungsleistung verantwortlich und Kumulanten höherer Ordnung sind notwendig, um die Netzwerke für zusätzliche Prozente anzupassen. Im Gegensatz dazu erfordern komplexere Datensätze wie CIFAR-10 die Einbeziehung von Kumulanten höherer Ordnung. Dies könnte erklären, warum feed foward Netzwerke im Vergleich zu Faltungsnetzwerken unterdurchschnittliche Ergebnisse liefern. Im letzteren Fall untersuchen wir zwei verschiedene Aspekte: Erstens bestimmen wir die Kovarianzen für den Bayes’schen Netzwerk-Posterior von feed forward Netzwerken und stellen eine nichtlineare Anpassung der Kernel an den Zielwert fest, was beim NNGP nicht passiert. Diese Korrekturen der Kovarianzen resultieren aus Fluktuationskorrekturen des NNGP in Netzwerken endlicher Netzwerkbreite, was es den Netzwerken erlaubt sich an die Daten anzupassen. Während Fluktuationen in der Nähe der Kritikalität größer werden, entdecken wir einen Trade-off zwischen Kritikalität und Skalen in Netzwerken als treibenden Mechanismus für das feature learning. Zweitens untersuchen wir die Trainierbarkeit von residuellen Netzwerken, indem wir den Netzwerkprior bei der Initialisierung bestimmen. Daraus erhalten wir die Antwortfunktion als Korrektur führender Ordnung des NNGP, die die Signalpropagation in Netzwerken beschreibt. Wir stellen fest, dass die Skalierung des residuellen Netzwerkzweigs durch einen Hyperparameter die Signalpropagation im Netzwerk verbessert, da sie eine Sättigung der Nichtlinearität und damit einhergenden Informationsverlust vermeidet. Schließlich beobachten wir eine starke Abhängigkeit der optimalen Skalierung des residuellen Netzwerkzweigs von der Netzwerktiefe, aber nur eine schwache Abhängigkeit von anderen Netzwerkhyperparametern, was den breiten Erfolg der tiefenabhängigen Skalierung des residuellen Netzwerkzweigs erklärt. Insgesamt bestimmen wir statistische Feldtheorien für tiefe neuronale Netzwerke, mithilfe welcher wir systematische Korrekturen zu den Gaußschen Beschreibungen neuronaler Netzwerke berechnen. Auf diese Weise machen wir einen Schritt hin zu einem besseren mechanistischen Verständnis der Informationsverarbeitung und der Datenrepräsentation in neuronalen Netzwerken.

Current developments in the field of artificial intelligence and the neural network technology supersede our theoretical understanding of these networks. In the limit of infinite width, networks at initialization are well described by the neural network Gaussian process (NNGP): the distribution of outputs is a zero-mean Gaussian characterized by its covariance or kernel across data samples. Going to the lazy learning regime, where network parameters change only slightly from their initial values, the neural tangent kernel characterizes networks trained with gradient descent. Despite the success of these Gaussian limits for deep neural networks, they do not capture important properties such as network trainability or feature learning. In this work, we go beyond Gaussian limits of deep neural networks by obtaining higher-order corrections from field-theoretic descriptions of neural networks. From a statistical point of view, two complimentary averages have to be considered: the distribution over data samples and the distribution over network parameters. We investigate both cases, gaining insights into the working mechanisms of deep neural networks. In the former case, we study how data statistics are transformed across network layers to solve classification tasks. We find that, while the hidden layers are well described by a non-linear mapping of the Gaussian statistics, the input layer extracts information from higher-order cumulants of the data. The developed theoretical framework allows us to investigate the relevance of different cumulant orders for classification: On MNIST, Gaussian statistics account for most of the classification performance, and higher-order cumulants are required to fine-tune the networks for the last few percentages. In contrast, more complex data sets such as CIFAR-10 require the inclusion of higher-order cumulants for reasonable performance values, giving an explanation for why fully-connected networks perform subpar compared to convolutional networks. In the latter case, we investigate two different aspects: First, we derive the network kernels for the Bayesian network posterior of fully-connected networks and observe a non-linear adaptation of the kernels to the target, which is not present in the NNGP. These feature corrections result from fluctuation corrections to the NNGP in finite-size networks, which allow the networks to adapt to the data. While fluctuations become larger near criticality, we uncover a trade-off between criticality and feature learning scales in networks as a driving mechanism for feature learning. Second, we study network trainability of residual networks by deriving the network prior at initialization. From this, we obtain the response function as a leading-order correction to the NNGP, which describes the signal propagation in networks. We find that scaling the residual branch by a hyperparameter improves signal propagation since it avoids saturation of the non-linearity and thus information loss. Finally, we observe a strong dependence of the optimal scaling of the residual branch on the network depth but only a weak dependence on other network hyperparameters, giving an explanation for the universal success of depth-dependent scaling of the residual branch. Overall, we derive statistical field theories for deep neural networks that allow us to obtain systematic corrections to the Gaussian limits. In this way, we take a step towards a better mechanistic understanding of information processing and data representations in neural networks.

OpenAccess:
PDF
(zusätzliche Dateien)
Externer link:
Fulltext by OpenAccess repository