Mechanics of deep neural networks beyond the Gaussian limit

Fischer, Kirsten Margaret; Helias, Moritz; Krämer, Michael
doi:urn:nbn:de:hbz:5:2-1451365
001008953 001__ 1008953
001008953 005__ 20250603141624.0
001008953 0247_ $$2HBZ$$aHT031032650
001008953 0247_ $$2Laufende Nummer$$a44250
001008953 0247_ $$2datacite_doi$$a10.18154/RWTH-2025-03269
001008953 0247_ $$2urn$$aurn:nbn:de:hbz:5:2-1451365
001008953 020__ $$a978-3-95806-815-5
001008953 037__ $$aRWTH-2025-03269
001008953 041__ $$aEnglish
001008953 082__ $$a530
001008953 1001_ $$0P:(DE-588)136301613X$$aFischer, Kirsten Margaret$$b0$$urwth
001008953 245__ $$aMechanics of deep neural networks beyond the Gaussian limit$$cKirsten Fischer$$honline, print
001008953 260__ $$aJülich$$bForschungszentrum Jülich GmbH, Zentralbibliothek, Verlag$$c2025
001008953 300__ $$a1 Online-Ressource (xvi, 138 Seiten) : Illustrationen, Diagramme
001008953 3367_ $$02$$2EndNote$$aThesis
001008953 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
001008953 3367_ $$0PUB:(DE-HGF)3$$2PUB:(DE-HGF)$$aBook$$mbook
001008953 3367_ $$2BibTeX$$aPHDTHESIS
001008953 3367_ $$2DRIVER$$adoctoralThesis
001008953 3367_ $$2DataCite$$aOutput Types/Dissertation
001008953 3367_ $$2ORCID$$aDISSERTATION
001008953 4900_ $$aSchriften des Forschungszentrums Jülich. Reihe Information$$v110
001008953 502__ $$aDissertation, RWTH Aachen University, 2025$$bDissertation$$cRWTH Aachen University$$d2025$$gFak01$$o2025-03-07
001008953 500__ $$aDruckausgabe: 2025. - Onlineausgabe: 2025. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University
001008953 5203_ $$aDie aktuellen Entwicklungen im Bereich der künstlichen Intelligenz und neuronaler Netzwerke im Besonderen übersteigen unser theoretisches Verständnis dieser Netzwerke. Im Limes unendlicher Netzwerkbreite werden untrainierte Netzwerke bei Initialisierung als ein Gauß-Prozess, kurz NNGP, beschrieben: die Wahrscheinlichkeitsverteilung der Netzwerkausgaben ist eine Gaußverteilung mit Mittelwert Null, der durch seine Kovarianz charakterisiert wird. Der “Neural Tangent Kernel” beschreibt trainierte Netzwerke im sogenannten lazy learning Bereich, wo sich die Netzwerkparameter während des Trainings mit Gradientenabstieg nur geringfügig von ihren Anfangswerten unterscheiden. Trotz des Erfolgs dieser Gaußschen Charakterisierungen von tiefen neuronale Netze, erfassen diese wichtige Eigenschaften nicht, wie die Trainierbarkeit von Netzwerken oder das Lernen von Merkmalen aus den Daten.In dieser Arbeit gehen wir über die Gaußschen Grenzwerte von tiefen neuronalen Netzwerken hinaus, indem wir Korrekturen höherer Ordnung mithilfe von feldtheoretischen Methoden bestimmen. Aus statistischer Sicht sind zwei komplementäre Beschreibungen von Bedeutung: die Wahrscheinlichkeitsverteilung der Datenpunkte und die Wahrscheinlichkeitsverteilung der Netzwerkparameter. Wir untersuchen beide Fälle und bekommen so unterschiedliche Einblicke in die Mechanismen tiefer neuronaler Netzwerke. Im ersteren Fall untersuchen wir, wie die Datenstatistik durch die Netzwerkschichten transformiert wird um eine Klassifikationsaufgabe zu lösen. Wir stellen fest, dass die mittleren Netzwerkschichten durch eine nichtlineare Abbildung der Gaußschen Statistik gut beschrieben werden, während die erste Netzwerkschicht Informationenaus Kumulanten höherer Ordnung extrahiert. Die entwickelte Theorie ermöglicht es uns, die Bedeutung von Kumulanten verschiedener Ordnungen für die Klassifikation zu untersuchen: Bei MNIST ist die Gaußsche Statistik für den größten Teil der Klassifizierungsleistung verantwortlich und Kumulanten höherer Ordnung sind notwendig, um die Netzwerke für zusätzliche Prozente anzupassen. Im Gegensatz dazu erfordern komplexere Datensätze wie CIFAR-10 die Einbeziehung von Kumulanten höherer Ordnung. Dies könnte erklären, warum feed foward Netzwerke im Vergleich zu Faltungsnetzwerken unterdurchschnittliche Ergebnisse liefern. Im letzteren Fall untersuchen wir zwei verschiedene Aspekte: Erstens bestimmen wir die Kovarianzen für den Bayes’schen Netzwerk-Posterior von feed forward Netzwerken und stellen eine nichtlineare Anpassung der Kernel an den Zielwert fest, was beim NNGP nicht passiert. Diese Korrekturen der Kovarianzen resultieren aus Fluktuationskorrekturen des NNGP in Netzwerken endlicher Netzwerkbreite, was es den Netzwerken erlaubt sich an die Daten anzupassen. Während Fluktuationen in der Nähe der Kritikalität größer werden, entdecken wir einen Trade-off zwischen Kritikalität und Skalen in Netzwerken als treibenden Mechanismus für das feature learning. Zweitens untersuchen wir die Trainierbarkeit von residuellen Netzwerken, indem wir den Netzwerkprior bei der Initialisierung bestimmen. Daraus erhalten wir die Antwortfunktion als Korrektur führender Ordnung des NNGP, die die Signalpropagation in Netzwerken beschreibt. Wir stellen fest, dass die Skalierung des residuellen Netzwerkzweigs durch einen Hyperparameter die Signalpropagation im Netzwerk verbessert, da sie eine Sättigung der Nichtlinearität und damit einhergenden Informationsverlust vermeidet. Schließlich beobachten wir eine starke Abhängigkeit der optimalen Skalierung des residuellen Netzwerkzweigs von der Netzwerktiefe, aber nur eine schwache Abhängigkeit von anderen Netzwerkhyperparametern, was den breiten Erfolg der tiefenabhängigen Skalierung des residuellen Netzwerkzweigs erklärt. Insgesamt bestimmen wir statistische Feldtheorien für tiefe neuronale Netzwerke, mithilfe welcher wir systematische Korrekturen zu den Gaußschen Beschreibungen neuronaler Netzwerke berechnen. Auf diese Weise machen wir einen Schritt hin zu einem besseren mechanistischen Verständnis der Informationsverarbeitung und der Datenrepräsentation in neuronalen Netzwerken.$$lger
001008953 520__ $$aCurrent developments in the field of artificial intelligence and the neural network technology supersede our theoretical understanding of these networks. In the limit of infinite width, networks at initialization are well described by the neural network Gaussian process (NNGP): the distribution of outputs is a zero-mean Gaussian characterized by its covariance or kernel across data samples. Going to the lazy learning regime, where network parameters change only slightly from their initial values, the neural tangent kernel characterizes networks trained with gradient descent. Despite the success of these Gaussian limits for deep neural networks, they do not capture important properties such as network trainability or feature learning. In this work, we go beyond Gaussian limits of deep neural networks by obtaining higher-order corrections from field-theoretic descriptions of neural networks. From a statistical point of view, two complimentary averages have to be considered: the distribution over data samples and the distribution over network parameters. We investigate both cases, gaining insights into the working mechanisms of deep neural networks. In the former case, we study how data statistics are transformed across network layers to solve classification tasks. We find that, while the hidden layers are well described by a non-linear mapping of the Gaussian statistics, the input layer extracts information from higher-order cumulants of the data. The developed theoretical framework allows us to investigate the relevance of different cumulant orders for classification: On MNIST, Gaussian statistics account for most of the classification performance, and higher-order cumulants are required to fine-tune the networks for the last few percentages. In contrast, more complex data sets such as CIFAR-10 require the inclusion of higher-order cumulants for reasonable performance values, giving an explanation for why fully-connected networks perform subpar compared to convolutional networks. In the latter case, we investigate two different aspects: First, we derive the network kernels for the Bayesian network posterior of fully-connected networks and observe a non-linear adaptation of the kernels to the target, which is not present in the NNGP. These feature corrections result from fluctuation corrections to the NNGP in finite-size networks, which allow the networks to adapt to the data. While fluctuations become larger near criticality, we uncover a trade-off between criticality and feature learning scales in networks as a driving mechanism for feature learning. Second, we study network trainability of residual networks by deriving the network prior at initialization. From this, we obtain the response function as a leading-order correction to the NNGP, which describes the signal propagation in networks. We find that scaling the residual branch by a hyperparameter improves signal propagation since it avoids saturation of the non-linearity and thus information loss. Finally, we observe a strong dependence of the optimal scaling of the residual branch on the network depth but only a weak dependence on other network hyperparameters, giving an explanation for the universal success of depth-dependent scaling of the residual branch. Overall, we derive statistical field theories for deep neural networks that allow us to obtain systematic corrections to the Gaussian limits. In this way, we take a step towards a better mechanistic understanding of information processing and data representations in neural networks.$$leng
001008953 536__ $$0G:(DE-Juel-1)BMBF-01IS19077A$$aTransparent Deep Learning with Renormalized Flows (BMBF-01IS19077A)$$cBMBF-01IS19077A$$x0
001008953 536__ $$0G:(DE-Juel-1)PF-JARA-SDS005$$aSDS005 - Towards an integrated data science of complex natural systems (PF-JARA-SDS005)$$cPF-JARA-SDS005$$x1
001008953 536__ $$0G:(DE-HGF)SO-092$$aACA - Advanced Computing Architectures (SO-092)$$cSO-092$$x2
001008953 536__ $$0G:(DE-82)EXS-PF$$aEXC2186 "The Fuel Science Center" (EXS-PF)$$cEXS-PF$$x3
001008953 536__ $$0G:(DE-82)EXS$$aExcellence Strategy (EXS)$$cEXS$$x4
001008953 536__ $$0G:(DE-HGF)IVF-20140101$$aImpuls- und Vernetzungsfonds (IVF-20140101)$$cIVF-20140101$$x5
001008953 588__ $$aDataset connected to Lobid/HBZ
001008953 591__ $$aGermany
001008953 7001_ $$0P:(DE-82)030028$$aHelias, Moritz$$b1$$eThesis advisor$$urwth
001008953 7001_ $$0P:(DE-82)IDM00267$$aKrämer, Michael$$b2$$eThesis advisor$$urwth
001008953 8564_ $$uhttps://publications.rwth-aachen.de/record/1008953/files/1008953.pdf$$yOpenAccess
001008953 8564_ $$uhttps://publications.rwth-aachen.de/record/1008953/files/1008953_source.zip$$yRestricted
001008953 909CO $$ooai:publications.rwth-aachen.de:1008953$$pdnbdelivery$$pVDB$$pdriver$$purn$$popen_access$$popenaire
001008953 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
001008953 915__ $$0LIC:(DE-HGF)CCBY4$$2HGFVOC$$aCreative Commons Attribution CC BY 4.0
001008953 9141_ $$y2025
001008953 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-588)136301613X$$aRWTH Aachen$$b0$$kRWTH
001008953 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)030028$$aRWTH Aachen$$b1$$kRWTH
001008953 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM00267$$aRWTH Aachen$$b2$$kRWTH
001008953 9201_ $$0I:(DE-82)136930_20160614$$k136930 ; 136920$$lLehr- und Forschungsgebiet Theorie neuronaler Netzwerke (FZ Jülich)$$x0
001008953 9201_ $$0I:(DE-82)130000_20140620$$k130000$$lFachgruppe Physik$$x1
001008953 961__ $$c2025-05-21T12:16:03.099403$$x2025-03-26T17:08:40.854125$$z2025-05-21T12:16:03.099403
001008953 980__ $$aI:(DE-82)130000_20140620
001008953 980__ $$aI:(DE-82)136930_20160614
001008953 980__ $$aUNRESTRICTED
001008953 980__ $$aVDB
001008953 980__ $$abook
001008953 980__ $$aphd
001008953 9801_ $$aFullTexts
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines