Iterative soft-thresholding from a statistical learning perspective

Schnoor, Ekkehard; Rauhut, Holger; Führ, Hartmut
doi:44349
001012246 001__ 1012246
001012246 005__ 20250711051639.0
001012246 0247_ $$2HBZ$$aHT031181203
001012246 0247_ $$2Laufende Nummer$$a44349
001012246 0247_ $$2datacite_doi$$a10.18154/RWTH-2025-04943
001012246 037__ $$aRWTH-2025-04943
001012246 041__ $$aEnglish
001012246 082__ $$a510
001012246 1001_ $$0P:(DE-82)IDM04594$$aSchnoor, Ekkehard$$b0$$urwth
001012246 245__ $$aIterative soft-thresholding from a statistical learning perspective$$cvorgelegt von Ekkehard Schnoor, M.Sc.$$honline
001012246 260__ $$aAachen$$bRWTH Aachen University$$c2024
001012246 260__ $$c2025
001012246 300__ $$a1 Online-Ressource : Illustrationen
001012246 3367_ $$02$$2EndNote$$aThesis
001012246 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
001012246 3367_ $$2BibTeX$$aPHDTHESIS
001012246 3367_ $$2DRIVER$$adoctoralThesis
001012246 3367_ $$2DataCite$$aOutput Types/Dissertation
001012246 3367_ $$2ORCID$$aDISSERTATION
001012246 502__ $$aDissertation, RWTH Aachen University, 2024$$bDissertation$$cRWTH Aachen University$$d2024$$gFak01$$o2024-06-20
001012246 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University 2025
001012246 5203_ $$aDie vorliegende Dissertation beschäftigt sich mit Themen an der Schnittstelle des Compressive Sensing und des Maschinellen Lernens. Schwerpunkt sind dabei Anwendungen des sogenannten iterativen Soft-Thresholding-Algorithmus (ISTA), eines iterativen Algorithmus zur Lösung des auch als LASSO (engl. least absolute shrinkage and selection operator) bekannten l1 -regularisierten kleinste-Quadrate-Problems, mit zahlreichen Anwendungen in der Statistik und Signalverarbeitung. Wir untersuchen zwei Probleme der statistischen Lerntheorie, die als zwei unterschiedliche Interpretationen desselben zugrundeliegenden Optimierungsproblems mitsamt der Lösung durch ISTA angesehen werden können. Obwohl sie verschieden sind, ist gemeinsam eine Untersuchung in Hinblick auf ihre Generalisierung, d.h. wir untersuchen die Genauigkeit der Vorhersage der Modelle auf Daten der zugrundeliegenden (und üblicherweise nicht bekannten) Verteilung, die jedoch nicht für die Optimierung des Modells verwendet wurden. Der Beitrag dieser Dissertation liegt somit in neuen Untersuchungen des iterativen Soft-Thresholding-Algorithmus aus Sicht der statistischen Lerntheorie. Für die Herleitung unserer Ergebnisse stützen wir uns stark auf Resultate aus der hochdimensionalen Wahrscheinlichkeitstheorie. Das erste Problem betrifft die Interpretation von ISTA als neuronales Netz, ein Thema, das mit den Durchbrüchen im tiefen Lernen im letzten Jahrzehnt an Aufmerksamkeit gewonnen hat. In einem ersten Schritt zur Einführung trainierbarer Parameter befassen wir uns mit einem recht einfachen Modell, bei dem ein sogenanntes dictionary implizit gelernt wird. Anschließend dehnen wir unsere Ergebnisse auf ein deutlich allgemeineres Modell aus, das eine Vielzahl von ISTA-inspirierten neuronalen Netzen umfasst, von rekurrenten Netzen bis hin zu Architekturen, die klassischen sogenannten feed forward-Netzen ähnlicher sind. Wir leiten die ersten Schranken für den Generalisierungsfehler für diese Netzwerkarchitekturen her, die auf Abschätzungen der Rademacher-Komplexität der entsprechenden Hypothesenklassen beruhen, und vergleichen unsere theoretischen Ergebnisse mit numerischen Experimenten. Während frühere Arbeiten sich stark auf die Generalisierung des tiefen Lernens im Kontext von Klassifikationsaufgaben konzentrierten, liefern wir theoretische Ergebnisse mit den in diesem Zusammenhang weniger untersuchten inversen Problemen. Das zweite Problem betrifft die Anwendung von LASSO im Kontext einer Klassifizierungsaufgabe, in dem die durch ISTA gefundene Lösung die Rolle eines dünnbesetzten linearen Klassifizierers spielt. Unter realistischen Annahmen über die Trainingsdaten zeigen wir, dass dies eine Konzentration auf die Verteilung über die entsprechende Hypo-thesenklasse induziert. Das ermöglicht es uns, einen Algorithmus zur Vorhersage der Klassifizierungsgenauigkeit zu entwickeln, der ausschließlich auf den statistischen Eigenschaften der Trainingsdaten beruht, und dies bestätigen wir mit Hilfe numerischer Experimente.$$lger
001012246 520__ $$aThis dissertation explores connections between the areas of compressive sensing and machine learning. It is centered around the so-called iterative soft-thresholding algorithm (ISTA), an iterative algorithm to solve the l1 -regularized least squares problem also known as LASSO (least absolute shrinkage and selection operator) that has various applications in statistics and signal processing. We will investigate two statistical learning problems that can be regarded as two different interpretations of the same underlying optimization problem and its solution through ISTA. While both are different, in common they have a generalization perspective, i.e., we aim for finding performance guarantees at inference, that is when applying the trained model to new data samples that have not been used for training, but can be regarded as samples from the same underlying (but in practice, typically unknown) distribution. Thus, the contribution of this thesis lies in providing novel investigations of the iterative soft-thresholding algorithm from the viewpoint of statistical learning theory. We heavily rely on tools from high-dimensional probability theory to prove our results. The first of the problems we consider deals with an interpretation of ISTA as a neural network, a topic which attracted attention with the rise of deep learning in the past decade. As a first step to introduce trainable parameters, we address a rather simple model, where a dictionary is learned implicitly. Then, we extend our results to a greatly generalized setup including a variety of ISTA-inspired neural networks, ranging from recurrent ones to architectures more similar to feedforward neural networks. Based on estimates of the Rademacher complexity of the corresponding hypothesis classes, we derive the first generalization error bounds for such specific neural network architectures and compare our theoretical findings to numerical experiments. While previous works strongly focused on generalization of deep learning in the context of classification tasks, we provide theoretical results in the context of inverse problems, which is much less explored in the literature. The second problem considers the application of LASSO in a classification context, where the solution found through ISTA plays the role of a sparse linear classifier. Under realistic assumptions on the training data, we show that this induces a concentration on the distribution over the corresponding hypothesis class. This enables us to derive an algorithm to predict the classification accuracy based solely on statistical properties of the training data, which we confirm with the help of numerical experiments.$$leng
001012246 536__ $$0G:(GEPRIS)404374102$$aDFG project G:(GEPRIS)404374102 - Strukturiertes Compressive Sensing mittels gelernten neuronalen Netzen (SCoSNeL) (404374102)$$c404374102$$x0
001012246 536__ $$0G:(GEPRIS)255450733$$aSPP 1798: Compressed Sensing in der Informationsverarbeitung (255450733)$$c255450733$$x1
001012246 588__ $$aDataset connected to Lobid/HBZ
001012246 591__ $$aGermany
001012246 653_7 $$acompressive sensing
001012246 653_7 $$adeep learning
001012246 653_7 $$aiterative soft-thresholding algorithm
001012246 653_7 $$astatistical learning theory
001012246 7001_ $$0P:(DE-82)IDM00281$$aRauhut, Holger$$b1$$eThesis advisor
001012246 7001_ $$0P:(DE-82)IDM00057$$aFühr, Hartmut$$b2$$eThesis advisor$$urwth
001012246 8564_ $$uhttps://publications.rwth-aachen.de/record/1012246/files/1012246.pdf$$yOpenAccess
001012246 8564_ $$uhttps://publications.rwth-aachen.de/record/1012246/files/1012246_source.zip$$yRestricted
001012246 909CO $$ooai:publications.rwth-aachen.de:1012246$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
001012246 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
001012246 9141_ $$y2024
001012246 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM04594$$aRWTH Aachen$$b0$$kRWTH
001012246 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM00057$$aRWTH Aachen$$b2$$kRWTH
001012246 9201_ $$0I:(DE-82)112710_20190828$$k112710$$lLehrstuhl für Geometrie und Analysis$$x0
001012246 9201_ $$0I:(DE-82)110000_20140620$$k110000$$lFachgruppe Mathematik$$x1
001012246 961__ $$c2025-07-10T09:54:53.072833$$x2025-05-26T11:04:18.804388$$z2025-07-10T09:54:53.072833
001012246 9801_ $$aFullTexts
001012246 980__ $$aI:(DE-82)110000_20140620
001012246 980__ $$aI:(DE-82)112710_20190828
001012246 980__ $$aUNRESTRICTED
001012246 980__ $$aVDB
001012246 980__ $$aphd
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines