2024 & 2025
Dissertation, RWTH Aachen University, 2024
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2025
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2024-06-20
Online
DOI: 10.18154/RWTH-2025-04943
URL: http://publications.rwth-aachen.de/record/1012246/files/1012246.pdf
Einrichtungen
Projekte
Inhaltliche Beschreibung (Schlagwörter)
compressive sensing (frei) ; deep learning (frei) ; iterative soft-thresholding algorithm (frei) ; statistical learning theory (frei)
Thematische Einordnung (Klassifikation)
DDC: 510
Kurzfassung
Die vorliegende Dissertation beschäftigt sich mit Themen an der Schnittstelle des Compressive Sensing und des Maschinellen Lernens. Schwerpunkt sind dabei Anwendungen des sogenannten iterativen Soft-Thresholding-Algorithmus (ISTA), eines iterativen Algorithmus zur Lösung des auch als LASSO (engl. least absolute shrinkage and selection operator) bekannten l1 -regularisierten kleinste-Quadrate-Problems, mit zahlreichen Anwendungen in der Statistik und Signalverarbeitung. Wir untersuchen zwei Probleme der statistischen Lerntheorie, die als zwei unterschiedliche Interpretationen desselben zugrundeliegenden Optimierungsproblems mitsamt der Lösung durch ISTA angesehen werden können. Obwohl sie verschieden sind, ist gemeinsam eine Untersuchung in Hinblick auf ihre Generalisierung, d.h. wir untersuchen die Genauigkeit der Vorhersage der Modelle auf Daten der zugrundeliegenden (und üblicherweise nicht bekannten) Verteilung, die jedoch nicht für die Optimierung des Modells verwendet wurden. Der Beitrag dieser Dissertation liegt somit in neuen Untersuchungen des iterativen Soft-Thresholding-Algorithmus aus Sicht der statistischen Lerntheorie. Für die Herleitung unserer Ergebnisse stützen wir uns stark auf Resultate aus der hochdimensionalen Wahrscheinlichkeitstheorie. Das erste Problem betrifft die Interpretation von ISTA als neuronales Netz, ein Thema, das mit den Durchbrüchen im tiefen Lernen im letzten Jahrzehnt an Aufmerksamkeit gewonnen hat. In einem ersten Schritt zur Einführung trainierbarer Parameter befassen wir uns mit einem recht einfachen Modell, bei dem ein sogenanntes dictionary implizit gelernt wird. Anschließend dehnen wir unsere Ergebnisse auf ein deutlich allgemeineres Modell aus, das eine Vielzahl von ISTA-inspirierten neuronalen Netzen umfasst, von rekurrenten Netzen bis hin zu Architekturen, die klassischen sogenannten feed forward-Netzen ähnlicher sind. Wir leiten die ersten Schranken für den Generalisierungsfehler für diese Netzwerkarchitekturen her, die auf Abschätzungen der Rademacher-Komplexität der entsprechenden Hypothesenklassen beruhen, und vergleichen unsere theoretischen Ergebnisse mit numerischen Experimenten. Während frühere Arbeiten sich stark auf die Generalisierung des tiefen Lernens im Kontext von Klassifikationsaufgaben konzentrierten, liefern wir theoretische Ergebnisse mit den in diesem Zusammenhang weniger untersuchten inversen Problemen. Das zweite Problem betrifft die Anwendung von LASSO im Kontext einer Klassifizierungsaufgabe, in dem die durch ISTA gefundene Lösung die Rolle eines dünnbesetzten linearen Klassifizierers spielt. Unter realistischen Annahmen über die Trainingsdaten zeigen wir, dass dies eine Konzentration auf die Verteilung über die entsprechende Hypo-thesenklasse induziert. Das ermöglicht es uns, einen Algorithmus zur Vorhersage der Klassifizierungsgenauigkeit zu entwickeln, der ausschließlich auf den statistischen Eigenschaften der Trainingsdaten beruht, und dies bestätigen wir mit Hilfe numerischer Experimente.This dissertation explores connections between the areas of compressive sensing and machine learning. It is centered around the so-called iterative soft-thresholding algorithm (ISTA), an iterative algorithm to solve the l1 -regularized least squares problem also known as LASSO (least absolute shrinkage and selection operator) that has various applications in statistics and signal processing. We will investigate two statistical learning problems that can be regarded as two different interpretations of the same underlying optimization problem and its solution through ISTA. While both are different, in common they have a generalization perspective, i.e., we aim for finding performance guarantees at inference, that is when applying the trained model to new data samples that have not been used for training, but can be regarded as samples from the same underlying (but in practice, typically unknown) distribution. Thus, the contribution of this thesis lies in providing novel investigations of the iterative soft-thresholding algorithm from the viewpoint of statistical learning theory. We heavily rely on tools from high-dimensional probability theory to prove our results. The first of the problems we consider deals with an interpretation of ISTA as a neural network, a topic which attracted attention with the rise of deep learning in the past decade. As a first step to introduce trainable parameters, we address a rather simple model, where a dictionary is learned implicitly. Then, we extend our results to a greatly generalized setup including a variety of ISTA-inspired neural networks, ranging from recurrent ones to architectures more similar to feedforward neural networks. Based on estimates of the Rademacher complexity of the corresponding hypothesis classes, we derive the first generalization error bounds for such specific neural network architectures and compare our theoretical findings to numerical experiments. While previous works strongly focused on generalization of deep learning in the context of classification tasks, we provide theoretical results in the context of inverse problems, which is much less explored in the literature. The second problem considers the application of LASSO in a classification context, where the solution found through ISTA plays the role of a sparse linear classifier. Under realistic assumptions on the training data, we show that this induces a concentration on the distribution over the corresponding hypothesis class. This enables us to derive an algorithm to predict the classification accuracy based solely on statistical properties of the training data, which we confirm with the help of numerical experiments.
OpenAccess: PDF
(zusätzliche Dateien)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT031181203
Interne Identnummern
RWTH-2025-04943
Datensatz-ID: 1012246
Beteiligte Länder
Germany