Adaptive subspace methods for high-dimensional variable selection

Staerk, Christian; Cramer, Erhard; Kateri, Maria; Ntzoufras, Ioannis

doi:HT019763045

Adaptive subspace methods for high-dimensional variable selection = Adaptive Subspace Methoden für hoch-dimensionale Variablenselektion

Staerk, Christian

2018

Verantwortlichkeitsangabevorgelegt von Christian Staerk, M.Sc.

ImpressumAachen 2018

Umfang1 Online-Ressource (v, 214 Seiten) : Illustrationen

Dissertation, RWTH Aachen University, 2018

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Kateri, Maria (Thesis advisor) ; Ntzoufras, Ioannis (Thesis advisor) ; Cramer, Erhard (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2018-04-26

Online
DOI: 10.18154/RWTH-2018-226562
URL: https://publications.rwth-aachen.de/record/729869/files/729869.pdf
URL: https://publications.rwth-aachen.de/record/729869/files/729869.pdf?subformat=pdfa

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
High-Dimensional Statistics (frei) ; Generalized Linear Models (frei) ; Regularization (frei) ; Subset Selection (frei) ; AdaSub (frei) ; Markov Chain Monte Carlo (frei)

Thematische Einordnung (Klassifikation)
DDC: 510

Kurzfassung
Rasante Entwicklungen in der Informationstechnologie, der Genomforschung und weiteren Gebieten haben dazu geführt, dass heutzutage oftmals hoch-dimensionale Daten beobachtet werden, bei denen die Anzahl der Variablen wesentlich größer ist als die Anzahl der Beobachtungen. In solchen Situationen ist man insbesondere an der Selektion von erklärenden Variablen interessiert, um ein Modell mit möglichst wenigen Variablen zu finden, welches die beobachteten Daten gut beschreibt. Diese Arbeit handelt von dem Problem der Variablenselektion im Rahmen von hoch-dimensionalen generalisierten linearen Modellen (GLM). Viele Variablenselektionsmethoden wie das Lasso-Verfahren basieren auf der Lösung von $\ell_1$-regularisierten, konvexen Relaxierungen des ursprünglichen Problems. Eine wichtige Motivation für diese Arbeit ist es hingegen, Lösungen zu $\ell_0$-regularisierten, diskreten Problemen zu finden, die etwa von Modellselektionskriterien wie dem Extended Bayesian Information Criterion (EBIC) induziert werden und im Allgemeinen NP-schwer sind. Zu diesem Zweck wird die Adaptive Subspace (AdaSub) Methode vorgestellt, welche auf der Idee basiert, mehrere niedrig-dimensionale Teilprobleme des ursprünglich hoch-dimensionalen Problems adaptiv zu lösen. AdaSub ist ein stochastisches Verfahren, in welchem die individuellen Wahrscheinlichkeiten, mit denen die jeweiligen Variablen berücksichtigt werden, gemäß der jeweils aktuell geschätzten "Bedeutsamkeit" adjustiert werden. Es wird gezeigt, dass die Adaption des Verfahrens Bayesianisch motiviert werden kann, und dass die Methode "korrekt" gegen das beste Modell bezüglich des verwendeten Kriteriums konvergiert, sofern die sogenannte Ordered Importance Property (OIP) erfüllt ist. Des Weiteren wird die Variablenselektions-Konsistenz von AdaSub unter geeigneten Bedingungen bewiesen. Da für nichtlineare Regressionsmodelle die Lösung der Teilprobleme in AdaSub oftmals zu rechenintensiv ist, werden Varianten von AdaSub eingeführt, die die Teilprobleme mithilfe von Greedy-Verfahren approximativ lösen. Es wird sich herausstellen, dass BackAdaSub, eine Variante basierend auf schrittweiser Rückwärts-Selektion, in vielen Fällen als effizienter "Ersatz-Algorithmus" für AdaSub verwendet werden kann. Es wird gezeigt, dass die Modified Ordered Importance Propoperty (MOIP) eine hinreichende Bedingung für die "korrekte Konvergenz" von BackAdaSub ist, die jedoch eine stärkere Forderung darstellt als die ursprüngliche OIP. Die Performance von AdaSub und BackAdaSub im Vergleich zu anderen bekannten Verfahren wie Lasso, Adaptive Lasso, SCAD und Stability Selection wird anhand von vielfältigen simulierten und realen Datensätzen im Rahmen von linearen und logistischen Regressionsmodellen untersucht. Schließlich wird der sogenannte Metropolized AdaSub (MAdaSub) Algorithmus vorgestellt, um in einem Bayesianischen Kontext aus Posteriori-Modell-Verteilungen zu simulieren. MAdaSub stellt ein adaptives Markov Chain Monte Carlo (MCMC) Verfahren dar, welches die Verteilungen der vorgeschlagenen Modelle ("proposals") basierend auf Informationen von vorherigen Iterationen sequentiell adjustiert. Trotz der kontinuierlichen Adaption des Verfahrens kann gezeigt werden, dass der MAdaSub Algorithmus ergodisch ist, sodass MAdaSub "im Grenzfall" aus der korrekten Zielverteilung simuliert. Anhand von simulierten und realen Datensätzen wird demonstriert, dass MAdaSub selbst für hoch-dimensionale und multimodale Verteilungen stabile Schätzungen von marginalen Posteriori-Inklusionswahrscheinlichkeiten liefern kann.

Due to recent advancements in fields such as information technology and genomics, nowadays one commonly faces high-dimensional data where the number of explanatory variables is possibly much larger than the number of observations. In such situations one is particularly interested in variable selection, meaning that one aims at identifying a sparse model with a relatively small subset of variables that fits and ideally explains the observed data well. This thesis deals with the variable selection problem in the setting of high-dimensional generalized linear models (GLMs). While many variable selection methods like the Lasso are based on solving convex $\ell_1$-type relaxations of the original problem, a main motive of this work is the desire to provide solutions to generally NP-hard $\ell_0$-regularized problems induced by model selection criteria such as the Extended Bayesian Information Criterion (EBIC). For this purpose, the Adaptive Subspace (AdaSub) method is proposed which is based on the idea of adaptively solving several low-dimensional sub-problems of the original high-dimensional problem. AdaSub is a stochastic algorithm which sequentially adapts the sampling probabilities of the individual variables based on their currently estimated "importance". It is shown that the updating scheme of AdaSub can be motivated in a Bayesian way and that the method "converges correctly" against the best model according to the employed criterion, provided that the so-called ordered importance property (OIP) is satisfied. Furthermore, the variable selection consistency of AdaSub is proved under suitable conditions. Since solving the sampled sub-problems can be computationally expensive for GLMs different than the normal linear model, "greedy" modifications of AdaSub are introduced which provide approximate solutions to the sub-problems. It is argued that BackAdaSub, a version of AdaSub based on Backward Stepwise Selection, may be used as an efficient surrogate algorithm. The "correct convergence" of BackAdaSub can be guaranteed under the modified ordered importance property (MOIP), which is a stronger condition than the original OIP. The performance of AdaSub and BackAdaSub in comparison to other prominent competitors such as the Lasso, the Adaptive Lasso, the SCAD and Stability Selection is investigated via various simulated and real data examples in the framework of linear and logistic regression models. Finally, a Metropolized version of AdaSub, called the MAdaSub algorithm, is proposed for sampling from posterior model distributions in the Bayesian variable selection context. MAdaSub is an adaptive Markov Chain Monte Carlo (MCMC) algorithm which sequentially adjusts the proposal distribution based on the information from the previously sampled models. It is shown that the MAdaSub algorithm is ergodic despite its continuing adaptation, i.e. "in the limit" it samples from the correct target distribution. Through simulated and real data examples it is demonstrated that MAdaSub can provide stable estimates of posterior marginal inclusion probabilities even for very high-dimensional and multimodal posterior model distributions.

OpenAccess:
PDF PDF (PDFA)
(additional files)