High-dimensional logistic regression with fusion-type penalties

Kaufmann, Lea; Moustaki, Irini; Kamps, Udo; Kateri, Maria

doi:44254

High-dimensional logistic regression with fusion-type penalties

Kaufmann, Lea^RWTH*

2025

Verantwortlichkeitsangabevorgelegt von Lea Johanna Kaufmann, M. Sc.

ImpressumAachen : RWTH Aachen University 2025

Umfang1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2025

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Kateri, Maria (Thesis advisor)^RWTH* ; Moustaki, Irini (Thesis advisor) ; Kamps, Udo (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2025-04-09

Online
DOI: 10.18154/RWTH-2025-03939
URL: https://publications.rwth-aachen.de/record/1010220/files/1010220.pdf

Einrichtungen

Thematische Einordnung (Klassifikation)
DDC: 510

Kurzfassung
Diese Arbeit behandelt penalisierte Regression im konzeptuellen Rahmen logistischer Regression mit kategorialen Kovariaten (d.h. Faktoren). Ein Überblick über bereits existierende Penalisierungsmethoden mit ihren jeweiligen Charakteristiken wird bereitgestellt und es werden theoretische Eigenschaften, die in der Literatur für lineare Regression gezeigt wurden, auf logistische Regression übertragen. Zunächst liegt der Fokus auf penalisierten Regressionsmodellen für Fusion der Kategorien (auch genannt Level) eines Faktors, bevor solche für Faktor Selektion betrachtet werden. Um die jeweiligen Schätzer explizit zu bestimmen, werden Algorithmen zum Lösen der resultierenden Minimierungsprobleme diskutiert. Schließlich werden umfangreiche Simulationsstudien mithilfe der Statistik Software R durchgeführt, welche das Verhaltender präsentierten Methoden in verschiedenen Simulationsdesigns untersuchen und sowohl dessen Vor- als auch Nachteile herausarbeiten. Es stellt sich heraus, dass bisher keine Penalisierungsmethode existiert, welche Fusion der Levels und Faktoren Selektion simultan ausführt. Um diese Lücke zu schließen, wird eine neue Methode namens L0-Fused Group Lasso (L0-FGL)eingeführt. Es werden hilfreiche theoretische Eigenschaften von L0-FGL untersucht und bewiesen. Diese Eigenschaften zeigen, dass die neue Methode eine geeignete Wahl ist, um mittels penalisierter logistischer Regression mit Faktoren ein spärliches (sparse) Modell zu erhalten. Anschließend werden geeignete Algorithmen angewandt, um die resultierenden L0-FGL Schätzer zu bestimmen. Das Verhalten von L0-FGL wird in verschiedenen Simulationsdesigns untersucht, welche zeigen, dass L0-FGL zum einen in der Lage ist, die Faktor Selektion Performance der Penalties für Levels Fusion zu verbessern, und zum anderen simultan sowohl Faktor auch Levels Fusion durchzuführen. Schließlich wird Inferenzstatistik für L0-FGL entwickelt. Insbesondere wird eine Zweischritt-Methode namens two-stage L0-FGL eingeführt, welche einen Schritt zur Dimensionsreduktion durch Levels Fusion und Faktor Selektion beinhaltet, sowie einen Schritt für statistische Inferenz. Die zugrundeliegende Idee ist, dass two-stage L0-FGLzunächst die Dimension reduziert und anschließend die nicht einflussreichen Faktoren, die weiterhin im Modell enthalten sind, durch statistische Tests entfernt. Zwei verschiedene Verfahren zur Adjustierung bei multiplem Testen werden betrachtet, und sowohl ein einfacher als auch ein multipler Split werden angewandt. Basierend auf den gezeigten asymptotischen Eigenschaften von L0-FGL werden nützliche asymptotische Fehlerkontrolleigenschaften für two-stage L0-FGLbewiesen, welche zeigen, dass two-stage L0-FGL eine geeignete Methode mit einer soliden theoretischen Basis ist.

In this thesis, penalized regression in the framework of logistic regression with categorical covariates (i.e. factors) is discussed. Providing an overview of existing penalized regression methods along with their characteristics, theoretical properties given in the literature for linear regression are transferred to the setting of logistic regression. First, the focus lies on penalized regression methods for levels fusion before those introduced for the purpose of factor selection are examined. Computational methods employed for obtaining the corresponding estimates by solving the resulting minimization problems are discussed. Finally, extensive simulation studies are conducted using the statistical software R, investigating the behavior of the presented methods in different simulation designs, showing the advantages and disadvantages of these methods. It turns out that there exists no penalty function so far, which simultaneously performs factor selection and levels fusion. To close this gap, a novel penalty function, called L0-Fused Group Lasso (L0-FGL) is introduced. The theoretical investigation of L0-FGL is obtained, showing valuable asymptotic properties. These properties justify that the new method is a suitable choice for the purpose of obtaining sparse models in penalized logistic regression with factors. Then, convenient algorithms to calculate the L0-FGL estimates are employed. The behavior ofL0-FGL is investigated in different simulation designs, showing that, on the one hand, L0-FGL is able to improve the factor selection performance of those penalties for levels fusion and, on the other hand, L0-FGL is able to perform both factor selection and levels fusion. Finally, statistical inference analysis for L0-FGL is provided. In particular, a two-stage method called two-stage L0-FGL is proposed, including a step for dimension reduction through factor selection and levels fusion, and an inferential step. Generally speaking, the two-stage method first reduces the dimension and, having that, those non-influential factors that are still included in the model are removed through statistical tests. Considering two different approaches for corrections for multiplicity of testing, a single and a multiple sample splitting approach is applied. Based on the asymptotic properties of L0-FGL, convenient asymptotic error control properties are shown for two-stage L0-FGL, yielding that this approach is a reasonable choice with a solid theoretical basis.

OpenAccess:
PDF
(additional files)