Uncertainty quantification of binary hybrid models in life sciences

Einollahzadeh Samadi, Moein; Schuppert, Andreas; Mitsos, Alexander

doi:44547

Uncertainty quantification of binary hybrid models in life sciences = Unsicherheitsquantifizierung von Binär-Hybridmodellen in den Lebenswissenschaften

Einollahzadeh Samadi, Moein^RWTH*

2025

Verantwortlichkeitsangabevorgelegt von Moein Einollahzadeh Samadi

ImpressumAachen : RWTH Aachen University 2025

Umfang1 Online-Ressource : Illustrationen

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2025

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak04

Hauptberichter/Gutachter
Schuppert, Andreas (Thesis advisor)^RWTH* ; Mitsos, Alexander (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2025-05-28

Online
DOI: 10.18154/RWTH-2025-06656
URL: https://publications.rwth-aachen.de/record/1015954/files/1015954.pdf

Einrichtungen

Thematische Einordnung (Klassifikation)
DDC: 620

Kurzfassung
Mit dem zunehmenden Zugang zu klinischen Daten und der Weiterentwicklung quantitativer Modellierungstechniken ist das Potenzial für KI-gestützte Entscheidungen im Gesundheitswesen wichtiger denn je. Die Zuverlässigkeit KI-basierter Entscheidungen zu gewährleisten, ist jedoch nach wie vor eine Herausforderung, vor allem aufgrund der Notwendigkeit repräsentativer Datensätze, die eine Vielzahl von Patientengruppen und -zuständen abdecken, um algorithmische Verzerrungen abzuschwächen. Diese Herausforderung wird durch die Beschaffenheit klinischer Daten verstärkt, die häufig in Form diskreter oder binärer Endpunkte vorliegen (z. B., durchgängig Vorhandensein oder Fehlen einer Diagnose) und selektiv bei Personen erhoben werden, die für bestimmte Tests als notwendig erachtet werden, was zu einer spärlichen Datenrepräsentation führt. Diese Dissertation stellt neuartige Beiträge zur Entwicklung und Validierung von Lernstrategien für hybride Modelle mit binären Daten vor. Der Schwerpunkt liegt auf baumstrukturierten Hybridmodellen, die den Transfer von Domänenwissen auf datengetriebenes Lernen in den Lebenswissenschaften erleichtern. Drei Hauptbeiträge sind : i) ein Lernalgorithmus, DICE, für binäre Hybridmodelle, der den Fluch der Dimensionalität in binären Merkmalsräumen adressiert, die Bewertung des Extrapolationsbereichs von Hybridmodellen im binären Raum ermöglicht und eine Design-of-Experiment-Strategie einführt, um neue Daten mit maximalem Informationsgehalt zu identifizieren und so die Unsicherheit bei der Extrapolation zu verringern. Darüber hinaus führt DICE das Konzept einer binären Datenbank ein und demonstriert einen Proof-of-Concept in einer biomedizinischen Anwendung zur Schätzung der Sterblichkeit von COVID-19-ICU-Patienten. ii) Ein hybrider Modellierungsrahmen in einer multizentrischen Krankenhausstudie für interpretierbare und generalisierbare Sterblichkeitsvorhersagen auf der Intensivstation wird vorgeschlagen, der eine konsistente Erklärbarkeit der Sterblichkeitsursachen für mechanisch beatmete Influenza- und Pneumoniepatienten in verschiedenen Gesundheitseinrichtungen bietet. iii) NoiseCut, ein Python-Paket für hybride Modellierung, das auf geräuschtolerantes überwachtes Lernen mit binär kodierten Daten spezialisiert ist, wird eingeführt und bietet einen neuartigen Ansatz zur Abschwächung von Overfitting in spärlichen Datensätzen.

As clinical information becomes increasingly accessible and quantitative modeling techniques evolve, the potential for AI-assisted decision-making in healthcare is more important than ever. However, ensuring the reliability of AI-based decisions remains challenging, largely due to the need for representative datasets that span diverse patient populations and conditions to mitigate algorithmic bias. This challenge is compounded by the nature of clinical data, which often takes the form of discrete or binary endpoints (e.g., throughout presence or absence of a diagnosis) and is collected selectively from individuals deemed necessary for specific tests, leading to sparse data representation. This thesis presents novel contributions to the development and validation of learning strategies for hybrid models employing binary data. The primary focus is on tree-structured hybrid models, which facilitate the transfer of domain knowledge to data-driven learning in life sciences applications. Three main contributions are: i) a learning algorithm, DICE, for binary hybrid models that addresses the curse of dimensionality in binary feature spaces, facilitates the assessment of the extrapolation range of hybrid models in binary space, and introduces a design-of-experiment strategy to identify new data with maximum information content for reducing uncertainty in extrapolation. Additionally, DICE introduces the concept of a binary database by showcasing a proof-of-concept in a biomedical application for mortality estimation of COVID-19 ICU patients. ii) A hybrid modeling framework in a multi-hospital study for interpretable and generalizable ICU mortality predictions is proposed, offering consistent explainability of mortality causes for mechanically ventilated influenza and pneumonia patients across diverse healthcare settings. iii) NoiseCut, a Python package for hybrid modeling specialized in noise-tolerant supervised learning on binary-encoded data, is introduced, offering a novel approach to mitigating overfitting in sparse datasets.

OpenAccess:
PDF
(additional files)