h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Graph machine learning for molecular property prediction and design = Graph maschinelles Lernen für die Eigenschaftsvorhersage und das Design von Molekülen



Verantwortlichkeitsangabevorgelegt von Jan Gerald Rittig

ImpressumAachen : RWTH Aachen University 2025

Umfang1 Online-Ressource : Illustrationen

ReiheAachener Verfahrenstechnik series - AVT.SVT - Process systems engineering ; 35


Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2025

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak04

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2025-03-26

Online
DOI: 10.18154/RWTH-2025-04861
URL: https://publications.rwth-aachen.de/record/1012098/files/1012098.pdf

Einrichtungen

  1. Lehrstuhl für Systemverfahrenstechnik (416710)

Projekte

  1. DFG project G:(GEPRIS)466417970 - Generatives graph-basiertes maschinelles Lernen für das integrierte Design von Molekülen und Prozessen (466417970) (466417970)
  2. HDS LEE - Helmholtz School for Data Science in Life, Earth and Energy (HDS LEE) (HDS-LEE-20190612) (HDS-LEE-20190612)
  3. SPP 2331: Maschinelles Lernen in der Verfahrenstechnik. Wissen trifft auf Daten: Interpretierbarkeit, Extrapolation, Verlässlichkeit, Vertrauen (441958259)
  4. Doktorandenprogramm (20170404)

Inhaltliche Beschreibung (Schlagwörter)
computer-aided molecular design (frei) ; graph neural networks (frei) ; machine learning (frei) ; molecular graphs (frei) ; multi-species (frei) ; optimization (frei) ; thermodynamics (frei)

Thematische Einordnung (Klassifikation)
DDC: 620

Kurzfassung
Moleküle mit optimalen Eigenschaften sind für das Chemieingenieurwesen essenziell. Die Suche nach Molekülen mit gewünschten Eigenschaften – die auch zu effizienteren chemischen Prozessen führen – wird jedoch häufig durch fehlende experimentelle Daten eingeschränkt, sodass Vorhersagemodelle erforderlich sind. Durch die Darstellung von Molekülen als Graphen mit Atomen als Knoten und Bindungen als Kanten hat sich das Graph-basierte maschinelle Lernen (Graph-ML) vor Kurzem als vielversprechender Ansatz für die Vorhersage von Moleküleigenschaften und die Exploration des chemischen Raums erwiesen. In dieser Dissertation setzen wir daher Graph-ML ein, um die Identifizierung optimaler Moleküle zu beschleunigen. Zunächst entwickeln wir Graph Neuronale Netze (GNNs) zur Vorhersage von Moleküleigenschaften, die relevant für das Chemieingenieurwesen sind. Die entwickelten GNNs liefern präzise Vorhersagen für Eigenschaften von Reinstoffen, wie Siedepunkt und biologische Abbaubarkeit, sowie von Mischungen, z. B. Aktivitätskoeffizienten. Die GNNs sind auf ein breites Spektrum von Molekülen und für die Vorhersage weiterer Eigenschaften anwendbar. Weiterhin integrieren wir thermodynamisches Wissen in GNNs. Konkret entwickeln wir thermodynamisch informierte GNNs, die Thermodynamik durch Regularisierung während des Trainings lernen, sowie thermodynamisch konsistente GNNs, die thermodynamische Potenziale wie die freie Gibbs-Energie vorhersagen, aus denen verwandte Eigenschaften durch automatische Differenzierung abgeleitet werden. Am Beispiel von Aktivitätskoeffizienten zeigen wir, dass die GNNs thermodynamisch konsistente und präzisere Vorhersagen liefern und so den Weg für die Kombination von ML und Thermodynamik ebnen. Mit dem Ziel, Moleküle mit gewünschten Eigenschaften zu finden, entwickeln wir ein neues Graph-ML Framework für computergestütztes molekulares Design (CAMD). Das Framework kombiniert GNNs mit generativem Graph-ML und Optimierung auf modulare Weise. Wir verwenden generative Modelle, d. h. variational autoencoder (VAEs) und generative adversarial networks (GANs), um einen kontinuierlichen molekularen Raum zu lernen, der die Auswahl neuartiger Moleküle durch Optimierungsansätze wie Bayes'sche Optimierung (BO) und genetische Algorithmen ermöglicht. Die Eigenschaften dieser Moleküle werden dann von GNNs vorhergesagt. Damit stellen wir ein vollständig datengetriebenes CAMD Framework bereit, das ein automatisiertes Design von Molekülen auf Basis verfügbarer Eigenschaftsdaten ermöglicht. Wir wenden das Framework auf das Design von Kraftstoffen an und identifizieren bekannte sowie vielversprechende neue Stoffe, von denen wir einen in Motorenexperimenten untersuchen. Dies ist ein wichtiger Schritt in Richtung datengetriebener Molekülentwicklung. Aufbauend auf unserem Graph-ML CAMD Framework erweitern wir sowohl generative ML-Modelle als auch die Optimierung für das molekulare Design. Zuerst entwickeln wir ein generatives Graph Transfomer Modell, GraphXForm, das molekulare Graphen mit gewünschten Eigenschaften durch selbstverbesserndes Lernen konstruiert. Wir wenden GraphXForm auf das Design von Lösungsmitteln für Flüssig-Flüssig-Extraktionsprozesse an und übertreffen dabei die neuesten generative ML-Methoden, wobei mit GraphXForm zusätzliche Anforderungen an die Molekülstruktur berücksichtigt werden können und somit die Flexibilität im Moleküldesign erhöht wird. Anschließend schlagen wir einen optimierungsbasierten CAMD-Ansatz vor, bei dem wir ML-basiertes Moleküldesign als gemischt-ganzzahliges lineares Optimierungsproblem formulieren, um Moleküle mit global optimalen vorhergesagten Eigenschaften zu identifizieren, was sehr vielversprechend für die Steigerung der Effizienz bei der Molekülentwicklung ist. Insgesamt präsentieren wir prädiktive und generative Graph-ML-Methoden zur Identifizierung vielversprechender Moleküle für Energie- und Chemiesysteme. Mit dieser Dissertation werden somit Fortschritte sowohl für das ML als auch für die molekulare Skala des Chemieingenieurwesens erzielt, wobei zukünftige Arbeiten die Prozessskala integrieren können.

Molecules with optimal properties are essential for chemical engineering. However, the search for promising molecules with desired properties – which can also lead to more efficient chemical processes – is often limited by missing property data, leading to the need for predictive models. Based on a graph representation of molecules with atoms as nodes and bonds as edges, graph machine learning (ML) has recently emerged as a powerful approach for predicting molecular properties and exploring the chemical space. In this dissertation, we therefore utilize graph ML to advance the identification of optimal molecules for chemical engineering applications. We first develop graph neural networks (GNNs) to predict molecular properties that are highly relevant for chemical engineering. Our developed GNN models provide highly accurate predictions of pure component properties, such as normal boiling points and biodegradability, and mixture properties, e.g., activity coefficients. The GNNs are applicable to a wide spectrum of molecules and can be readily transferred to predict other properties of interest. To further enhance the predictive quality of GNNs, we incorporate thermodynamic relations into the model architecture and training. Specifically, we propose thermodynamics-informed GNNs that learn thermodynamics through regularization during model training, and thermodynamic-consistent GNNs that predict fundamental thermodynamic potentials, such as the Gibbs free energy, from which related properties can be deduced using automatic differentiation. Using activity coefficients as a prime example, we demonstrate that the GNNs provide thermodynamic consistent predictions with increased accuracy and generalization capabilities, paving the way for combining ML with thermodynamics.Targeting the design of molecules with desired properties, we develop and apply a graph ML computer-aided molecular design (CAMD) framework. The framework combines GNNs with generative graph ML and optimization in a modular way. We use generative models, i.e., variational autoencoders (VAEs) and generative adversarial network (GAN), to learn a continuous molecular space that enables strategic sampling of novel molecules using optimization approaches, such as Bayesian optimization (BO) and genetic algorithms. The properties of these molecules are then predicted by GNNs. Thereby, we provide a data-driven CAMD framework that enables automated design of molecules based on available property data. We apply our framework to the design of high-octane fuels and identify well-known octane enhancers as well as promising new fuel candidates, one of which we investigate in engine experiments, demonstrating an important step towards ML-driven molecular discovery. Building on our graph ML CAMD framework, we extend both generative ML models and optimization in molecular design. That is, we propose a generative graph transformer model, called GraphXForm, that constructs molecular graphs with desired properties by sequentially adding atoms and bonds to an initial structure in a self-improving loop. We apply GraphXForm to the design of solvents for liquid-liquid extraction processes, outperforming state-of-the-art generative ML methods while allowing for the consideration of molecular structure constraints and thus increasing flexibility in molecular design. We further propose an optimization-based CAMD approach by formulating ML-based molecular design as mixed-integer linear program to identify molecules with global optimal predicted properties, which is highly promising to increase the sample efficiency in molecular discovery. Overall, we provide predictive and generative graph ML methods to identify molecules with desired properties for energy and chemical systems. This dissertation thus advances both ML and the molecular scale in chemical engineering, while the process scale can be integrated in future work.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis/Book

Format
online

Sprache
English

Externe Identnummern
HBZ: HT031057471

Interne Identnummern
RWTH-2025-04861
Datensatz-ID: 1012098

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Document types > Books > Books
Faculty of Mechanical Engineering (Fac.4)
Publication server / Open Access
Public records
Publications database
416710

 Record created 2025-05-21, last modified 2025-10-01


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)