Advanced parameter estimation, Bayesian uncertainty quantification, and surrogate modeling for chromatography processes

Heymann, William; Wiechert, Wolfgang; Jupke, Andreas

doi:10.18154/RWTH-2024-10846

Advanced parameter estimation, Bayesian uncertainty quantification, and surrogate modeling for chromatography processes = Fortgeschrittene Parameterschätzung, Bayesianische Fehleranalyse und Surrogat Modellierung für Chromatographieprozesse

Heymann, William^RWTH*

2023 & 2024

Verantwortlichkeitsangabevorgelegt von William Heymann

ImpressumAachen : RWTH Aachen University 2023

Umfang1 Online-Ressource : Illustrationen

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2023

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2024

Genehmigende Fakultät
Fak04

Hauptberichter/Gutachter
Wiechert, Wolfgang (Thesis advisor)^RWTH* ; Jupke, Andreas (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2023-12-20

Online
DOI: 10.18154/RWTH-2024-10846
URL: https://publications.rwth-aachen.de/record/996812/files/996812.pdf

Einrichtungen

Lehrstuhl für Computational Systems Biotechnology (FZ Jülich) (420410)

Thematische Einordnung (Klassifikation)
DDC: 620

Kurzfassung
Die Herstellung von Medikamenten ist schwierig und teuer, und die Herstellung proteinbasierter Arzneimittel kann aufgrund der Größe und Komplexität der Moleküle besonders schwierig sein. Festbett-Flüssigkeitschromatographie wird in Herstellungsprozessen verwendet, um Verunreinigungen zu entfernen. Problematisch ist, dass es sich bei der Flüssigphasen-Chromatographie um ein teures und schwierig zu entwickelndes Verfahren handelt. Daher besteht das Ziel der Chromatographie-Modellierung darin, die Entwicklung von Chromatographieverfahren zur Reinigung von Zielproteinen schneller und einfacher zu gestalten. Chromatographie-Modellierung ist schwierig und das Entwerfen eines Modells, das Entwerfen von Experimenten, das Kalibrieren des Modells und das Bestimmen der Unsicherheit der Modellparameter ist ein komplexer und rechenintensiver Prozess. In diesem Kontext befasst sich diese Arbeit mit Modellkalibrierung, Parameterunsicherheit und Ersatzmodellierung. Die Modellkalibrierung erfolgt, indem die unbekannten Modellparameter auf der Grundlage von Chromatogrammdaten geschätzt werden. Die Kleinste-Quadrate-Schätzung unbekannter Parameter ist etablierter Standard, hat aber auch kritische Nachteile. Die Beschreibung realer Systeme ist im Allgemeinen anfällig für nicht berücksichtigte Mechanismen in den üblicherweise verwendeten Modellen, wie z. B. Streuung in externen Totvolumina und systematischen Messfehlern, wie sie z. B. durch Pumpenverzögerungen verursacht werden. In diesem Szenario hat sich herausgestellt, dass die Übereinstimmung der Form von simulierten und gemessenen Chromatogrammen wichtiger ist, als die exakten Peakpositionen. Deshalb wird ein neues Bewertungssystem vorgestellt, welches die Form, Position und Höhe einzelner Peaks separat berücksichtigt. Ein genetischer Algorithmus wird verwendet, um mehrere resultierende Ziele zu optimieren. Selbst für nicht widersprüchliche Ziele zeigt dieser Ansatz eine überlegene Konvergenz im Vergleich zur Einzelziel-Gradientensuche, während widersprüchliche Ziele auf unvollständige Modelle oder inkonsistente Daten hindeuten. Im letzteren Fall liefern Pareto-Optima wichtige Informationen zum Verständnis des Systems und zur Verbesserung von Experimenten. Sobald ein Modell kalibriert ist, muss als Nächstes bestimmt werden, wie gut das Modell definiert ist. Mit zunehmender Abhängigkeit von der Modellierung reicht es nicht aus, ein Modell auf experimentelle Daten zu kalibrieren. Kein Modell ist perfekt, und kein Modell kann experimentelle Daten perfekt erklären. Deshalb muss zunehmend auch die Unsicherheit in den Parametern des kalibrierten Modells betrachtet werden, zusammen mit der Unsicherheit im resultierenden Chromatogramm. Es wird eine Methode vorgestellt, um die Wahrscheinlichkeitsverteilung der Parameter eines kalibrierten Modells unter Verwendung der Bayesianischen Unsicherheitsquantifizierung zu bestimmen. Dieses Verfahren berücksichtigt experimentelle Fehler wie Pumpenverzögerungen, Pumpendurchflussraten, Beladungskonzentration und UV-Messfehler. Die hier vorgestellte Methode basiert auf dem Satz von Bayes und verwendet Markov Chain Monte Carlo mit einem Ensemble-Sampler und beinhaltet, wie das Fehlermodell erstellt und ausgewertet wird. Während die hier vorgestellte Modellkalibrierung und Parameterunsicherheitsanalyse für synthetische und industrielle Daten gut funktionieren, erfordern sie auch viele Rechenressourcen. Ein Surrogatmodell approximiert das Originalmodell und kann unter eingeschränkten Bedingungen das reale Modell ersetzen. Der Vorteil solcher Ersatzmodelle besteht darin, dass sie 10.000-mal schneller sein können, als das Originalmodell. Die Konstruktion eines Ersatzmodells unter Verwendung eines künstlichen neuronalen Netzwerks wird zusammen mit dem gesamten Netzwerkdesignprozess vorgestellt. Die gesamte für dieses Projekt erstellte Software ist als Open-Source-Code auf GitHub (https://github.com/modsim/CADET-Match) frei verfügbar.

Manufacturing medicine is hard and expensive. Manufacturing protein-based medicines can be especially difficult due to the size and complexity of the molecules. Packed bed liquid chromatography is used during the manufacturing process to remove impurities. The problem with liquid phase chromatography is that it is an expensive and difficult process to develop. The goal of chromatography modeling is to make it faster and easier to develop a chromatography process that purifies that target protein. Chromatography modeling is difficult and the process of designing a model, designing experiments, calibrating the model, and determining the uncertainty of the model parameters is a complex and computationally intensive process. This thesis covers model calibration, parameter uncertainty, and surrogate modeling. Model calibration is done with parameter estimation where the parameters of a model are estimated based on chromatogram data. While least squares estimation of unknown parameters is a well-established standard it can also suffer from critical disadvantages. The description of real-world systems is generally prone to unaccounted mechanisms in the models that are customarily applied, such as dispersion in external holdup volumes, and systematic measurement errors, such as caused by pump delays. In this scenario, matching the shape between simulated and measured chromatograms has been found to be more important than the exact peak positions. A new score system is demonstrated that separately accounts for the shape, position, and height of individual peaks. A genetic algorithm is used for optimizing these multiple objectives. Even for non-conflicting objectives, this approach shows superior convergence in comparison to single-objective gradient search, while conflicting objectives indicate incomplete models or inconsistent data. In the latter case, Pareto optima provide important information for understanding the system and improving experiments. Once a model is calibrated the next step is to determine how well defined the model is. With increased dependence on modeling, it is not enough to calibrate a model to experimental data. No model is perfect, and no model can perfectly explain experimental data. What is increasingly needed is the uncertainty in the calibrated model’s parameters along with the uncertainty in the resulting chromatogram. A method is presented to determine the probability distribution of parameters for a calibrated model using Bayesian uncertainty quantification. This method incorporates experimental errors such as pump delays, pump flow rates, loading concentration, and UV measurement error. The method presented here is based on Bayes’ theorem and uses Markov Chain Monte Carlo with an ensemble sampler and covers how to build and evaluate the error model. While the model calibration and parameter uncertainty analysis presented here work well for synthetic and industrial data, they also require a lot of computing resources. A surrogate model approximates the original model and can stand in for the real model under restricted conditions. The advantage of surrogate models is they can be tens of thousands of times faster than the original model. Construction of a surrogate model using an artificial neural network is demonstrated along with the entire network design process. All software created for this project is freely available as open-source code on GitHub (https://github.com/modsim/CADET-Match).

OpenAccess:
PDF
(additional files)