Automated experimentation, Bayesian statistics and machine learning for high-throughput bioprocess development

Helleckes, Laura Marie; Wiechert, Wolfgang; Matuszynska, Anna Barbara; Oldiges, Marco

doi:43927

Automated experimentation, Bayesian statistics and machine learning for high-throughput bioprocess development = Automatisierte Experimente, Bayessche Statistik und maschinelles Lernen für die Entwicklung von Bioprozessen im Hochdurchsatzverfahren

Helleckes, Laura Marie^RWTH*

2024 & 2025

Verantwortlichkeitsangabevorgelegt von Master of Science (M. Sc.) Laura Marie Helleckes

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2025

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Oldiges, Marco (Thesis advisor)^RWTH* ; Matuszynska, Anna Barbara (Thesis advisor)^RWTH* ; Wiechert, Wolfgang (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2024-12-12

Online
DOI: 10.18154/RWTH-2024-12118
URL: https://publications.rwth-aachen.de/record/999462/files/999462.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Bayesian statistics (frei) ; bioprocess development (frei) ; laboratory automation (frei) ; machine learning (frei)

Thematische Einordnung (Klassifikation)
DDC: 570

Kurzfassung
Der Wandel zu einer zirkulären Bioökonomie ist für die Bewältigung der sozioökologischen Krisen des 21. Jahrhunderts unerlässlich. Die industrielle Biotechnologie, ein Eckpfeiler dieser Bioökonomie, nutzt moderne Biofoundries, welche Automatisierung und Hochdurchsatz-Experimente mit dem Design-Build-Test-Learn (DBTL)-Zyklus verbinden, um die Entwicklung von Bioprozessen zu beschleunigen. Während Fortschritte bei der automatisierten Klonierung und Genom-Editierung die Verfügbarkeit großer Stammbibliotheken für das Screening im Frühstadium erhöht haben, gibt es in den Test- und Lernphasen des DBTL-Zyklus noch einige Einschränkungen. Diese Arbeit kombiniert automatisierte Experimente, Bayes'sche statistische Modellierung und maschinelles Lernen, um die verbleibenden Lücken auf dem Weg zur autonomen Bioprozessentwicklung zu schließen. Dies erfordert einen $\textit{experiment-in-the-loop}$-Ansatz, bei dem Simulationen eng mit Experimenten auf automatisierten Mikrobioreaktor-Plattformen gekoppelt werden. Daher wurden die Toolboxen für die experimentelle Prozessentwicklung sowie für die Entscheidungsfindung auf der Basis von Prozessmodellen erweitert. Diese verbesserten Werkzeuge wurden dann auf biotechnologische Fallstudien angewandt, wobei der Schwerpunkt auf modellgetriebener Versuchsplanung und iterativem Screening lag. Zunächst wurden manuelle Schritte im mikrobiellen Screening, wie z.B. Vorkulturen in Schüttelkolben, durch automatisierte Lösungen ersetzt. Bestehende automatisierte Mikrobioreaktor-Plattformen wurden erweitert, um aufeinanderfolgende Screening-Experimente ohne menschliches Eingreifen zu ermöglichen. Beispielsweise wurde ein automatisierter Tiefkühlschrank vollständig integriert, einschließlich der Anbindung an die bestehende digitale Infrastruktur zur Prozesssteuerung. Darüber hinaus wurden automatisierte Vorkulturen und das Recycling von Mikrotiterplatten für Mikrobioreaktoren realisiert, was zur Demonstration eines vollautomatischen, iterativen Screeningablaufs mit Cutinase-sekretierenden Stämmen von $\textit{Corynebacterium glutamicum}$ führte. Nachdem die Lücken bei den automatisierten Experimenten geschlossen waren, verlagerte sich der Schwerpunkt auf die Hochdurchsatz-Datenanalyse und die Prozessmodellierung. Es wurde ein Bedarf an der schnellen Auswertung analytischer Kalibrierungsdaten, zum Beispiel aus enzymatischen Hochdurchsatz-Assays, festgestellt. Dies führte zur Konzeption und Umsetzung von Bayes'schen Kalibrierungsmodellen für biotechnologische Anwendungen, die die Beziehung zwischen getesteten Größen und gemessenen Werten, einschließlich der Unsicherheit, beschreiben. Das Open-Source-Python-Paket calibr8 wurde entwickelt, um die einfache Implementierung komplexer Kalibrierungsmodelle auch bei geringer Programmiererfahrung zu ermöglichen. Es dient als Werkzeugkasten für die analytische Kalibrierung mit hohem Durchsatz, sowie als Ausgangspunkt für fortgeschrittene Prozessmodelle, welche systematische Abweichungen in Messsystemen berücksichtigen. Unter Verwendung von Kalibrierungsmodellen als Likelihoods wurden Bayes'sche statistische Modelle entwickelt, um die technischen und biologischen Parameter eines Screening-Prozesses darzustellen. So wurden beispielsweise systematische Abweichungen zwischen Screening-Experimenten modelliert, um Verzerrungen bei der abschließenden Bewertung von Stämmen und Prozessbedingungen zu vermeiden. Die Prozessmodelle wurden auch verwendet, um wichtige Leistungsindikatoren für die Entscheidungsfindung abzuleiten. In zwei Anwendungsstudien wurden Bayes'sche hierarchische Prozessmodelle mit Bayes'scher Optimierung kombiniert, um iterative Screening-Experimente effizient zu planen. So konnte beispielsweise die Anzahl der Experimente, die für das Screening einer Stammbibliothek von katalytisch aktiven $\textit{inclusion bodies}$ (CatIBs) erforderlich sind, um 25% reduziert werden. Gleichzeitig ermöglicht der wahrscheinlichkeitsbasierte Ansatz bei der Kalibrierung und Prozessmodellierung die Identifizierung wichtiger Fehlerquellen. Dies wurde genutzt, um die Entwicklung von automatisierten Arbeitsabläufen zu steuern, was z.B. zu einer Verringerung der relativen Standardabweichung bei den automatisierten Verfahren für CatIB-Aufreinigung und -Assay von 11.4% auf nur 1.9% bei 42 Replikaten führte. Schließlich wurden moderne Methoden des maschinellen Lernens eingesetzt, um Prozessmodelle und Versuchspläne für Anwendungen mit nur begrenztem Prozessverständnis zu entwickeln. Das Potenzial des horizontalen Wissenstransfers für Prozessmodelle wurde erforscht, indem Daten aus historischen Prozessen zur Verbesserung der Vorhersagen für neue Prozesse verwendet wurden. Beispielsweise wurden Gauß-Prozesse, gängige Modelle des maschinellen Lernens für kleine Datensätze, mit Ansätzen des $\textit{meta learning}$ kombiniert und anhand von In-silico-Zellkulturdaten vergleichend bewertet. In einem letzten Schritt wurden die etablierten Wissenstransfermodelle genutzt, um optimale Versuchspläne für die Charakterisierung unbekannter Prozesse zu identifizieren. Diese Vorgehensweise wurde als $\textit{calibration design}$ vorgestellt. Zusammenfassend wird in dieser Arbeit das Screening von Bioprozessen intensiviert, was durch die Verbesserung autonomer Arbeitsabläufe in automatisierten Mikrobioreaktorsystemen erfolgt. Die enge Interaktion zwischen Experiment und Modell ist für das Erreichen dieses Ziels entscheidend, ebenso der Einsatz von Laborautomatisierung, computergestützten Werkzeugen und interdisziplinärer Forschung. Insgesamt ebnet diese Arbeit den Weg für autonome DBTL-Zyklen, die für das Erreichen einer nachhaltigen Bioökonomie unerlässlich sind.

The transition to a sustainable, circular bioeconomy is essential to tackle the socioecological crises of the 21st century. Industrial biotechnology, a cornerstone of this bioeconomy, leverages modern biofoundries that integrate automation and high-throughput experimentation with the Design-Build-Test-Learn (DBTL) cycle to streamline bioprocess development. While advances in automated cloning and genome editing have increased the availability of large strain libraries for early-stage screening, several limitations remain in the Test and Learn phases of DBTL. This work combines automated experimentation, Bayesian statistical modelling and machine learning to bridge the remaining gaps towards autonomous bioprocess development. This requires an $\textit{experiment-in-the-loop}$-approach, where simulations are closely coupled with experiments on automated microbioreactor platforms. Consequently, the toolboxes for experimental workflow development and decision making based on process models were extended in this thesis. These improved tools were then applied to biotechnological case studies, focusing on model-driven experimental design and iterative screening. First, manual steps in microbial screening, such as precultures in shake flasks, were replaced by automated solutions. Existing automated microbioreactor platforms were thus extended to enable consecutive screening experiments without human intervention. For example, an automated deep freezer was seamlessly integrated, including the connection to the existing process control infrastructure. Furthermore, automated precultures and microtiter plate recycling were achieved for the microbioreactor, leading to the demonstration of a fully automated, iterative screening with cutinase-secreting $\textit{Corynebacterium glutamicum}$ strains. With the gaps in automated experimentation closed, the focus was shifted to high-throughput data analysis and process modelling. A need was identified for the evaluation of analytical calibration data, for example from high-throughput enzymatic assays. This led to the development of Bayesian calibration models for biotechnological applications, which describe the relationship between tested quantities and measured values, including uncertainty. The open-source Python package calibr8 was developed to help practitioners with little programming experience to easily implement complex, non-linear calibration models. It serves as a toolbox for high-throughput analytical calibration, as well as a starting point for advanced process models that account for bias in measurement systems. Using calibration models as likelihoods, Bayesian statistical models were developed to represent the technical and biological parameters of a screening process. For example, batch effects between screening experiments were modelled to avoid a bias in the final ranking of strains and conditions. The process models were also used to derive key performance indicators with uncertainties for decision making. In two application studies, Bayesian hierarchical process models were combined with Bayesian optimisation to efficiently design iterative screening experiments. For example, the number of experiments required to screen a strain library of catalytically active $\textit{inclusion bodies}$ (CatIBs) could be reduced by 25%. At the same time, the probabilistic approach to calibration and process modelling allows to identify major sources of uncertainty. This was exploited to guide workflow development, e.g. leading to a reduction of the relative standard deviation in the automated CatIB purification and assay procedures from 11.4% to only 1.9% over 42 replicates. Finally, modern machine learning tools were used to develop process models and experimental designs for applications with limited process understanding. The potential of horizontal knowledge transfer for process models was explored, using data from historical processes to improve predictions for new processes. For example, Gaussian processes, popular machine learning models for small data sets, were combined with $\textit{meta learning}$ and benchmarked using in silico cell culture data. In a final step, the established knowledge transfer models identified optimal experimental designs to characterise the behaviour of an unseen process, a procedure called $\textit{calibration design}$. In conclusion, this work intensifies bioprocess screening by improving autonomous workflows on automated microbioreactor systems. The close interaction between experiment and model is crucial to achieve this goal, as is harnessing the power of laboratory automation, computational tools and interdisciplinary research. Overall, this thesis paves the way for autonomous DBTL cycles, which are essential for a sustainable bioeconomy in the future.

OpenAccess:
PDF
(additional files)