Incremental process discovery

Schuster, Daniel; van der Aalst, Wil M. P.; van Dongen, Boudewijn F.

doi:HT030801071

Incremental process discovery

Schuster, Daniel^RWTH*

2024

Verantwortlichkeitsangabevorgelegt von Daniel Schuster, M.Sc. M.Sc.

ImpressumAachen : RWTH Aachen University 2024

Umfang1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2024

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
van der Aalst, Wil M. P. (Thesis advisor)^RWTH* ; van Dongen, Boudewijn F. (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2024-06-19

Online
DOI: 10.18154/RWTH-2024-06483
URL: https://publications.rwth-aachen.de/record/988919/files/988919.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
business process management (frei) ; data science (frei) ; process analytics (frei) ; process mining (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Ein Großteil der Prozesse und betrieblichen Abläufe in Organisationen, beispielsweise Verwaltungs-, Finanz-, Produktions- und Logistikprozesse, wird durch Informationssysteme unterstützt. Diese Systeme zeichnen die Ausführung betrieblicher Prozesse detailliert auf und erzeugen Ereignisdaten, die wertvolle Informationen über die Prozessausführung enthalten. Process Mining analysiert diese Ereignisdaten, um Erkenntnisse in den Prozess zu gewinnen, beispielsweise Prozessmodelle, Konformitätsstatistiken und zeitliche Performancestatistiken. Prozessanalytiker und -verantwortliche nutzen die gewonnenen Erkenntnisse wiederum, um die Ausführung von Prozessen zu verstehen und diese letztlich zu optimieren, zum Beispiel durch Verringerung der Zykluszeiten, Verbesserung der Ressourcenzuweisung und Erhöhung der Konformität. Allgemein zielt Process Mining darauf ab, Prozesse auf datengetriebene Weise zu verbessern. Process Discovery befasst sich mit dem Lernen von Prozessmodellen aus Ereignisdaten und ist eine grundlegende Aufgabe innerhalb von Process Mining. Die meisten bestehenden Process Discovery Algorithmen sind jedoch vollständig automatisiert, d. h. sie arbeiten aus der Sicht der Benutzer als Blackboxen, ermitteln Prozessmodelle in einer einstufigen Weise ohne Benutzerinteraktion und ermitteln häufig unzureichende Modelle, insbesondere bei Anwendung auf reale Daten. Darüber hinaus nutzen diese Prozesserkennungsalgorithmen kein über die Ereignisdaten hinausgehendes Domänenwissen. In dieser Dissertation wird ein Framework für inkrementelles Process Discovery vorgestellt, welches es Anwendern ermöglicht, schrittweise ein Prozessmodell aus Ereignisdaten zu lernen. Dabei können die Benutzer die bisher gelernten intermediären Prozessmodelle einsehen. Darüber hinaus können die Nutzer die intermediären Modelle bei Bedarf manuell bearbeiten, bevor diese erneut in das inkrementelle Process Discovery Framework zum weiteren Lernen eingespeist werden. Außerdem können Anwender schrittweise das Prozessverhalten, d. h. die aufgezeichneten Prozessausführungen aus den Ereignisdaten auswählen, welches dem Prozessmodell hinzugefügt wird. Kurz gesagt, das vorgeschlagene inkrementelle Process Discovery Framework befähigt Anwender zur Interaktion und Steuerung der Discovery-Phase eines Prozessmodells aus Ereignisdaten. Darüber hinaus schlagen wir zwei Erweiterungen des inkrementellen Process Discovery Frameworks vor. Erstens erlauben wir das schrittweise Hinzufügen von Prozessausführungsfragmenten zusätzlich zu vollständigen Prozessausführungen. Die meisten automatisierten Algorithmen im Process Discovery gehen von vollständigen Prozessausführungen aus, die den Prozess von Anfang bis Ende umfassen. Im Gegensatz dazu beschreiben Prozessausführungsfragmente einen kleinen Teil einer gesamten Prozessausführung. Als zweite Erweiterung führen wir die Möglichkeit des Einfrierens von Modellteilen ein, die es Anwendern ermöglicht, den inkrementellen Process Discovery Ansatz einzuschränken, indem dieser daran gehindert wird, eingefrorene Modellteile während der inkrementellen Prozessentdeckung weiter zu verändern. Da die schrittweise Auswahl des Prozessverhaltens durch Anwender, welches in das Prozessmodell aufgenommen werden soll, für die inkrementelle Prozessentdeckung von zentraler Bedeutung ist, schlagen wir ferner neue Visualisierungen für Prozessausführungsvarianten vor. Varianten sind ein zentrales Konzept im Process Mining, die einzelne Prozessausführungen mit identischer Anordnung der ausgeführten Aktivitäten bündeln. Vor dem Hintergrund, dass Aktivitäten innerhalb eines Prozesses zeitlich parallel laufen können, auch als partiell geordnete Ereignisdaten bekannt, schlagen wir Visualisierungen zur Darstellung solcher Aktivitätsbeziehungen vor. Darüber hinaus leistet diese Arbeit einen Beitrag zu dem Forschungsgebiet Process Querying. Wir präsentieren eine Abfragesprache für Prozessausführungsvarianten, die die Spezifikation von komplexen Kontrollflussmustern über Aktivitäten ermöglicht. Bei der Ausführung einer Abfrage werden Prozessausführungsvarianten zurückgegeben, die den spezifizierten Bedingungen entsprechen. Die vorgeschlagene Abfragesprache unterstützt den Umgang mit großen Mengen von Ereignisdaten, erleichtert die Filterung und Auswahl von Prozessausführungsvarianten und trägt somit zur Unterstützung von Nutzern bei der Anwendung von inkrementellem Process Discovery bei. Neben der Prozessentdeckung und der Verarbeitung von Ereignisdaten leistet diese Dissertation einen Beitrag zum Conformance Checking, einer weiteren grundlegenden Aufgabe innerhalb des Process Mining neben Process Discovery. Conformance Checking Techniken erlauben den Abgleich von aufgezeichneten Prozessverhalten mit modelliertem Prozessverhalten und sind daher entscheidend für inkrementelles Process Discovery, da diese Techniken Informationen darüber liefern, inwiefern das bisher gelernte Prozessmodell die bereitgestellten Ereignisdaten abdeckt. Wir erweitern das Konzept der Alignments, welche eine State of the Art Conformance Checking Methode sind, um Prozessausführungsfragmente. Wir definieren Infix- und Postfix-Alignments und zeigen, wie diese berechnet werden können. Infix- und Postfix-Alignments sind von entscheidender Bedeutung, da sie inkrementelle Process Discovery mit Prozessausführungsfragmenten ermöglichen. Darüber hinaus stellen wir Cortado vor, ein Open-Source-Softwaretool für Process Mining, das die in dieser Dissertation vorgeschlagenen Algorithmen und Techniken in einer integrierten und umfassenden Weise implementiert. Das Tool Cortado demonstriert, wie die in dieser Arbeit vorgestellten Methoden und Algorithmen dem Gesamtziel der inkrementellen Prozessentdeckung dienen. Schließlich stellen wir eine Fallstudie vor, in der Cortado und damit die verschiedenen Beiträge dieser Dissertation in einem realen Szenario angewendet werden.

Many organizational processes rely on information systems to support operational functions such as administration, finance, production, and logistics. These systems track process executions in great detail, generating event data that contain valuable information about process executions. Process mining analyzes these event data and yields crucial insights into the processes, such as process models, conformance diagnostics, and performance metrics. Process analysts and owners can use the derived insights to understand how processes are executed in practice and ultimately optimize them, for example, by reducing cycle times, improving resource allocation, and enhancing conformity. Overall, process mining aims to improve processes through data-driven approaches. Process discovery is concerned with learning process models from event data and is a fundamental task within process mining. However, most existing process discovery algorithms are fully automated, i.e., they operate as black boxes from the users’ perspective, discover process models in a one-shot fashion, devoid of user interaction, and often discover subpar models, particularly when applied to real-world data. Moreover, these process discovery algorithms fail to exploit domain knowledge beyond event data. This thesis presents a framework for incremental process discovery that allows users to learn and refine process models from event data iteratively. Thereby, users can observe intermediate process models learned so far. Further, users can manually edit intermediate process models before they are fed back into the incremental process discovery framework for further learning. Moreover, users can selectively incorporate process behaviors from event data. In short, we propose an incremental process discovery framework that allows users to interact and steer the discovery phase of a process model. We further extend the incremental process discovery framework as follows. First, we allow the gradual addition of process execution fragments alongside complete process executions. Most automated process discovery algorithms assume complete process executions that span the process from start to end. In contrast, process execution fragments describe a small part of an entire process execution. The second extension allows for the freezing of model components, which allows users to constrain the incremental discovery approach by preventing it from altering frozen model parts during incremental process discovery. Given users' pivotal role in gradually selecting process behaviors for inclusion in the process model, we introduce novel visualizations for process execution variants. Central to process mining, these variants group individual process executions that have identical arrangements of the activities executed. Considering that activities within a process can run concurrently and overlap, yielding partially ordered event data, we propose visualizations to illustrate such activity relationships. Additionally, this thesis contributes to the field of process querying. We propose a query language for process execution variants that allow the specification of complex control flow patterns among activities. When executing a query, process execution variants satisfying the specified constraints are returned. In short, the proposed query language supports the handling of large event data volumes, enhances the filtering and selection of process execution variants, and, thus, facilitates users during incremental process discovery. Next to process discovery and event data handling, this thesis contributes to conformance checking, a further fundamental process mining task. Conformance checking techniques are used to compare observed with modeled process behavior and are crucial to incremental process discovery, providing information and diagnostics on how well the so-far learned process model aligns with the provided event data. We extend the concept of alignments, i.e., a state-of-the-art conformance checking technique, to accommodate process execution fragments. We define infix and postfix alignments and show their computation. Infix and postfix alignments are critical as they enable incremental process discovery with trace fragments. Moreover, we present Cortado, an open-source process mining software tool that implements the algorithms and techniques proposed in this thesis in an integrated and comprehensive fashion. Through Cortado, we showcase how the methods and algorithms presented in this thesis serve the overall goal of incremental process discovery. Finally, this thesis presents a case study applying Cortado and, therefore, the various contributions of this thesis in a real-life scenario.

OpenAccess:
PDF
(additional files)