h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

A comprehensive data analytics framework to support research data management in distributed systems



Verantwortlichkeitsangabevorgelegt von M. Amin Yazdi, M.Sc.

ImpressumAachen : RWTH Aachen University 2023

Umfang1 Online-Ressource : Illustrationen


Dissertation, RWTH Aachen University, 2023

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2024


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2023-12-12

Online
DOI: 10.18154/RWTH-2023-11892
URL: https://publications.rwth-aachen.de/record/975205/files/975205.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 12 (Hochleistungsrechnen) (123010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
data analytics (frei) ; data mining (frei) ; distributed systems (frei) ; process mining (frei) ; recommender systems (frei) ; research data management (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Effektive Praktiken im Bereich des \gls{fdm} sind essenziell, um Forschungskollaborationen zu fördern, die Auffindbarkeit und Wiederverwendung von Forschungsdaten zu erhöhen und den wissenschaftlichen Fortschritt in der Hochschulbildung voranzutreiben. In den letzten Jahren hat die Einführung von Open-Science-Plattformen (OSPs) und die FAIR-Prinzipien (finadable, accessible, interoperable, reusable) die Notwendigkeit verbesserter FDM-Methoden und -Werkzeuge für den Erfolg von Hochschulen unterstrichen. Die vorhandene Literatur bietet bisher jedoch nur wenig Anleitung zum Monitoring von FDM-Prozessen, deren Einführung und Nutzung. Diese Dissertation schließt diese Lücke, indem sie untersucht, wie man die Entdeckung und Verbesserung von Prozessbewusste RDM-Aktivitäten durch Modellierung der tatsächlichen Praktiken der Forschenden ermöglichen kann. Diese Dissertation präsentiert eine Reihe von Methoden als Baukasten, der Datenakquise, Abstraktion, Wissensentdeckung und Prozessverbesserungen kombiniert. Die Fallstudien heben die Herausforderungen hervor, die mit FDM-bezogenen Aktivitäten verbunden sind, indem sie die Gültigkeit der vorgeschlagenen Methoden in realen Umgebungen bewerten. Zunächst präsentiert diese Arbeit eine universelle Referenzsoftwarearchitektur für FDM-Dienste; dann schlägt sie vier Ansätze zur Datenakquise vor, einschließlich einer neuartigen Hybrid-Logger-Technik zur Akquise von Datensätzen aus verteilten Informationssystemen und bietet einen umfassenden Überblick über Benutzeraktivitäten durch Auswertung entsprechender Softwarekomponentenausführungen. Dieser Ansatz ermöglicht eine Projektion des Benutzerverhaltens und erleichtert die Entwicklung weiterer Studien im Bereich maschinelles lernen. Darüber hinaus führt diese Arbeit einen semi-überwachten Lernansatz zur Abstraktion von Datensätzen ein, indem sie nichtsequenzielle Ereignisse in verteilten Systemen unter Beibehaltung des Gleichgewichts zwischen Datenkörnung und Modellpassung berücksichtigt. Die Methodik zur Entdeckung prozessbewusster Aktivitäten beinhaltet eine modulare und geschichtete Architektur, die Einblicke in die Einhaltung von FDM, die Identifizierung von Abweichungen und die Optimierung des Benutzererlebnisses bietet. Darüber hinaus skizziert sie eine Methode zur Bestimmung und Visualisierung der Interaktionen zwischen Benutzer und System und entdeckt die FDM-Phasen von Forschungsprojekten, was ein praktisches Verständnis des Fortschritts und der Aktivitäten verschiedener Forschungsgruppen bietet. Schließlich schlägt diese Arbeit zwei Empfehlungssysteme vor und bewertet sie, um das Potenzial von inhaltsbasierten und kollaborativen Filterempfehlungssystemen zur Förderung der Wiederverwendbarkeit von Forschungsdatenbanken und zur Förderung der Zusammenarbeit zwischen Forschern aufzuzeigen. Die Ergebnisse tragen erheblich zur Erweiterung der Literatur über FDM bei und bieten wertvolle Einblicke in das Potenzial der vorgestellten Methoden zur Verbesserung von FDM-Praktiken in OSPs. Die Dissertation entwirft ganzheitliche Strategien zur Bewältigung der Schwierigkeiten, die mit der Erleichterung von FDM in OSPs verbunden sind, gibt Richtlinien für die Implementierung der notwendigen Architektur vor und demonstriert die Anwendbarkeit der vorgeschlagenen Methoden auf andere FDM-Dienste, die sich an die Referenzsoftwarearchitektur von FDM-Systemen halten.

Effective \gls{rdm} practices are essential for fostering research collaboration, increasing discoverability and repurposing research data, and advancing scientific progress in higher education. In recent years, adopting \glspl{osp} and the \gls{fair} data principles has highlighted the need for improved RDM methodologies and tools for flourishing higher education achievements. However, existing literature has provided limited guidance on monitoring RDM processes, their adoption, and their use. This dissertation addresses this gap by investigating how to enable discovering and enhancing process-aware RDM activities via modeling the underlying researcher's actual practices.This dissertation presents a series of methodologies as a framework combining data acquisition, abstraction, knowledge discovery, and operation enhancement techniques. Furthermore, the case studies highlight the challenges associated with RDM-related activities by assessing the proposed methodologies' validity in real-world environments. Initially, this work presents a universal reference software architecture for RDM services; then, it proposes four approaches for data acquisition, including a novel Hybrid logger technique for acquiring datasets from information systems that operate on distributed settings, providing a comprehensive view of user activities by evaluating corresponding software component executions. This approach enables a projection of user behavior and facilitates the development of further machine-learning studies. Furthermore, this work introduces a semi-supervised learning approach for abstracting datasets by accommodating non-sequential events in distributed systems while balancing data granularity and model fitness. The methodology for discovering process-aware activities incorporates a modular and layered architecture, providing insights into RDM compliance, identifying deviations, and optimizing user experience. Additionally, it outlines a method for determining and visualizing the user and system interactions and discovers the RDM phases of research projects, providing a practical understanding of the progression and activities of different research groups.Finally, this thesis proposes and evaluates two recommender systems, demonstrating the potential of Content-Based and Collaborative Filtering recommender systems in enabling the reusability of research data repositories and fostering cooperation among researchers. The findings contribute significantly to the expanding body of literature on RDM and provide valuable insights into the potential of the presented methodologies for enhancing RDM practices in OSPs.In conclusion, this dissertation offers holistic strategies for addressing the difficulties related to facilitating RDM in OSPs, providing guidelines for implementing necessary architecture and demonstrating the applicability of the proposed methods to other RDM services that adhere to the reference software architecture of RDM systems.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT030619982

Interne Identnummern
RWTH-2023-11892
Datensatz-ID: 975205

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
123010

 Record created 2023-12-15, last modified 2024-05-27


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)