Asynchronous tracking and description of research data changes in distributed systems with interoperable metadata

Heinrichs, Benedikt Paul Anton; Müller, Matthias S.; Stäcker, Thomas

doi:HT030747002

Asynchronous tracking and description of research data changes in distributed systems with interoperable metadata = Asynchrone Nachverfolgung und Beschreibung von Forschungsdatenänderungen in Verteilten Systemen mit interoperablen Metadaten

Heinrichs, Benedikt Paul Anton^RWTH*

2024

VerantwortlichkeitsangabeBenedikt Heinrichs

Ausgabe1. Auflage

ImpressumAachen : Apprimus Verlag 2024

Umfang1 Online-Ressource : Illustrationen

ISBN978-3-98555-214-6

ReiheErgebnisse aus der Informatik ; 11

Dissertation, RWTH Aachen University, 2024

Druckausgabe: 2024. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Müller, Matthias S. (Thesis advisor)^RWTH* ; Stäcker, Thomas (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2024-04-08

Online
DOI: 10.18154/RWTH-2024-04605
URL: https://publications.rwth-aachen.de/record/985412/files/985412.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
FAIR digital objects (frei) ; data provenance (frei) ; distributed research data management systems (frei) ; metadata extraction (frei) ; research data management (frei) ; research data similarity (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Durch die Entstehung digitaler Forschungsprozesse entstanden viele Praktiken zur Speicherung, die stark voneinander abwichen. Folglich wurden Daten produziert, die ohne ein Verwaltungssystem nicht auffindbar waren. Lösungen dieses Problems sollen Empfehlungen wie die FAIR-Prinzipien sein, die beschreiben, dass Forschungsdaten auffindbar, zugänglich, interoperabel und wiederverwendbar sein sollen. Während diese Prinzipien Ziele vorgeben, gibt es keinen Leitfaden für die Umsetzung. Deswegen haben Forschungsdatenmanagement (FDM) Teams weltweit zahlreiche Implementierungen geschaffen. Einige davon sind Plattformen wie Coscine, die Forschungsdaten verwalten können und versuchen, Teile der FAIR-Prinzipien zu befolgen. Solche Plattformen stehen jedoch vor dem Problem, dass Forschende ihre Forschungsdaten bei einem erprobten und offen zugänglichen Speicheranbieter speichern wollen. Daher laufen die Forschungsdaten oft direkt über die Speicheranbieter. Die Plattformen können so nicht die Bewegung der Forschungsdaten nachvollziehen und ihnen entgehen wichtige Provenienz-Informationen. Die vorliegende Arbeit zielt darauf ab, diese Lücke zu schließen, indem sie eine Methode bereitstellt, die die fehlenden Provenienz-Informationen berechnen kann, nachdem Änderungen stattgefunden haben. Diese sogenannte asynchrone Daten-Provenienz wird durch den Vergleich von Repräsentationen von Forschungsdaten erzeugt. Wenn sich die Repräsentationen geändert haben, ist wahrscheinlich eine neue Version oder Variante der Forschungsdaten erstellt worden. Die Repräsentationen können von einem generierten Hash bis zu interoperablen Metadaten über die Forschungsdaten reichen. Diese interoperablen Metadaten werden erstellt, indem eine Pipeline ausgeführt wird, die Forschungsdaten erhält und wertvolle Informationen über deren Inhalt extrahiert. Diese Informationen werden dann als interoperable Metadaten annotiert, indem bestehende Applikationsprofile und Ontologien verwendet werden. Mithilfe interoperabler Metadaten kann mit einer Methode namens FSS Jaccard die Ähnlichkeit von Forschungsdaten bestimmt werden. Um die Anwendbarkeit der erstellten Methoden zu verifizieren, werden sie in ein standardbasiertes FDM-System (FDMS) integriert, das in dieser Arbeit definiert wird. Für dieses standardbasierte FDMS wird Coscine als Anwendungsfall verwendet. Damit stellt diese Arbeit eine Methode vor, die zusätzliche Informationen über Forschungsdaten liefern und die dargestellte Lücke für jedes standardbasierte FDMS schließen kann. Durch den Einsatz dieser Methode können FDM-Teams die Umsetzung der FAIR-Prinzipien unterstützen und die Prozesse für Forschende verbessern.

With the digital revolution, the way to approach research has fundamentally changed. Suddenly, research processes created digital research data that needed to be stored. Initially, no standards for this existed, so practices diverged wildly. Consequently, data was produced that was not findable without a management system. For this reason, movements entered the picture intending to standardize these processes and define how research data should be managed. One recommendation is the FAIR Guiding Principles, which describe that research data should be findable, accessible, interoperable, and reusable. While these principles have set goals, no implementation guideline is provided since the different research areas are too diverse. Therefore, research data management (RDM) teams around the globe have created numerous implementations. Some of them are platforms like Coscine, which can manage research data and try to adhere to parts of the FAIR principles. However, such platforms face the issue that researchers want to store their research data with an enterprise-ready and openly accessible storage provider. Therefore, research data often does not move through these platforms but directly through the storage providers. This circumstance contradicts the aim of following the FAIR principles because the platforms cannot account for the research data movement and miss critical provenance information. The presented thesis aims to close that gap by providing a method to calculate the missing provenance information after changes occur. This so-called asynchronous data provenance is produced by comparing representations of research data. If the representations have changed, a new version or variant of the research data has likely been created. Representations can range from a generated hash to interoperable metadata about the research data. This interoperable metadata is created by running a pipeline that receives research data and extracts valuable information about its content. This information is annotated as interoperable metadata by following existing application profiles and ontologies. Interoperable metadata can be used to compute the similarity of research data with a method called FSS Jaccard. The created methods are integrated into a standards-based RDM system (RDMS), defined in this thesis, to show their applicability. For this standards-based RDMS, Coscine is used as a use case. Thereby, this thesis presents a method that can provide additional information about research data and close the presented gap for any standards-based RDMS. By using this method, RDM teams can come closer to supporting the implementation of the FAIR principles and improving the processes for researchers.

OpenAccess:
PDF
(additional files)