2020
Dissertation, RWTH Aachen University, 2020
Druckausgabe: 2020. - Onlineausgabe: 2020. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2020-02-14
Online
DOI: 10.18154/RWTH-2020-07304
URL: https://publications.rwth-aachen.de/record/793967/files/793967.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
electrophysiology (frei) ; metadata management (frei)
Thematische Einordnung (Klassifikation)
DDC: 570
Kurzfassung
Das wissenschaftliche Wissen der Menschheit basiert auf der Überprüfung von Hypothesen durch Experimente. Da der Aufbau und die Durchführung eines Experiments immer komplexer werden, werden immer mehr Wissenschaftler an einem einzigen Projekt beteiligt. Um die erzeugten Daten für alle Wissenschaftler und bestenfalls für die gesamte wissenschaftliche Gemeinschaft leicht zugänglich zu machen, ist es unerlässlich, die Umstände der Datengenerierung umfassend zu dokumentieren, da diese wesentliche Informationen für die spätere Analyse und Interpretation enthalten. In dieser Arbeit stelle ich zwei komplexe neurowissenschaftliche Projekte und die Strategien, Werkzeuge und Konzepte vor, mit denen die gesammelten Daten umfassend verfolgt, verarbeitet, organisiert und für die gemeinsame Analyse vorbereitet wurden. Zunächst beschreibe ich das ältere der beiden Experimente und erkläre detailliert die Erzeugung von Daten und Metadaten sowie die Pipeline zur Aggregation von Metadaten. Um die komplexe Metainformation dieses Projekts zu erfassen, wurde ein hierarchischer Ansatz auf Basis der Open-Source-Software odML für die Metadatenorganisation implementiert. Ich evaluiere die verwendeten Designkonzepte und Werkzeuge und leite daraus einen allgemeinen Anforderungskatalog für die wissenschaftliche Zusammenarbeit in komplexen Projekten ab. Außerdem identifiziere ich Probleme und Anforderungen, die durch diese Pipeline noch nicht gelöst wurden. Insbesondere bestand die Schwierigkeit darin, i) manuelle Metadaten einzugeben und die Metadatenerfassung zu strukturieren, ii) Metadaten mit den eigentlichen Daten zu kombinieren und iii) die Pipeline modular generisch und transparent aufzubauen. Anhand dieser Analyse beschreibe ich Konzept- und Tool-Implementierungen, um diese identifizierten Probleme anzugehen. Ich habe ein ergänzendes Werkzeug (odMLtables)entwickelt, um i) die strukturierte Erfassung von Metadaten zu erleichtern und ii) diese einfach in das hierarchische, standardisierte Metadatenformat odML zu konvertieren. odMLtables bietet eine Schnittstelle zwischen den leicht lesbaren tabellarischen Metadatenrepräsentation in den in Laborumgebungen gebräuchlichen Formaten (csv/xls) und dem hierarchisch organisierten odML-Format auf Basis von xml, das für eine um-fassende Sammlung komplexer Metadatensätze in leicht maschinenlesbarer Form konzipiert ist. Ergänzend zur koordinierten Erfassung von Metadaten habe ich die Neo Toolbox für die standardisierte Darstellung elektrophysiologischer Daten mitgestaltet. Diese Toolbox ist eine Schlüsselkomponente für die elektrophysiologische Datenanalyse, da sie verschiedene proprietäre und nicht-proprietäre Dateiformate integriert und als Brücke zwischen verschiedenen Dateiformaten dient. Ich betone neue Funktionen, die den Prozess des Daten- und Metadatenhandlings im Workflow der Datenerfassung vereinfachen. Ich führe das Konzept des Workflow-Managements in den Bereich der wissenschaftlichen Datenverarbeitung ein, basierend auf dem gängigen Python-basierten snakemake Paket. Für das zweite, neuere elektrophysiologische Experiment habe ich den Workflow zur Erfassung und Verpackung von Metadaten und Daten in einer umfassenden Form konzipiert und implementiert. Hier habe ich das generische neurowissenschaftliche Informationsaustauschformat (Nix) für die benutzerfreundliche Verpackung von Datensätzen mit Daten und Metadaten in kombinierter Form verwendet. Schließlich evaluiere ich den verbesserten Workflow anhand der Anforderungen an die wissenschaftliche Zusammenarbeit in komplexen Projekten. Ich erstelle allgemeine Richtlinien für die Durchführung solcher Experimente und Workflows in einem wissenschaftlichen Umfeld. Abschließend stelle ich die nächsten Entwicklungsschritte für den vorgestellten Workflow und mögliche Wege vor, diesen Prototyp als Serienprototypeiner breiteren wissenschaftlichen Gemeinschaft zur Verfügung zu stellen.The scientific knowledge of mankind is based on the verification of hypotheses by carrying out experiments. As the construction and conduct of an experiment becomes increasingly complex more and more scientists are involved in a single project. In order to make the generated data easily accessible to all scientists and, at best, to the entire scientific community, it is essential to comprehensively document the circumstances of the data generation, as these contain essential information for later analysis and interpretation. In this thesis, I present two complex neuroscience projects and the strategies, tools, and concepts that were used to comprehensively track, process, organize, and prepare the collected data for joint analysis. First, I describe the older of the two experiments and explain in detail the generation of data and metadata and the pipeline used for aggregating metadata. A hierarchical approach based on the open source software odMLfor metadata organization was implemented to capture the complex meta information of this project. I evaluate the design concepts and tools used and derive a general catalogue of requirements for scientific collaboration in complex projects. Also, I identify issues and requirements that were not yet addressed by this pipeline. There were, in particular, the difficulties in i) entering manual metadata and structuring the metadata collection, ii) combining metadata with the actual data, and iii) setting up the pipeline in a modular generic and transparent manner. Guided by this analysis, I describe concept and tool implementations to address these identified issues. I developed a complementary tool (odMLtables) to i) facilitate the capture of metadata in a structured way and to ii) convert these easily into the hierarchical, standardized metadata format odML. odMLtables provides an interface between the easy-to-read tabular metadata representation in the formats commonly used in lab-oratory environments (csv/xls) and the hierarchically organized odML format based on xml, which is designed for a comprehensive collection of complex metadata records in an easily machine-readable manner. Supplementing the coordinated capture of metadata, I contributed to and shaped the Neo toolbox for the standardized representation of electrophysiological data. This toolbox is a key component for electrophysiological data analysis as it integrates different proprietary and non-proprietary file formats and serves as a bridge between different file formats. I emphasize new features that simplify the process of data and metadata handling in the data acquisition workflow. I introduce the concept of workflow management into the field of scientific data pro-cessing, based on the common Python-based snake make package. For the second, more recent electrophysiological experiment, I designed and implemented the workflow for capturing and packaging metadata and data in a comprehensive form. Here I used the generic neuroscience information exchange format (Nix) for the user-friendly packaging of data sets including data and metadata in combined form. Finally, I evaluate the improved workflow against the requirements of collaborative scientific work in complex projects. I establish general guidelines for conducting such experiments and workflows in a scientific environment. In conclusion, I present the next development steps for the presented workflow and potential avenues for deploying this prototype as a production prototype to a wider scientific community.
OpenAccess: PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis/Book
Format
online, print
Sprache
English
Externe Identnummern
HBZ: HT020524239
Interne Identnummern
RWTH-2020-07304
Datensatz-ID: 793967
Beteiligte Länder
Germany