Data integration and metadata management in data lakes

Hai, Rihan; Miller, Renée; Jarke, Matthias; Quix, Christoph Josef

doi:39466

Items
Marc 21

001			795304
005			20251015161637.0
024	7	_	\|2 HBZ \|a HT020553290
024	7	_	\|2 Laufende Nummer \|a 39466
024	7	_	\|2 datacite_doi \|a 10.18154/RWTH-2020-08233
037	_	_	\|a RWTH-2020-08233
041	_	_	\|a English
082	_	_	\|a 004
100	1	_	\|0 P:(DE-588)1139460803 \|a Hai, Rihan \|b 0 \|u rwth
245	_	_	\|a Data integration and metadata management in data lakes \|c vorgelegt von Master of Engineering Rihan Hai \|h online
246	_	3	\|a Datenintegration und Metadatenmanagement in Data Lakes \|y German
260	_	_	\|a Aachen \|c 2020
300	_	_	\|a 1 Online-Ressource (viii, xii, 210 Seiten) : Illustrationen, Diagramme
336	7	_	\|0 2 \|2 EndNote \|a Thesis
336	7	_	\|0 PUB:(DE-HGF)11 \|2 PUB:(DE-HGF) \|a Dissertation / PhD Thesis \|b phd \|m phd
336	7	_	\|2 BibTeX \|a PHDTHESIS
336	7	_	\|2 DRIVER \|a doctoralThesis
336	7	_	\|2 DataCite \|a Output Types/Dissertation
336	7	_	\|2 ORCID \|a DISSERTATION
500	_	_	\|a Veröffentlicht auf dem Publikationsserver der RWTH Aachen University
502	_	_	\|a Dissertation, RWTH Aachen University, 2020 \|b Dissertation \|c RWTH Aachen University \|d 2020 \|g Fak01 \|o 2020-07-13
520	3	_	\|a Obwohl Big Data seit einigen Jahren diskutiert wird, gibt es immer noch viele Herausforderungen für die Forschung, wie z. B. die Vielfalt der Daten. Aufgrund der verschiedenartigen Datenquellen bilden sich Informationssilos als eine Sammlung nicht integrierter Daten-Management-Systeme mit heterogenen Schemata, Abfragesprachen und Datenmodellen. Es ist sehr schwierig, das große Datenvolumen in diesen Informationssilos mit den traditionellen „Schema-on-Write“-Ansätzen wie Data Warehouses effizient zu integrieren, darauf zuzugreifen und abzufragen. Als Lösung für dieses Problem wurden Data-Lake-Systeme vorgeschlagen, bei denen es sich um Repositorien handelt, in denen Rohdaten in ihren ursprünglichen Formaten gespeichert und eine gemeinsame Zugriffsschnittstelle bereitgestellt werden. Die Herausforderungen bei der Kombination mehrerer heterogener Datenquellen in Data Lakes liegen im Forschungsbereich der Datenintegration. Die Hauptaufgaben, um Daten in Data Lakes zu integrieren, sind das Verständnis der Beziehungen (z.B. Schemaabbildungen) zwischen Datenquellen in Data Lakes und die Beantwortung von Benutzeranfragen über heterogene Datenquellen. Um zu verhindern, dass ein Data Lake zu einem unbrauchbaren „Datensumpf“ wird, ist das Metadatenmanagement von entscheidender Bedeutung, insbesondere für den Zugriff auf und die Abfrage von Daten. Die Hauptherausforderungen für das Metadatenmanagement in Data Lakes bestehen darin, die Metadaten, die die Datenquellen beschreiben, zu erfassen, zu modellieren, zu speichern und anzureichern. Daher stellen wir in dieser Arbeit eine umfassende und flexible Data Lake-Architektur und ein Prototypsystem Constance vor, das Datenerfassung, -integration, -abfrage und ein ausgereiftes Metadatenmanagement über strukturierte, semi-strukturierte (z. B. JSON, XML) und graphorientierte Daten ermöglicht. Zunächst schlagen wir eine native Darstellung der Schemaabbildungen vor, um die hierarchischen Strukturen verschachtelter Schemaabbildungen zu erfassen und um das Erstellen von komplexen Abbildungen zu optimieren, indem Zwischenergebnisse mit vielen Schemaabbildungen vermieden werden. Zweitens ermöglicht unser Data-Lake-System die Koexistenz mehrerer Datenspeichersysteme mit unterschiedlichen Datenmodellen, um heterogene Daten in Rohformaten zu speichern. Um eine einheitliche Abfrageoberfläche bereitzustellen, entwickeln wir ein neuartiges System zum Umschreiben von Abfragen, die logische Methoden für die Datenintegration basierend auf deklarativen Schemaabbildungen mit dem Big-Data-Verarbeitungssystem Apache Spark kombiniert. Unser System führt die umgeschriebenen Abfragen effizient aus und führt die Abfrageergebnisse in einer integrierten Datenmenge zusammen. Drittens untersuchen wir auch die generierten Schemaabbildungen als formale Abhängigkeiten. In Bezug auf die Komplexität der Berechnung bestimmter logischer Schlussfolgerungen sind die Schemaabbildungsformalismen in der Logik zweiter Ordnung im Vergleich zu Schemaabbildungssprachen erster Ordnung weniger wünschenswert. Unser algorithmischer Ansatz transformiert Schemaabbildungen, die in Logik zweiter Ordnung ausgedrückt werden, in ihre logisch äquivalenten Formen erster Ordnung. Schließlich definieren wir ein generisches Metadatenmodell, um die Struktur heterogener Quellen darzustellen, und führen Cluster-basierte Algorithmen ein, um „weiche“ funktionale Abhängigkeiten zu entdecken, die die Metadaten anreichern und die Datenqualität im Data Lake verbessern. \|l ger
520	_	_	\|a Although big data is being discussed for some years, it still has many research challenges, such as the variety of data. The diversity of data sources often exists in information silos, which are a collection of non-integrated data management systems with heterogeneous schemas, query languages, and data models. It poses huge difficulty to efficiently integrate, access, and query the large volume of diverse data in these information silos with the traditional ‘schema-on-write’ approaches such as data warehouses. Data lake systems have been proposed as a solution to this problem, which are repositories storing raw data in its original formats and providing a common access interface. The challenges of combining multiple heterogeneous data sources in data lakes are rooted in the research area of data integration. To integrate the data in data lakes, the primary tasks include understanding the relationships (e.g., schema mappings) among data sources in data lakes, and answering user queries over heterogeneous sources. Moreover, to prevent a data lake from turning into an unusable data swamp, metadata management is crucial, especially for accessing and querying the data. The main challenges for metadata management in data lakes are to acquire, model, store, and enrich the metadata that describes the data sources. Therefore, in this thesis, we present a comprehensive and flexible data lake architecture and a prototype system Constance, which provides data ingestion, integration, querying and sophisticated metadata management over structured, semi-structured (e.g., JSON, XML), and graph data. First, we propose a native mapping representation to capture the hierarchical structures of nested mappings, and efficient mapping generation algorithms, which avoid producing a considerable number of intermediate basic mappings. Second, to store heterogeneous data in raw formats, our data lake system enables the coexistence of several data storage systems with different data models. To provide a unified querying interface, we design a novel query rewriting engine that combines logical methods for data integration based on declarative mappings with the big data processing system Apache Spark. Our query rewriting engine efficiently executes the rewritten queries and reconciles the query results into an integrated dataset. Third, we also study the formalism of the generated schema mappings as dependencies. Regarding computation complexity and decidability of certain reasoning tasks, the mapping formalisms in second-order logic are less desirable compared to first-order mapping languages. Our algorithmic approach transforms schema mappings expressed in second-order logic to their logically equivalent first-order forms. Finally, we define a generic metadata model to represent the structure of heterogeneous sources and introduce clustering-based algorithms to discover relaxed functional dependencies, which enrich the metadata and improve data quality in the data lake. \|l eng
536	_	_	\|0 G:(GEPRIS)390621612 \|a EXC 2023: Internet of Production (IoP) (390621612) \|c 390621612 \|x 0
588	_	_	\|a Dataset connected to Lobid/HBZ
591	_	_	\|a Germany
653	_	7	\|a big data
653	_	7	\|a big data
653	_	7	\|a data lake
653	_	7	\|a data integration
653	_	7	\|a metadata management
653	_	7	\|a schema mapping
653	_	7	\|a query rewriting
653	_	7	\|a query rewriting
653	_	7	\|a schema mapping
653	_	7	\|a metadata management
653	_	7	\|a data integration
653	_	7	\|a data lake
700	1	_	\|0 P:(DE-82)IDM00071 \|a Jarke, Matthias \|b 1 \|e Thesis advisor \|u rwth
700	1	_	\|a Miller, Renée \|b 2 \|e Thesis advisor
700	1	_	\|0 P:(DE-82)IDM01048 \|a Quix, Christoph Josef \|b 3 \|e Thesis advisor \|u rwth
856	4	_	\|u https://publications.rwth-aachen.de/record/795304/files/795304.pdf \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/795304/files/795304_source.zip \|y Restricted
856	4	_	\|u https://publications.rwth-aachen.de/record/795304/files/795304.gif?subformat=icon \|x icon \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-1440 \|x icon-1440 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-180 \|x icon-180 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-640 \|x icon-640 \|y OpenAccess
856	4	_	\|u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-700 \|x icon-700 \|y OpenAccess
909	C	O	\|o oai:publications.rwth-aachen.de:795304 \|p openaire \|p open_access \|p VDB \|p driver \|p dnbdelivery
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-588)1139460803 \|a RWTH Aachen \|b 0 \|k RWTH
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM00071 \|a RWTH Aachen \|b 1 \|k RWTH
910	1	_	\|0 I:(DE-588b)36225-6 \|6 P:(DE-82)IDM01048 \|a RWTH Aachen \|b 3 \|k RWTH
914	1	_	\|y 2020
915	_	_	\|0 StatID:(DE-HGF)0510 \|2 StatID \|a OpenAccess
920	1	_	\|0 I:(DE-82)121810_20140620 \|k 121810 \|l Lehrstuhl für Informatik 5 (Informationssysteme und Datenbanken) \|x 0
920	1	_	\|0 I:(DE-82)120000_20140620 \|k 120000 \|l Fachgruppe Informatik \|x 1
980	1	_	\|a FullTexts
980	_	_	\|a I:(DE-82)120000_20140620
980	_	_	\|a I:(DE-82)121810_20140620
980	_	_	\|a UNRESTRICTED
980	_	_	\|a VDB
980	_	_	\|a phd

Library	Collection	CLSMajor	CLSMinor	Language	Author

Marc 21

h1

h2

h3

h4

h5

h6