| 001 | 795304 | ||
| 005 | 20251015161637.0 | ||
| 024 | 7 | _ | |2 HBZ |a HT020553290 |
| 024 | 7 | _ | |2 Laufende Nummer |a 39466 |
| 024 | 7 | _ | |2 datacite_doi |a 10.18154/RWTH-2020-08233 |
| 037 | _ | _ | |a RWTH-2020-08233 |
| 041 | _ | _ | |a English |
| 082 | _ | _ | |a 004 |
| 100 | 1 | _ | |0 P:(DE-588)1139460803 |a Hai, Rihan |b 0 |u rwth |
| 245 | _ | _ | |a Data integration and metadata management in data lakes |c vorgelegt von Master of Engineering Rihan Hai |h online |
| 246 | _ | 3 | |a Datenintegration und Metadatenmanagement in Data Lakes |y German |
| 260 | _ | _ | |a Aachen |c 2020 |
| 300 | _ | _ | |a 1 Online-Ressource (viii, xii, 210 Seiten) : Illustrationen, Diagramme |
| 336 | 7 | _ | |0 2 |2 EndNote |a Thesis |
| 336 | 7 | _ | |0 PUB:(DE-HGF)11 |2 PUB:(DE-HGF) |a Dissertation / PhD Thesis |b phd |m phd |
| 336 | 7 | _ | |2 BibTeX |a PHDTHESIS |
| 336 | 7 | _ | |2 DRIVER |a doctoralThesis |
| 336 | 7 | _ | |2 DataCite |a Output Types/Dissertation |
| 336 | 7 | _ | |2 ORCID |a DISSERTATION |
| 500 | _ | _ | |a Veröffentlicht auf dem Publikationsserver der RWTH Aachen University |
| 502 | _ | _ | |a Dissertation, RWTH Aachen University, 2020 |b Dissertation |c RWTH Aachen University |d 2020 |g Fak01 |o 2020-07-13 |
| 520 | 3 | _ | |a Obwohl Big Data seit einigen Jahren diskutiert wird, gibt es immer noch viele Herausforderungen für die Forschung, wie z. B. die Vielfalt der Daten. Aufgrund der verschiedenartigen Datenquellen bilden sich Informationssilos als eine Sammlung nicht integrierter Daten-Management-Systeme mit heterogenen Schemata, Abfragesprachen und Datenmodellen. Es ist sehr schwierig, das große Datenvolumen in diesen Informationssilos mit den traditionellen „Schema-on-Write“-Ansätzen wie Data Warehouses effizient zu integrieren, darauf zuzugreifen und abzufragen. Als Lösung für dieses Problem wurden Data-Lake-Systeme vorgeschlagen, bei denen es sich um Repositorien handelt, in denen Rohdaten in ihren ursprünglichen Formaten gespeichert und eine gemeinsame Zugriffsschnittstelle bereitgestellt werden. Die Herausforderungen bei der Kombination mehrerer heterogener Datenquellen in Data Lakes liegen im Forschungsbereich der Datenintegration. Die Hauptaufgaben, um Daten in Data Lakes zu integrieren, sind das Verständnis der Beziehungen (z.B. Schemaabbildungen) zwischen Datenquellen in Data Lakes und die Beantwortung von Benutzeranfragen über heterogene Datenquellen. Um zu verhindern, dass ein Data Lake zu einem unbrauchbaren „Datensumpf“ wird, ist das Metadatenmanagement von entscheidender Bedeutung, insbesondere für den Zugriff auf und die Abfrage von Daten. Die Hauptherausforderungen für das Metadatenmanagement in Data Lakes bestehen darin, die Metadaten, die die Datenquellen beschreiben, zu erfassen, zu modellieren, zu speichern und anzureichern. Daher stellen wir in dieser Arbeit eine umfassende und flexible Data Lake-Architektur und ein Prototypsystem Constance vor, das Datenerfassung, -integration, -abfrage und ein ausgereiftes Metadatenmanagement über strukturierte, semi-strukturierte (z. B. JSON, XML) und graphorientierte Daten ermöglicht. Zunächst schlagen wir eine native Darstellung der Schemaabbildungen vor, um die hierarchischen Strukturen verschachtelter Schemaabbildungen zu erfassen und um das Erstellen von komplexen Abbildungen zu optimieren, indem Zwischenergebnisse mit vielen Schemaabbildungen vermieden werden. Zweitens ermöglicht unser Data-Lake-System die Koexistenz mehrerer Datenspeichersysteme mit unterschiedlichen Datenmodellen, um heterogene Daten in Rohformaten zu speichern. Um eine einheitliche Abfrageoberfläche bereitzustellen, entwickeln wir ein neuartiges System zum Umschreiben von Abfragen, die logische Methoden für die Datenintegration basierend auf deklarativen Schemaabbildungen mit dem Big-Data-Verarbeitungssystem Apache Spark kombiniert. Unser System führt die umgeschriebenen Abfragen effizient aus und führt die Abfrageergebnisse in einer integrierten Datenmenge zusammen. Drittens untersuchen wir auch die generierten Schemaabbildungen als formale Abhängigkeiten. In Bezug auf die Komplexität der Berechnung bestimmter logischer Schlussfolgerungen sind die Schemaabbildungsformalismen in der Logik zweiter Ordnung im Vergleich zu Schemaabbildungssprachen erster Ordnung weniger wünschenswert. Unser algorithmischer Ansatz transformiert Schemaabbildungen, die in Logik zweiter Ordnung ausgedrückt werden, in ihre logisch äquivalenten Formen erster Ordnung. Schließlich definieren wir ein generisches Metadatenmodell, um die Struktur heterogener Quellen darzustellen, und führen Cluster-basierte Algorithmen ein, um „weiche“ funktionale Abhängigkeiten zu entdecken, die die Metadaten anreichern und die Datenqualität im Data Lake verbessern. |l ger |
| 520 | _ | _ | |a Although big data is being discussed for some years, it still has many research challenges, such as the variety of data. The diversity of data sources often exists in information silos, which are a collection of non-integrated data management systems with heterogeneous schemas, query languages, and data models. It poses huge difficulty to efficiently integrate, access, and query the large volume of diverse data in these information silos with the traditional ‘schema-on-write’ approaches such as data warehouses. Data lake systems have been proposed as a solution to this problem, which are repositories storing raw data in its original formats and providing a common access interface. The challenges of combining multiple heterogeneous data sources in data lakes are rooted in the research area of data integration. To integrate the data in data lakes, the primary tasks include understanding the relationships (e.g., schema mappings) among data sources in data lakes, and answering user queries over heterogeneous sources. Moreover, to prevent a data lake from turning into an unusable data swamp, metadata management is crucial, especially for accessing and querying the data. The main challenges for metadata management in data lakes are to acquire, model, store, and enrich the metadata that describes the data sources. Therefore, in this thesis, we present a comprehensive and flexible data lake architecture and a prototype system Constance, which provides data ingestion, integration, querying and sophisticated metadata management over structured, semi-structured (e.g., JSON, XML), and graph data. First, we propose a native mapping representation to capture the hierarchical structures of nested mappings, and efficient mapping generation algorithms, which avoid producing a considerable number of intermediate basic mappings. Second, to store heterogeneous data in raw formats, our data lake system enables the coexistence of several data storage systems with different data models. To provide a unified querying interface, we design a novel query rewriting engine that combines logical methods for data integration based on declarative mappings with the big data processing system Apache Spark. Our query rewriting engine efficiently executes the rewritten queries and reconciles the query results into an integrated dataset. Third, we also study the formalism of the generated schema mappings as dependencies. Regarding computation complexity and decidability of certain reasoning tasks, the mapping formalisms in second-order logic are less desirable compared to first-order mapping languages. Our algorithmic approach transforms schema mappings expressed in second-order logic to their logically equivalent first-order forms. Finally, we define a generic metadata model to represent the structure of heterogeneous sources and introduce clustering-based algorithms to discover relaxed functional dependencies, which enrich the metadata and improve data quality in the data lake. |l eng |
| 536 | _ | _ | |0 G:(GEPRIS)390621612 |a EXC 2023: Internet of Production (IoP) (390621612) |c 390621612 |x 0 |
| 588 | _ | _ | |a Dataset connected to Lobid/HBZ |
| 591 | _ | _ | |a Germany |
| 653 | _ | 7 | |a big data |
| 653 | _ | 7 | |a big data |
| 653 | _ | 7 | |a data lake |
| 653 | _ | 7 | |a data integration |
| 653 | _ | 7 | |a metadata management |
| 653 | _ | 7 | |a schema mapping |
| 653 | _ | 7 | |a query rewriting |
| 653 | _ | 7 | |a query rewriting |
| 653 | _ | 7 | |a schema mapping |
| 653 | _ | 7 | |a metadata management |
| 653 | _ | 7 | |a data integration |
| 653 | _ | 7 | |a data lake |
| 700 | 1 | _ | |0 P:(DE-82)IDM00071 |a Jarke, Matthias |b 1 |e Thesis advisor |u rwth |
| 700 | 1 | _ | |a Miller, Renée |b 2 |e Thesis advisor |
| 700 | 1 | _ | |0 P:(DE-82)IDM01048 |a Quix, Christoph Josef |b 3 |e Thesis advisor |u rwth |
| 856 | 4 | _ | |u https://publications.rwth-aachen.de/record/795304/files/795304.pdf |y OpenAccess |
| 856 | 4 | _ | |u https://publications.rwth-aachen.de/record/795304/files/795304_source.zip |y Restricted |
| 856 | 4 | _ | |u https://publications.rwth-aachen.de/record/795304/files/795304.gif?subformat=icon |x icon |y OpenAccess |
| 856 | 4 | _ | |u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-1440 |x icon-1440 |y OpenAccess |
| 856 | 4 | _ | |u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-180 |x icon-180 |y OpenAccess |
| 856 | 4 | _ | |u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-640 |x icon-640 |y OpenAccess |
| 856 | 4 | _ | |u https://publications.rwth-aachen.de/record/795304/files/795304.jpg?subformat=icon-700 |x icon-700 |y OpenAccess |
| 909 | C | O | |o oai:publications.rwth-aachen.de:795304 |p openaire |p open_access |p VDB |p driver |p dnbdelivery |
| 910 | 1 | _ | |0 I:(DE-588b)36225-6 |6 P:(DE-588)1139460803 |a RWTH Aachen |b 0 |k RWTH |
| 910 | 1 | _ | |0 I:(DE-588b)36225-6 |6 P:(DE-82)IDM00071 |a RWTH Aachen |b 1 |k RWTH |
| 910 | 1 | _ | |0 I:(DE-588b)36225-6 |6 P:(DE-82)IDM01048 |a RWTH Aachen |b 3 |k RWTH |
| 914 | 1 | _ | |y 2020 |
| 915 | _ | _ | |0 StatID:(DE-HGF)0510 |2 StatID |a OpenAccess |
| 920 | 1 | _ | |0 I:(DE-82)121810_20140620 |k 121810 |l Lehrstuhl für Informatik 5 (Informationssysteme und Datenbanken) |x 0 |
| 920 | 1 | _ | |0 I:(DE-82)120000_20140620 |k 120000 |l Fachgruppe Informatik |x 1 |
| 980 | 1 | _ | |a FullTexts |
| 980 | _ | _ | |a I:(DE-82)120000_20140620 |
| 980 | _ | _ | |a I:(DE-82)121810_20140620 |
| 980 | _ | _ | |a UNRESTRICTED |
| 980 | _ | _ | |a VDB |
| 980 | _ | _ | |a phd |
| Library | Collection | CLSMajor | CLSMinor | Language | Author |
|---|