2022
Dissertation, RWTH Aachen University, 2022
Englische und deutsche Zusammenfassung. - Veröffentlicht auf dem Publikationsserver der RWTH Aachen University
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
; ;
Tag der mündlichen Prüfung/Habilitation
2022-08-10
Online
DOI: 10.18154/RWTH-2022-07834
URL: https://publications.rwth-aachen.de/record/850942/files/850942.pdf
Einrichtungen
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Die Zugänglichkeit von Chromatin oder der physikalische Zugang zu chromatinisierter offener DNA spielt eine wesentliche Rolle bei der Kontrolle der zeitlichen und räumlichen Expression von Genen in eukaryontischen Zellen. Der Assay für Transposase-zugängliches Chromatin, gefolgt von Hochdurchsatz- Sequenzierung (ATAC-seq) ist ein sensitives und unkompliziertes Protokoll zur genomweiten Analyseder Chromatinzugänglichkeit. Darüber hinaus ist das Einzelzell-ATAC-seq (scATAC-seq) in Kombination mit der Einzelzell-Sequenzierungstechnologie in der Lage, regulatorische Variationen von Hunderten bis Tausenden von Zellen mit Einzelzellauflösung abzubilden, was den Anwendungsbereich weiter ausbaut. Ein großer Nachteil von scATAC-seq-Daten ist jedoch ihre inhärente Datensparsität. Mit anderen Worten, viele offene Chromatinregionen werden aufgrund des geringen Inputs oder des Verlustes von DNA- Material im scATAC-seq-Experiment nicht erkannt, was eine große Anzahl fehlender Werte in der abgeleiteten Zählmatrix hinterlässt. Ein solches Phänomen ist als "Drop-outs" bekannt und wird auch in anderen Einzelzell-Sequenzierungsdaten beobachtet, wie z. B. scRNA-seq. Obwohl viele Computermethoden vorgeschlagen wurden, um dieses Problem für scRNA-seq basierend auf Datenimputation oder Entrauschung anzugehen, gibt es einen erheblichen Mangel an Bemühun- gen, die Verwendbarkeit dieser Methoden für scATAC-seq-Daten zu bewerten. Darüber hinaus ist die Entwicklung spezifischer Algorithmen zur Imputation oder Entrauschung von scATAC-seq noch wenig erforscht. Ein weiterer kritischer Punkt beim Umgang mit der scATAC-seq-Matrix ist die hohe Datendimensionalität. Da ein Gen oft durch mehrere cis-regulatorische Elemente (CREs) reguliert wird, ist die Anzahl der Merkmale in scATAC-seq (d.h. Peaks) normalerweise eine Größenordnung höher als die Anzahl der Merkmale in scRNA-seq (d.h. Gene). Diese hohe Dimensionalität stellt eine Herausforderung für die Analyse von scATAC-seq dar, wie beispielsweise Clustering und Visualisierung. Daher ist es eine übliche Option, zuerst eine Dimensionsreduktion durchzuführen, bevor die Daten interpretiert werden. Die Standard-Rechenmethoden für scRNA-seq-Daten sind jedoch aufgrund der geringen Zählung der scATAC-seq-Daten für diese Aufgabe potenziell ungeeignet, d.h. es werden maximal 2 Verdauungsereignisse für eine einzelne Zelle in einer bestimmten offenen Chromatinregion erwartet. In dieser Dissertation schlage ich scOpen vor, einen Berechnungsansatz zur gleichzeitigen Quan- tifizierung des offenen Chromatinstatus einzelner Zellen und zur Reduzierung der Dimensionalität, um die oben genannten Probleme für die scATAC-seq-Datenanalyse zu adressieren. Formaler aus gedrückt führt scOpen die Imputation und Rauschunterdrückung einer scATAC-seq-Matrix über eine regularisierte nicht-negative Matrixfaktorisierung (NMF) basierend auf einer Term-Frequenzinversen Dokumentenfrequenz (TF-IDF)-Transformation durch. Ich zeige, dass scOpen mehrere entscheidende nachgelagerte Analyseschritte von scATAC-seq-Daten verbessern kann, wie Clustering, Visual- isierung, cis-regulatorische DNA-Interaktionen und Abgrenzung regulatorischer Merkmale. Darüber hinaus demonstriere ich seine Leistungsfähigkeit, die Zugänglichkeitsdynamik von Chromatin auf groß angelegten scATAC-seq-Daten aus intaktem Nierengewebe der Maus zu analysieren. Schließlich führen wir zusätzliche Analysen durch, um die regulatorischen Programme zu untersuchen, die die Entwicklung von Nierenfibrose vorantreiben. Unsere Analysen werfen ein neues Licht auf die Mecha- nismen der Differenzierung von Myofibroblasten, die Nierenfibrose und chronische Nierenerkrankung (CKD) antreiben. Insgesamt zeigen diese Ergebnisse, dass scOpen ein nützlicher rechnerischer Ansatz für biologischen Studien ist, die Einzelzell-Open-Chromatin-Datenverarbeitung beinhalten.Chromatin accessibility, or the physical access to chromatinized DNA, plays an essential role in controlling the temporal and spatial expression of genes in eukaryotic cells. Assay for transposase- accessible chromatin followed by high throughput sequencing (ATAC-seq) is a sensitive and straight- forward protocol for profiling chromatin accessibility in a genome-wide manner. Moreover, combined with single-cell sequencing technology, the single-cell ATAC-seq (scATAC-seq) is able to map reg- ulatory variation from hundreds to thousands of cells at single-cell resolution, further expanding its applications. However, a major drawback of scATAC-seq data is its inherent sparsity. In other words, many open chromatin regions are not detected due to low input or loss of DNA material in the scATAC-seq experiment, leaving a large number of missing values in the derived count matrix. Such a phenomenon is known as “drop-outs” and is also observed in other single-cell sequencing data, such as scRNA- seq. Although many computational methods have been proposed to address this issue for scRNA-seq based on data imputation or denoising, there is a substantial lack of efforts to assess the usability of these methods on scATAC-seq data. Moreover, the development of specific algorithms for imputing or denoising scATAC-seq is still poorly explored yet.Another critical issue when dealing with the scATAC-seq matrix is the high dimensionality. Be- cause a gene is often regulated by multiple cis-regulatory elements (CREs), the number of features in scATAC-seq (i.e., peaks) is usually one order magnitude higher compared with the number of features in scRNA-seq (i.e., genes). This high dimensionality poses a challenge for the analysis of scATAC-seq, such as clustering and visualization. Therefore, it is a common option to first perform dimensionality reduction prior to interpreting the data. However, the standard computational meth- ods for scRNA-seq data are potentially unsuitable for this task due to the low-count information of scATAC-seq data, i.e., a maximum of 2 digestion events is expected for an individual cell in a specific open chromatin region.In this thesis, we propose scOpen, a computation approach for simultaneous quantification of single-cell open chromatin status and reduction of the dimensionality, to address the aforementioned issues for scATAC-seq data analysis. More formally, scOpen performs imputation and denoising of a scATAC-seq matrix via regularized non-negative matrix factorization (NMF) based on term frequency-inverse document frequency (TF-IDF) transformation. We show that scOpen is able to improve several crucial downstream analysis steps of scATAC-seq data, such as clustering, visualization, cis-regulatory DNA interactions and delineation of regulatory features. Moreover, we also demonstrate its power to dissect chromatin accessibility dynamics on large-scale scATAC-seq data from intact mouse kidney tissue. Finally, we perform additional analyses to investigate the regulatory programs that drive the development of kidney fibrosis. Our analyses shed novel light on mechanisms of myofibroblasts differentiation driving kidney fibrosis and chronic kidney disease (CKD). Altogether, these results demonstrate that scOpen is a useful computational approach in biological studies involving single-cell open chromatin data processing.
OpenAccess: PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT021461899
Interne Identnummern
RWTH-2022-07834
Datensatz-ID: 850942
Beteiligte Länder
Germany