000850942 001__ 850942 000850942 005__ 20230328172716.0 000850942 0247_ $$2HBZ$$aHT021461899 000850942 0247_ $$2Laufende Nummer$$a41485 000850942 0247_ $$2datacite_doi$$a10.18154/RWTH-2022-07834 000850942 037__ $$aRWTH-2022-07834 000850942 041__ $$aEnglish 000850942 082__ $$a004 000850942 1001_ $$0P:(DE-588)1269547313$$aLi, Zhijian$$b0$$urwth 000850942 245__ $$aComputational method for single cell ATAC-seq imputation and dimensionality reduction$$cvorgelegt von Zhijian Li, M.Sc.$$honline 000850942 260__ $$aAachen$$bRWTH Aachen University$$c2022 000850942 300__ $$a1 Online-Ressource : Illustrationen, Diagramme 000850942 3367_ $$02$$2EndNote$$aThesis 000850942 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd 000850942 3367_ $$2BibTeX$$aPHDTHESIS 000850942 3367_ $$2DRIVER$$adoctoralThesis 000850942 3367_ $$2DataCite$$aOutput Types/Dissertation 000850942 3367_ $$2ORCID$$aDISSERTATION 000850942 500__ $$aEnglische und deutsche Zusammenfassung. - Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 000850942 502__ $$aDissertation, RWTH Aachen University, 2022$$bDissertation$$cRWTH Aachen University$$d2022$$gFak01$$o2022-08-10 000850942 5203_ $$aDie Zugänglichkeit von Chromatin oder der physikalische Zugang zu chromatinisierter offener DNA spielt eine wesentliche Rolle bei der Kontrolle der zeitlichen und räumlichen Expression von Genen in eukaryontischen Zellen. Der Assay für Transposase-zugängliches Chromatin, gefolgt von Hochdurchsatz- Sequenzierung (ATAC-seq) ist ein sensitives und unkompliziertes Protokoll zur genomweiten Analyseder Chromatinzugänglichkeit. Darüber hinaus ist das Einzelzell-ATAC-seq (scATAC-seq) in Kombination mit der Einzelzell-Sequenzierungstechnologie in der Lage, regulatorische Variationen von Hunderten bis Tausenden von Zellen mit Einzelzellauflösung abzubilden, was den Anwendungsbereich weiter ausbaut. Ein großer Nachteil von scATAC-seq-Daten ist jedoch ihre inhärente Datensparsität. Mit anderen Worten, viele offene Chromatinregionen werden aufgrund des geringen Inputs oder des Verlustes von DNA- Material im scATAC-seq-Experiment nicht erkannt, was eine große Anzahl fehlender Werte in der abgeleiteten Zählmatrix hinterlässt. Ein solches Phänomen ist als "Drop-outs" bekannt und wird auch in anderen Einzelzell-Sequenzierungsdaten beobachtet, wie z. B. scRNA-seq. Obwohl viele Computermethoden vorgeschlagen wurden, um dieses Problem für scRNA-seq basierend auf Datenimputation oder Entrauschung anzugehen, gibt es einen erheblichen Mangel an Bemühun- gen, die Verwendbarkeit dieser Methoden für scATAC-seq-Daten zu bewerten. Darüber hinaus ist die Entwicklung spezifischer Algorithmen zur Imputation oder Entrauschung von scATAC-seq noch wenig erforscht. Ein weiterer kritischer Punkt beim Umgang mit der scATAC-seq-Matrix ist die hohe Datendimensionalität. Da ein Gen oft durch mehrere cis-regulatorische Elemente (CREs) reguliert wird, ist die Anzahl der Merkmale in scATAC-seq (d.h. Peaks) normalerweise eine Größenordnung höher als die Anzahl der Merkmale in scRNA-seq (d.h. Gene). Diese hohe Dimensionalität stellt eine Herausforderung für die Analyse von scATAC-seq dar, wie beispielsweise Clustering und Visualisierung. Daher ist es eine übliche Option, zuerst eine Dimensionsreduktion durchzuführen, bevor die Daten interpretiert werden. Die Standard-Rechenmethoden für scRNA-seq-Daten sind jedoch aufgrund der geringen Zählung der scATAC-seq-Daten für diese Aufgabe potenziell ungeeignet, d.h. es werden maximal 2 Verdauungsereignisse für eine einzelne Zelle in einer bestimmten offenen Chromatinregion erwartet. In dieser Dissertation schlage ich scOpen vor, einen Berechnungsansatz zur gleichzeitigen Quan- tifizierung des offenen Chromatinstatus einzelner Zellen und zur Reduzierung der Dimensionalität, um die oben genannten Probleme für die scATAC-seq-Datenanalyse zu adressieren. Formaler aus gedrückt führt scOpen die Imputation und Rauschunterdrückung einer scATAC-seq-Matrix über eine regularisierte nicht-negative Matrixfaktorisierung (NMF) basierend auf einer Term-Frequenzinversen Dokumentenfrequenz (TF-IDF)-Transformation durch. Ich zeige, dass scOpen mehrere entscheidende nachgelagerte Analyseschritte von scATAC-seq-Daten verbessern kann, wie Clustering, Visual- isierung, cis-regulatorische DNA-Interaktionen und Abgrenzung regulatorischer Merkmale. Darüber hinaus demonstriere ich seine Leistungsfähigkeit, die Zugänglichkeitsdynamik von Chromatin auf groß angelegten scATAC-seq-Daten aus intaktem Nierengewebe der Maus zu analysieren. Schließlich führen wir zusätzliche Analysen durch, um die regulatorischen Programme zu untersuchen, die die Entwicklung von Nierenfibrose vorantreiben. Unsere Analysen werfen ein neues Licht auf die Mecha- nismen der Differenzierung von Myofibroblasten, die Nierenfibrose und chronische Nierenerkrankung (CKD) antreiben. Insgesamt zeigen diese Ergebnisse, dass scOpen ein nützlicher rechnerischer Ansatz für biologischen Studien ist, die Einzelzell-Open-Chromatin-Datenverarbeitung beinhalten.$$lger 000850942 520__ $$aChromatin accessibility, or the physical access to chromatinized DNA, plays an essential role in controlling the temporal and spatial expression of genes in eukaryotic cells. Assay for transposase- accessible chromatin followed by high throughput sequencing (ATAC-seq) is a sensitive and straight- forward protocol for profiling chromatin accessibility in a genome-wide manner. Moreover, combined with single-cell sequencing technology, the single-cell ATAC-seq (scATAC-seq) is able to map reg- ulatory variation from hundreds to thousands of cells at single-cell resolution, further expanding its applications. However, a major drawback of scATAC-seq data is its inherent sparsity. In other words, many open chromatin regions are not detected due to low input or loss of DNA material in the scATAC-seq experiment, leaving a large number of missing values in the derived count matrix. Such a phenomenon is known as “drop-outs” and is also observed in other single-cell sequencing data, such as scRNA- seq. Although many computational methods have been proposed to address this issue for scRNA-seq based on data imputation or denoising, there is a substantial lack of efforts to assess the usability of these methods on scATAC-seq data. Moreover, the development of specific algorithms for imputing or denoising scATAC-seq is still poorly explored yet.Another critical issue when dealing with the scATAC-seq matrix is the high dimensionality. Be- cause a gene is often regulated by multiple cis-regulatory elements (CREs), the number of features in scATAC-seq (i.e., peaks) is usually one order magnitude higher compared with the number of features in scRNA-seq (i.e., genes). This high dimensionality poses a challenge for the analysis of scATAC-seq, such as clustering and visualization. Therefore, it is a common option to first perform dimensionality reduction prior to interpreting the data. However, the standard computational meth- ods for scRNA-seq data are potentially unsuitable for this task due to the low-count information of scATAC-seq data, i.e., a maximum of 2 digestion events is expected for an individual cell in a specific open chromatin region.In this thesis, we propose scOpen, a computation approach for simultaneous quantification of single-cell open chromatin status and reduction of the dimensionality, to address the aforementioned issues for scATAC-seq data analysis. More formally, scOpen performs imputation and denoising of a scATAC-seq matrix via regularized non-negative matrix factorization (NMF) based on term frequency-inverse document frequency (TF-IDF) transformation. We show that scOpen is able to improve several crucial downstream analysis steps of scATAC-seq data, such as clustering, visualization, cis-regulatory DNA interactions and delineation of regulatory features. Moreover, we also demonstrate its power to dissect chromatin accessibility dynamics on large-scale scATAC-seq data from intact mouse kidney tissue. Finally, we perform additional analyses to investigate the regulatory programs that drive the development of kidney fibrosis. Our analyses shed novel light on mechanisms of myofibroblasts differentiation driving kidney fibrosis and chronic kidney disease (CKD). Altogether, these results demonstrate that scOpen is a useful computational approach in biological studies involving single-cell open chromatin data processing.$$leng 000850942 588__ $$aDataset connected to Lobid/HBZ 000850942 591__ $$aGermany 000850942 7001_ $$0P:(DE-82)IDM04476$$aBerlage, Thomas$$b1$$eThesis advisor 000850942 7001_ $$0P:(DE-82)IDM00542$$aFilho, Ivan Gesteira Costa$$b2$$eThesis advisor 000850942 7001_ $$0P:(DE-82)IDM03949$$aSchaub, Michael Thomas$$b3$$eThesis advisor 000850942 8564_ $$uhttps://publications.rwth-aachen.de/record/850942/files/850942.pdf$$yOpenAccess 000850942 8564_ $$uhttps://publications.rwth-aachen.de/record/850942/files/850942_source.zip$$yRestricted 000850942 909CO $$ooai:publications.rwth-aachen.de:850942$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery 000850942 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-588)1269547313$$aRWTH Aachen$$b0$$kRWTH 000850942 9141_ $$y2022 000850942 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess 000850942 9201_ $$0I:(DE-82)122620_20140620$$k122620$$lLehr- und Forschungsgebiet Life Science Informatik (Fraunhofer FIT)$$x0 000850942 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1 000850942 961__ $$c2022-09-12T11:35:03.032817$$x2022-08-10T23:18:54.340928$$z2022-09-12T11:35:03.032817 000850942 9801_ $$aFullTexts 000850942 980__ $$aI:(DE-82)120000_20140620 000850942 980__ $$aI:(DE-82)122620_20140620 000850942 980__ $$aUNRESTRICTED 000850942 980__ $$aVDB 000850942 980__ $$aphd