2016 & 2017
Dissertation, RWTH Aachen University, 2016
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2017
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
; ;
Tag der mündlichen Prüfung/Habilitation
2016-12-15
Online
URN: urn:nbn:de:hbz:82-rwth-2017-000039
DOI: 10.18154/RWTH-2017-00003
URL: https://publications.rwth-aachen.de/record/681125/files/681125.pdf
URL: https://publications.rwth-aachen.de/record/681125/files/681125.pdf?subformat=pdfa
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
DNase-seq (frei) ; ChIP-seq (frei) ; hidden Markov models (frei) ; big data (frei) ; computational footprinting (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Die Transkriptionsregulation beschreibt die zeitliche und räumliche Expreßion der Gene. Mit Hilfe der Identifikation von transregulatorischen Elementen, wie beispielsweise Transkriptionsfaktorbindestellen, können regulatorische Netzwerke beßer verstanden werden. Regulatorische Netzwerke beschreiben zelluläre Prozeße wie zum Beispiel die Zellentwicklung und das Entstehen von Krankheiten. Beim herkömmlichen rechnergestützten Ansatz zur Identifikation von Transkriptionsfaktorbindestellen wird auf Sequenzierungsmethoden zurückgegriffen, um die DNA des Genoms nach Sequenzen mit unterschiedlichen Bindungsneigungen zu Transkriptionsfaktoren (TF) zu durchsuchen. Mit diesem Ansatz ist es jedoch nicht möglich aktive Bindestellen vorherzusagen. Eine aktive Bindestelle ist beispielsweise dann gegeben, wenn an der DNA-Sequenz ein TF bindet. Dieser auf Sequenzierungstechniken beruhende Ansatz nimmt keinen Bezug darauf, daß der Zustand des Chromatins dynamisch zwischen offen (so daß ein TF binden kann) und geschloßen (so daß kein TF binden kann) wechseln kann. Mit Sequenzierungsmethoden der nächsten Generation (next generation sequencing) kann offenes Chromatin genomweit identifiziert werden. Beispiele hierfür sind die Kombination von Chromatin ImmunoPrecipitation (ChIP-seq) oder DNase I Verarbeitung (DNase-seq) mit der Sequenzierungstechnik. Aktuelle Studien haben belegt, daß die Verwendung von ChIP-seq und DNase-seq zur Bestimmung von offenem Chromatin einen positiven Einfluß auf die Identifikation von aktiven TFBS haben. Dabei wird die Suche nach charakteristischen DNA-Sequenzen auf die Bereiche eingeschränkt, an denen das Chromatin offen ist und die TF somit in einer zellspezifischen Art binden können. Wir führen zum ersten Mal in dieser Arbeit ein rechnergestütztes Rahmenwerk ein, das DNase-seq und ChIP-seq Daten kombiniert, um aktive TFBS vorherzusagen. Wir haben beobachtet, daß es bei aktiven TFBS ein ausgeprägtes Muster in DNase-seq und ChIP-seq Daten gibt. Unser Rahmenwerk führt zunächst eine Normalisierung des Signals aus und sucht dann in den Daten nach diesen Mustern, den sogenannten Fußabdrücken. Dabei wird das Genom mit einem Hidden Markov Modell segmentiert. Unsere Methode mit dem Namen HINT (HMM-basierte Identifikation von TF Fußabdrücken) ist als „rechnergestützte Fußabdruck Methode“ klaßifiziert. In unserer Evaluierungßtudie haben wir die vorhergesagten Fußabdrücke von HINT mit bereits validierten Fußabdrücken verglichen. Dabei haben wir Statistiken erzeugt, um unsere Methode mit anderen zu vergleichen. Unsere Experimente sind mit insgesamt 14 verglichenen Methoden und 233 TF die umfangreichsten.Zudem haben wir HINT erfolgreich bei zwei biologischen Studien angewandt, um regulatorische Elemente, die bei bestimmten biologischen Bedingungen vorkommen, zu identifizieren. HINT ist ein nützliches rechnergestütztes Rahmenwerk für biologische Studien in der regulatorischen Genomik.Transcriptional regulation orchestrates the proper temporal and spatial expression of genes. The identification of transcriptional regulatory elements, such as transcription factor binding sites (TFBSs), is crucial to understand regulatory networks driving cellular processes such as cell development and the onset of diseases.The standard computational approach is to use sequence-based methods, which search over the genome’s DNA for sequences representing the DNA binding affinity sequence of transcription factors (TFs). However, this approach is not able to predict active binding sites, i.e. binding sites that are being currently bound by TFs at a particular cell state. This happens as the sequence-based methods do not account for the fact that the chromatin dynamically changes its state between an open form (and accessible to TF binding) and closed (not accessible by TFs).Advances in next-generation sequencing techniques have enabled the measurement of such open chromatin regions in a genome-wide manner with assays such as the chromatin immunoprecipitation followed by massive sequencing (ChIP-seq) and DNase I digestion followed by massive sequencing (DNase-seq). Current research has proven that such open chromatin genome-wide assays improve sequence-based detection of active TFBSs. The rationale is to restrict the sequence-based search of binding sites to genomic regions where these assays indicate the chromatin is open and accessible for TF binding, in a cell-specific manner.We propose the first computational framework which integrates both DNase-seq and ChIP-seq data to perform predictions of active TFBSs. We have previously observed that there is a distinctive pattern at active TFBSs regarding both DNase-seq and ChIP-seq data. Our framework treats these data using signal normalization strategies and searches for these distinctive patterns, the so-called “footprints”, by segmenting the genome using hidden Markov models (HMMs). Given that, our framework - termed HINT (HMM-based identification of TF footprints) - is categorized as a “computational footprinting method”.We evaluate our computational footprinting method by comparing the footprint predictions to experimentally verified active TFBSs. Our evaluation approach creates statistics which enables the comparison between our method and competing computational footprinting methods. Our comparative experiment is the most complete so far, with a total of 14 computational footprinting methods and 233 TFs evaluated.Furthermore, we successfully applied our computational footprinting method HINT in two different biological studies to identify regulatory elements involved in specific biological conditions. HINT has proven to be a useful computational framework in biological studies involving regulatory genomics.
OpenAccess: PDF
PDF (PDFA)
(zusätzliche Dateien)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT019221589
Interne Identnummern
RWTH-2017-00003
Datensatz-ID: 681125
Beteiligte Länder
Germany