Zur Seitenansicht
 

Titelaufnahme

Titel
Machine learning techniques for the analysis of high throughput DNA and RNA sequencing datav / eingereicht von: Günter Klambauer
VerfasserKlambauer, Günter
Begutachter / BegutachterinHochreiter, Sepp ; Bender, Andreas
Betreuer / BetreuerinHochreiter, Sepp
Erschienen2014
UmfangXXII, 184 S. : Ill. graph. Darst.
HochschulschriftLinz, Univ., Diss., 2014
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)Hochdurchsatz-Sequenzierung / DNA / RNA / maschinelles Lernen / EM Algorithmus / Kopienzahlvaration / differentielle Expression / statistisches Model
Schlagwörter (EN)high throughput sequencing / DNA / RNA / machine learning / EM algorithm / copy number variation / differential expression / statistical model
Schlagwörter (GND)High throughput screening / Maschinelles Lernen / DNS / RNS / EM-Algorithmus
URNurn:nbn:at:at-ubl:1-186 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Machine learning techniques for the analysis of high throughput DNA and RNA sequencing datav [7.36 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

The identification of copy number variations in high-throughput DNA sequencing data and the detection of differential expression in RNA sequencing data are central topics in genetics and molecular biology. In this fields, new analysis methods should either enable researchers to investigate the data in novel way that provides biologically relevant information, or have higher performance than previous methods, e.g. by yielding a lower false discovery rate and a lower false negative rate. This thesis describes two new methods, called "cn.MOPS" and "DEXUS", for copy number detection in DNA sequencing data and identification of differentially expressed genes in RNA sequencing data, respectively.

cn.MOPS outperformed all other methods with respect to false discovery rate and recall and is currently developing into a standard analysis tool for both genome and exome sequencing data. DEXUS enabled researchers for the first time to analyze RNA sequencing data even if the sample conditions are unknown, which is the case for many study designs. For study designs in which sample conditions are known, DEXUS outperformed in almost all settings all other methods with respect to the area under the ROC curve.

Both methods are based on a probabilistic latent variable model. Model selection is done by maximizing the posterior with an expectation maximization (EM) algorithm. The EM algorithm makes model selection computationally efficient, such that the methods are fast enough to analyze huge amounts of data, which is an important criterion for bioinformatics methods. cn.MOPS and DEXUS are tested on a large number of benchmarking data sets and on many data sets with highly-relevant biological research questions, and there both algorithms provide excellent results.

Zusammenfassung (Englisch)

Die Identifikation von Kopienzahlvariationen in Hochdurchsatz-DNA-Sequenzierungsdaten und die Detektion von differenzieller Expression in RNA-Sequenzierungsdaten sind zentrale Themen der Genetik und Molekularbiologie. In diesen Gebieten sollten neue Analysemethoden entweder den ForscherInnen die Möglichkeit geben die Daten auf neue eine Weise zu untersuchen, die auch relevante biologische Informationen liefert, oder sollten eine bessere Performance als alle anderen Methoden haben, zum Beispiel indem sie weniger falsche Detektionen oder weniger Falsch-Negative liefern.

In dieser Arbeit werden zwei neue Methoden, genannt "cn.MOPS" und "DEXUS", beschrieben, die erste identifiziert Kopienzahlvariationen in DNA Sequenzierungsdaten und die zweite detektiert differenziell exprimierte Gene in RNA Sequenzierungsdaten.

cn.MOPS übertraf alle anderen Methoden bezüglich des positive Vorhersagewerts und der Sensitivität und entwickelt sich momentan zu einem Standard-Analyseverfahren für Genom und Exom Sequenzierungsdaten.

DEXUS ermöglichte ForscherInnen zum ersten Mal RNA Sequenzierungsdaten auch ohne bekannte Probandengruppen zu analysieren, was für viele Studientypen der Fall ist. Außerdem übertraf DEXUS in fast allen Fällen alle anderen Methoden hinsichtlich der Fläche unter der ROC Kurve für Studientypen bei denen die Probandengruppen bekannt sind.

Beide Methoden basieren auf einem probabilistischem Modell mit latenten Variablen. Das Modell wird durch deinen "expectation maximization" (EM) Algorithmus selektiert, der die Maximum-A-Posteriori Wahrscheinlichkeit maximiert. Der EM Algorithmus macht die Modellselektion rechnerisch effizient, so dass die Methoden große Mengen an Daten verarbeiten können, was in der Bioinformatik ein wichtiges Kriterium ist. cn.MOPS und DEXUS werden auf einer großen Zahl von Benchmark-Datensätzen und vielen Datensätzen mit hochrelevanten biologischen Fragestellungen getestet und darauf liefern sie hervorragende Ergebnisse.