Zur Seitenansicht
 

Titelaufnahme

Titel
An LSTM-based approach for coiled-coil domain prediction / submitted by Bernhard Franz Schäfl
AutorInnenSchäfl, Bernhard Franz
Beurteiler / BeurteilerinBodenhofer, Ulrich
ErschienenLinz, 2018
Umfang54 Seiten : Illustrationen
HochschulschriftUniversität Linz, Masterarbeit, 2018
SpracheEnglisch
DokumenttypMasterarbeit
Schlagwörter (DE)Maschinelles Lernen / LSTM / Bioinformatik / Proteinanalyse / Coiled-Coil Domänen
Schlagwörter (EN)machine learning / LSTM / bioinformatics / protein analysis / coiled-coil domains
URNurn:nbn:at:at-ubl:1-23405 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
An LSTM-based approach for coiled-coil domain prediction [4.23 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die Analyse von Proteinen ist eine der Hauptaufgaben sowohl der strukturellen Biologie als auch der medizinischen Forschung. Besondereres Augenmerk wird hierbei auf die Untersuchung von noch unbekannten Bausteinen der Natur gelegt, um den bisherigen Wissensstand nicht zur zu festigen son- dern viel mehr zu erweitern. Da die Aufgaben und Funktionen von Proteinen maßgeblich durch deren dreidimensionale Struktur besonders -Helices und -Faltblätter gegeben ist, ist die Nachfrage nach entsprechenden analytischen Methoden zur Vermessung und Berechnung der räumlichen Ausdehnung besonders groß. Obwohl bereits Technologien wie Circulardichroismusspektroskopie und Kernspinreso- nanzspektroskopie zur Analyse von Molekülen mit Bezug auf deren dreidimensionale Struktur herangezo- gen werden, ist deren Einsatz meist mit hohen Kosten und zeitlichem Aufwand verbunden. Aus diesem Grund implementiert und elaboriert diese Arbeit einen Ansatz, welcher auf Basis von aktuellen Meth- oden des Deep Learnings mit der Long Short-Term Memory-Architektur, entwickelt von Hochreiter und Schmidhuber, als zentralem Baustein profitiert und ein computergestützes Hilfsmittel für rein physikalische Analysetechniken darstellt. Hierbei muss beachtet werden, dass das begleitend entwickelte System die Detektierung von speziellen und markanten Regionen der Proteinsequenzen, in denen sich zwei oder mehr -Helices umeinander wickeln, als Hauptziel inne hat nicht jedoch die Bestimmung der exakten dreidimensionale Struktur. Um dies bewerkstelligen zu können, wird das neuartige System CoCoNuT vorgestellt, welche aus zwei verborgenen Schichten genannt Locality und Globality aufgebaut ist. Erstere ist für die Extraktion von lokalen Informationen aus der zu analysierenden Sequenz sowohl durch Anwendung eines gleitenden Fensters als auch durch Zuhilfenahme von zuvor manuell berechneten Merkmalen zuständig. Die zweite verborgene Schicht bedient sich der zuvor extrahierten lokalen Informationen und setzt diese in einen globalen Kontext. Um es näher zu erläutern, Locality besteht aus zwei parallel arbeitenden Berech- nungseinheiten: (i) eine rekurrente, welche jedes Sequenzfenster Position für Position analysiert; (ii) eine lineare zur Transformation der zuvor manuell berechneten Merkmale (separat für jedes Sequenzfenster) um dem Netzwerk mehr Kontrolle über besagte Daten zu verleihen. Deren Ergebnisse werden zu einer kombinierten Darstellung der lokalen Informationen zusammengeführt, welche an die zweite verborgene Schicht übergeben wird. Hierbei wird der globale Kontext durch Zuhilfenahme einer weiteren rekurrenten Berechnungseinheit hergestellt. Die Ausgabeschicht projeziert schlussendlich positionsweise das Ergebnis der vorherigen Phase auf einen entsprechend dimensionalisierten Raum, welcher die Zugehörigkeit jeder Aminosäure der urspünglichen Sequenz zur passended Heptadenposition repräsentiert. Weiters wird experimentell nachgewiesen, dass die entworfene Architektur dem aktuellen Stand der Technik aus dem Bereich Statistik und maschinellem Lernen überlegen ist MARCOIL, publiziert von Delorenzi und Speed, verwendet ein Hidden Markov Modell zur Annotation von Coiled-Coils.

Zusammenfassung (Englisch)

Analysing proteins, especially ones with an yet unknown functionality or purpose, is a major task in structural biological and medical research. The corresponding three-dimensional structure is hereby of special interest, as it poses as a driving factor in determining a proteins role. Methods aiding the process of gathering said information are thus in great demand. Although existing technologies like circular dichroism spectroscopy and nuclear magnetic resonance spectroscopy are already capable of analysing proteins regarding their structural properties particularly -helices and -sheets their application is rather expensive and time consuming. Hence, this thesis implements and elaborates an approach by utilising current state of the art techniques in Deep Learning, with a special emphasis on the Long Short-Term Memory architecture introduced by Hochreiter and Schmidhuber. The primary target of the developed system is the detection of regions in which two or more -helices are wound around each other so called coiled-coil domains as they play a central role in diverse processes like cell invasion and regulation of gene expressions. For this very reason, the novel system CoCoNuT is proposed, consisting of two hidden layers in total termed Locality and Globality. The former one is responsible for extracting local information from the analysed sequence using a sliding window approach and manually extracted features, whereas the latter processes said localities and puts them into a global context. To go into more detail, the first hidden layer comprises two processing units operating in parallel: (i) a recurrent one for analysing the sequence windows timestep per timestep; (ii) a linear one transforming for each sequence window separately the corresponding manually extracted features, to empower the network to exercise a more fine-grained control over said data. Their results are merged to form a combined representation of local sequence information which is then passed on to the second hidden layer, responsible for embedding it into a global context by application of a recurrent unit. On top, the output layer finally projects each timestep of the globality extraction phase onto the corresponding dimensional space, representing the affiliation of each amino acid of the original sequence to the appropriate heptad position. Moreover, it is experimentally shown that the chosen architecture achieves a better performance than the current best performing method in the fields of statistics and Machine Learning MARCOIL by Delorenzi and Speed, which utilises a hidden Markov model for annotation of coiled-coils.

Statistik
Das PDF-Dokument wurde 14 mal heruntergeladen.