Zur Seitenansicht
 

Titelaufnahme

Titel
Data Driven Molecule Generation Using Deep Learning / submitted by Philipp Renz
Weitere Titel
Datengetriebene Molekülgenerierung unter Verwendung von Deep Learning
AutorInnenRenz, Philipp
Beurteiler / BeurteilerinHochreiter, Sepp
Betreuer / BetreuerinHochreiter, Sepp
ErschienenLinz, 2018
Umfangviii, 69 Seiten : Illustrationen
HochschulschriftUniversität Linz, Masterarbeit, 2018
Anmerkung
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers
SpracheEnglisch
DokumenttypMasterarbeit
Schlagwörter (EN)deep learning / de novo molecule generation / LSTM / recurrent neural networks / generative models
URNurn:nbn:at:at-ubl:1-23507 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Data Driven Molecule Generation Using Deep Learning [1.6 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Eine wichtige Aufgabe in der Pharmakologie, Toxikologie und in der Arz- neimittelentwicklung ist die Erstellung von molekularer Bibliotheken. Diese sind der Startpunkt aller Entwicklungsprojekte und werden normalerweise durchsucht um Moleküle mit gewünschten biologischen Eigenschaften zu fin- den. Der Erfolg dieser Suche nach neuen Arzneitmitteln hängt vom Design der originalen Bibliothek ab. Kürzlich hat es vermehrt Interesse an datengetriebenen Methoden zur Generierung molekularer Strukturen gegeben, die auf maschinellem Lernen basieren. In dieser Arbeit trainieren wir rekurrente neuronale Netze (RNN) um Moleküle in ihrer SMILES-Repräsentation zu erzeugen. Wir bestätigen, dass diese RNN fähig sind den SMILES-Syntax zu verstehen, verbessern die aktuell beste Methode und erzeugen Moleküle die denen in chemischen Datenbanken, hier ChEMBL, ähnlich sind. Unser Modell schlägt bereits ver- öffentlichte hinsichtlich etablierten Evaluationskriterien. ^Weiters weisen wir darauf hin, dass bessere Evaluationskriterien benö- tigt werden, und stellen eine neue Methode zur Evaluierung, die Fréchet ChemblNet Distance (FCD), vor, die verwendet werden kann um generative Modelle die Moleküle erzeugen zu bewerten. Diese Methode beruht auf dem Vergleich der Verteilungen der Aktivierungen eines neuronalen Netzes, das trainiert wurde um Bioaktivitäten vorherzusagen. Der Vorteil dieser neu- en Metrik ist, dass sie sowohl chemische und biologische Information, als auch die Vielfältigkeit der erzeugten Moleküle berücksichtigt und alles in ei- nem einzigen Score zusammenführt. Wir zeigen dass die FCD Unterschiede zwischen zwei Sätzen von Molekülen detektieren kann, indem wir Datensät- ze erzeugen die basierend auf gewissen molekularen Eigenschaften künstlich verzerrt werden. ^Abgesehen von diesen originellen Beiträgen, der Verbesserung des Stan- des der Technik und der Einführung eines neuen Evaluationskriterium, über- denken wir bereits publizierte Forschungsergebnisse und zeigen Inkonsisten- zen auf, und schlagen potentielle Verbesserungen und neue Forschungsansät- ze vor.

Zusammenfassung (Englisch)

A crucial task in pharmacology, toxicology and drug development is to gen- erate molecule libraries. These libraries are the starting point of all develop- ment projects and are typically screened for molecules with desired biological properties. The success of finding a novel drug depends on the design of the initial library. Recently, there has been increased interest in data-driven machine learn- ing approaches for generating molecular libraries. In this work, we add to those advances and train recurrent neural networks (RNN) to generate molecules using the SMILES representation to describe structures. We con- firm that RNNs are capable of learning the SMILES-syntax, improve the existing state-of-the-art method and create molecules similar to the ones in chemical databases, concretely ChEMBL. Our model outperforms previ- ously published models in this task with respect to established performance measures. Additionally we point out the need for better performance measures, and we propose a new evaluation method, the Fréchet ChemblNet Distance (FCD), that can be used to assess generative models for molecules. This new metric relies on comparing the distributions of the activations of a neural net- work that is trained to predict bioactivities of molecules. The advantage of this new metric is that it takes into account chemical and biological informa- tion, as well as the diversity of generated molecules and combines everything into a single score. We show that the FCD can detect differences between sets of molecules by creating artificial datasets biased towards certain molec- ular properties. Apart from our novel contributions, the improvement of the state-of-the-art method and the introduction of a new evaluation criterion, we review existing research and point out inconsistencies and suggest poten- tial improvements and further directions of research.

Statistik
Das PDF-Dokument wurde 19 mal heruntergeladen.