Zur Seitenansicht
 

Titelaufnahme

Titel
Improving image-based compound activity prediction with convolutional neural networks / submitted by Katrin Strasser, BSc
AutorInnenStrasser, Katrin
Beurteiler / BeurteilerinHochreiter, Sepp
Betreuer / BetreuerinHochreiter, Sepp
ErschienenLinz, 2018
Umfangxvii, 63 Seiten : Illustrationen
HochschulschriftUniversität Linz, Masterarbeit, 2018
SpracheEnglisch
DokumenttypMasterarbeit
Schlagwörter (DE)Convolutional neural Networks / Wirkstoffdesign / künstliche Intelligenz / deep learning / neuronale netze
Schlagwörter (EN)convolutional neural networks / CNN / biological activity / compound activity / artificial Intelligence / drug design / machine learning / deep learning
URNurn:nbn:at:at-ubl:1-23438 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Improving image-based compound activity prediction with convolutional neural networks [21.81 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die in-silico Vorhersage von biologischen Aktivitäten von Molekülen stellt einen entscheidenden Schritt im Prozess des Wirkstoffdesigns dar, weil das in-vitro oder in-vivoMessenderAktivitätenvielZeitundKosteninAnspruchnimmt. Verschiedene Machine Learning Modelle, die Bilder aus Hochdurchsatz Screenings als Grund- lage zur Vorhersage der Bioaktivität verwenden, werden in dieser Arbeit evaluiert. Im Gegensatz zu Quantitativen struktur-Aktivitäts Beziehungs (QSAR) Modellen, welche auf der chemischen Struktur basieren, beinhalten die Bild-basierten Mod- elle die biologische Information und sind unabhängig von der chemischen Struktur. Daher können Bild-basierte Modelle neue, potentiell unerwartete aktive chemische Strukturen entdecken. In dieser Arbeit werden zwei verschiedene Ansätze der Bild-basierten bioaktiv- itäts Vorhersage verglichen: Der erste Ansatz ist ein tiefes neuronales Netz (DNN), welches auf vorberechneten Bild-Desktiptoren trainiert wurde, während der zweite Ansatz auf einem faltenden neuronalen Netz (CNN) basiert, welches direkt auf die Hochdurchsatz Bilder trainiert wurde. Die Ergebnisse zeigen, dass das CNN sig- nifikant besser funktioniert als das DNN mit einer durchschnittlichen "area under the curve" (AUC) von 0.6 (+-0.26) über alle Assays des externen Testsets. Eine sig- nifikante und hohe Vorhersagbarkeitsrate wird für 16.92% oder 11 Assays erreicht. Die Deskriptoren-basierten DNNs erreichen eine durchschnittliche AUC von 0.51 (+-0.14) und keine signifikante und hohe Vorhersagbarkeitsrate. Mit diesen exakten Modellen konnten 12.000 Moleküle in 11 Assays annotiert werden, daraus wurden 130.000 neue Datenpunkte gewonnen, welche beinahe equivalentzuAssay-Messungensind. AnstattdieBioaktivitäteneinesneuenMoleküls zu messen, kann ein Hochdurchsatz Bild der Zellen aufgenommen werden, nach- dem dieses Molekül auf die Zellen aufgetragen wurde. Das Bild kann weiter ver- arbeitet werden, um verschiedene Assays oder Effekte von bis dahin unbekannten Molekülen vorherzusagen um den Prozess des Wirkstoffdesigns zu beschleunigen.

Zusammenfassung (Englisch)

Predicting the biological activity of a chemical compound in-silico is a crucial step in the drug design process, because measuring the activity in-vitro or in-vivo is time consuming and cost intense. In this work, we evaluate different machine learning models that leverage high-throughput images to predict biological activity. In con- trast to quantitative structure-activity relationship (QSAR) models that are based on the chemical structure, the image-based models include biological information and are independent of chemicals structure. This allows the image-based models to de- tect novel, potentially unexpectedly active chemical structures. In this work, we compare two different approaches for image-based compound activity prediction: The first approach is a deep neural network (DNN) trained on precalculated image descriptors, whereas the second approach is based around a convolutionalneuralnetwork(CNN)whichistraineddirectlyonthehigh-throughput images. We show that the CNN significantly outperforms the DNN with an average area under the curve (AUC) of 0.60 (+-0.26) over all assays on an external test set. A significant and high predictivity (AUC>0.9) is achieved for 16.92% or 11 assays. Descriptor-based DNNs achieve an average AUC of 0.51 (+- 0.14) and no significant and high predictivity. Using these highly accurate predictive models, we were able to annotate 12.000 compounds in 11 assays, which amounts to 130.000 newly obtained data points almost equivalent to assay measurements. Instead of measuring a new com- pound for activities, a high-throughput image can be taken of the cells with that specific compound applied to them. This image can further be processed to predict different assays or effects of yet unknown compounds to speedup the drug design process.

Statistik
Das PDF-Dokument wurde 16 mal heruntergeladen.