Go to page
 

Bibliographic Metadata

Title
Multimodal Deep Representation Learning and its Application to Audio and Sheet Music / submitted by Matthias Dorfer
AuthorDorfer, Matthias
CensorWidmer, Gerhard ; Eck, Douglas
Thesis advisorWidmer, Gerhard
PublishedLinz, 2018
Descriptionxxii, 147 Seiten : Illustrationen
Institutional NoteUniversität Linz, Dissertation, 2018
LanguageEnglish
Document typeDissertation (PhD)
URNurn:nbn:at:at-ubl:1-25949 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Multimodal Deep Representation Learning and its Application to Audio and Sheet Music [19.31 mb]
Links
Reference
Classification
Abstract (German)

Diese Dissertation beschäftigt sich mit dem Erlernen abstrakter Repräsentationen mit Hilfe von tiefen, multimodalen neuronalen Netzen (Multimodal Deep Learning) und deren Anwendung auf Audioaufnahmen von Musikstücken und den korrespondierenden Notentexten. Multimodal bedeutet hierbei, dass während des Lernprozesses mehrere, verschiedene Eingangsmodalitäten simultan verwendet werden. Die Eigenschaften der erlernten Repräsentationen hängen dabei hauptsächlich von den zugrundeliegenden Trainingsdaten, sowie der zu lösenden Aufgabe und der Zielfunktion des Optimierungsprozesses ab. Im ersten Teil meiner Dissertation bestehen diese multimodalen Daten aus Bildern von Notentexten und korrespondierenden Audioaufnahmen der abgebildeten Musikstücke. Diese Daten werden in drei unterschiedlichen Lernparadigmen verwendet, um beispielhafte Problemstellungen aus dem Bereich des Music Information Retrieval zu behandeln: (1) Supervised Learning wird verwendet, um die aktuelle Position einer abgespielten Musikaufnahme direkt im Notententext zu verfolgen. (2) spezielle multimodale Abbildungen (Embeddings) werden gelernt, um die effiziente Suche in Notentextdatenbanken, sowie die automatische Synchronisation von Musikaufnahmen mit Notentexten zu ermöglichen. (3) Deep Reinforcement Learning wird als alternatives Lernparadigma für die automatische Verfolgung der Notentextposition vorgestellt. Alle drei Ansätze haben gemein, dass die Funktionsweisen der multimodalen neuronalen Netze einzig aus den zugrundeliegenden Trainingsbeispielen erlernt werden. Für das Trainieren dieser Netze ist ein ausreichend großer Trainingsdatensatz erforderlich. Zu Beginn dieser Arbeit war kein geeigneter Datensatz verfügbar, weshalb ich im Verlauf meiner Forschung eine frei verfügbare Datenbank mit Notentexten und korrespondierenden Musikaufnahmen zusammengestellt habe. Dieser Datensatz umfasst 1129 Seiten Notentext, die exakt auf Notenkopfebene mit der entsprechenden Audioaufnahme synchronisiert sind. Systematische Experimente auf diesem Datensatz zeigen, dass es möglich ist, Lösungen für komplexe musikbezogene Problemstellungen vollständig datengetrieben und daher mit sehr geringem Einsatz von domänenspezifischem Zusatzwissen zu erlernen. Der zweite Teil dieser Arbeit verlässt diesen konkreten musikalischen Anwendungsbereich und stellt zwei methodische Erweiterungen für neuronale Netze vor. Diese Erweiterungen haben ihren Ursprung in der klassischen multivariaten Statistik: Der kanonischen Korrelationsanalyse und der linearen Diskriminanzanalyse. Ich greife in beiden Fällen die Kernkonzepte der jeweiligen Methode auf und adaptiere diese für die Kombination mit tiefen neuronalen Netzen. Im ersten Fall entwerfe ich einen differenzierbaren, auf der kanonischen Korrelationsanalyse basierenden Layer für neuronale Netze, der ein effizientes Erlernen von Embeddings über Modalitätsgrenzen hinweg ermöglicht (z.B. für die Suche von Bildern auf Basis einer textuellen Suchanfrage). Im zweiten Fall formuliere ich die lineare Diskriminanzanalyse als Zielfunktion für das Trainieren neuronaler Netze. Die daraus resultierenden Repräsentationen sind linear separierbar und können daher für Klassifikationsprobleme (z.B. Objekterkennung) eingesetzt werden. Zusammengefasst erweitert die vorliegende Dissertation das Anwendungsfeld von multimodalen neuronalen Netzen auf musikalische Problemstellungen im Kontext von Notentexten und korrespondierenden Audioaufnahmen, veröffentlicht einen neuen für diese Forschung notwendigen Datensatz und erweitert zwei Verfahren der klassischen multivariaten Statistik für deren Kombination mit tiefen neuronalen Netzen.

Abstract (English)

This thesis is about multimodal deep representation learning and its application to audio and sheet music. Multimodal deep learning in general could be described as learning task-specific representations from two or potentially more input modalities at the same time. What kind of representations a model learns mainly depends on the given training data and the task that is addressed, including its respective optimization target. In the first part of my thesis, the data at hand are images of sheet music and their corresponding music audio. Three different machine learning paradigms are employed to address Music Information Retrieval (MIR) problems involving audio and sheet music, with multimodal convolutional neural networks. In particular, the thesis presents (1) supervised function approximation for score following directly in sheet music images, (2) multimodal joint embedding space learning for piece identification and offline audio score alignment, and (3) deep reinforcement learning again addressing the task of score following in sheet music. All three approaches have in common that they are built on top of multimodal neural networks that learn their behavior purely from observations presented during training. To train such networks a suitable and large enough dataset is required. As such data was not available when I started working on the thesis, I have collected a free, large-scale, multimodal audiosheet music dataset, with complete and detailed alignment ground-truth at the level of individual notes. In total the dataset covers 1,129 pages of music, which is exactly the kind of data required to explore the potential of powerful machine learning models. The dataset, including my experimental code, is made freely available to foster further research in this area. With this new dataset I show that with the right combination of appropriate data and methods it is feasible to learn solutions for complex MIR-related problems entirely from scratch without the need for musically-informed hand-designed features. In the second part of my thesis I take a step back from this concrete application and propose methodological extensions to neural networks in general, which are more broadly applicable beyond the domain of audio and sheet music. We revisit Canonical Correlation Analysis (CCA) and Linear Discriminant Analysis (LDA) two methods from multivariate statistics to extend their core ideas to allow for combination with deep neural networks. In the case of CCA, I show how to improve cross-modality retrieval via multimodal embedding space learning by back-propagating a ranking loss directly through the analytical projections of CCA. For LDA, I reformulate its central idea as an optimization target to train neural networks that produce discriminative, linearly separable latent representations useful for classification tasks such as object recognition. To summarize, this thesis extends the application domain of multimodal deep learning to audio and sheet music-related MIR problems, proposes a novel audio - sheet music dataset, and adds two general methodological contributions to the field of deep learning.

Stats
The PDF-Document has been downloaded 15 times.