Go to page
 

Bibliographic Metadata

Title
Harmonic Analysis of Musical Audio using Deep Neural Networks / submitted by Filip Korzeniowski
AuthorKorzeniowski, Filip
CensorWidmer, Gerhard ; Bello, Juan Pablo
Thesis advisorWidmer, Gerhard
PublishedLinz, 2018
Descriptionxi, 119 Seiten : Illustrationen
Institutional NoteUniversität Linz, Dissertation, 2018
LanguageEnglish
Document typeDissertation (PhD)
Keywords (DE)machinelles Lernen / künstliche Intelligenz / Audioverarbeitung / tiefe neuronale Netze / Akkorde / Tonart
Keywords (EN)machine learning / artificial intelligence / audio processing / deep neural networks / chords / key
URNurn:nbn:at:at-ubl:1-25092 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Harmonic Analysis of Musical Audio using Deep Neural Networks [1.21 mb]
Links
Reference
Classification
Abstract (German)

Diese Arbeit befasst sich mit der automatischen Extraktion harmonischer Information aus Audioaufnahmen von Musik. Automatische Methoden zur Extraktion solcher Information sind nicht nur für die theoretische Musikanalyse relevant. Auch kommerzielle Anwendungen wie Musiklernprogramme oder Generatoren von Leadsheets sind ohne solcher Methoden nicht denkbar. In der Arbeit werden zwei Aspekte von Harmonie betrachtet -- Akkorde und globale Tonart --, welche mit mit Hilfe tiefer neuronaler Netze extrahiert werden. Akkorderkennung bildet den Hauptbestandteil dieser Dissertation. Um Akkorde in Audioaufnahmen zu erkennen, werden zuerst datengetriebene Merkmalsextraktoren (sogenannte akustische Modelle) entwickelt. Danach rückt die Modellierung von Akkordsequenzen in den Fokus. Hierbei zeigt die Arbeit, dass die Modellierung auf Basis von kurzen Zeitschritten in der Zeitdomäne (wie in bestehenden Akkorderkennungssystemen üblich) das Erkennen von musikalischen Zusammenhängen verhindert. Des Weiteren wird gezeigt, dass solche Modelle direkt auf Akkordebene arbeiten müssen, um sinnvoll zu funktionieren. In weiterer Folge werden Akkordsequenzmodelle, die auf rekurrenten neuronalen Netzen basieren, systematisch evaluiert, und ihre Überlegenheit gegenüber Modellen mit endlichem Kontext gezeigt. Abschließend präsentiert die Arbeit ein probabilistisches Modell, welches die erwähnten Akkordsequenzmodelle, mit Hilfe verschiedener Modelle der Akkorddauer, mit akustischen Modellen verbindet. Hierbei wird insbesondere betrachtet, wie sich die Qualität der einzelnen Modelle auf das Endergebnis auswirkt. Der zweite Teil dieser Arbeit beschäftigt sich mit der Klassifizierung der Tonart. Hierfür wird, basierend auf klassischen Methoden der Tonartklassifizierung, ein faltendes neuronales Netz entwickelt, welches Tonarten besser klassifizieren kann als bestehende Methoden. In weiterer Folge wird evaluiert, wie gut dieses Modell auf andere Musikrichtungen generalisiert (ein Problem, an dem bestehende Methoden scheitern), und Änderungen der Netzwerkstruktur und der Lernprozedur präsentiert, die das Erlernen eines genre-unabhängigen Modelles ermöglichen. Dieses Modell erreicht schließlich bessere Ergebnisse als auf bestimmte Musikrichtungen spezialisierte Modelle.

Abstract (English)

In this thesis, I consider the automatic extraction of harmonic information from musical audio. Obtaining such information automatically is relevant not only for theoretical analyses, but also for commercial applications such as music tutoring programs or lead sheet generators. I focus on two aspects of harmony---chords and the global key---and tackle the problem of extracting them using deep neural networks. My work on chord recognition constitutes the main part of this thesis. To recognise chords in the audio, I first develop data-driven feature extraction methods (or, acoustic models) that outperform hand-engineered ones. I then focus on modelling chord sequences, and show that doing so on a frame-by-frame basis (as common in existing chord recognition systems) prevents learning musical relationships between chords---regardless of the complexity or power of a sequence model. I also show that such models instead need to operate on higher-level chord symbol sequences in order to be useful. I continue by systematically exploring such chord sequence models based on recurrent neural networks and show their superiority to finite-context models. Finally, I devise a probabilistic model that integrates these chord sequence models with acoustic models using various models of chord duration, and evaluate how the performance of each model influences the final chord recognition results. The second part of this thesis concerns key classification. Here, I develop a convolutional neural network based on traditional key classification pipelines to create a key classifier that performs better than existing, hand-designed methods. I then evaluate how well the model generalises over datasets of different musical genres (a problem existing systems have not solved), and propose adaptations in training and network structure that enable learning a genre-agnostic model that outperforms genre-specific models on many available datasets.

Stats
The PDF-Document has been downloaded 31 times.