Zur Seitenansicht
 

Titelaufnahme

Titel
Harmonic Analysis of Musical Audio using Deep Neural Networks / submitted by Filip Korzeniowski
AutorInnenKorzeniowski, Filip
Beurteiler / BeurteilerinWidmer, Gerhard ; Bello, Juan Pablo
Betreuer / BetreuerinWidmer, Gerhard
ErschienenLinz, 2018
Umfangxi, 119 Seiten : Illustrationen
HochschulschriftUniversität Linz, Dissertation, 2018
SpracheEnglisch
DokumenttypDissertation
Schlagwörter (DE)machinelles Lernen / künstliche Intelligenz / Audioverarbeitung / tiefe neuronale Netze / Akkorde / Tonart
Schlagwörter (EN)machine learning / artificial intelligence / audio processing / deep neural networks / chords / key
URNurn:nbn:at:at-ubl:1-25092 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Harmonic Analysis of Musical Audio using Deep Neural Networks [1.21 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Diese Arbeit befasst sich mit der automatischen Extraktion harmonischer Information aus Audioaufnahmen von Musik. Automatische Methoden zur Extraktion solcher Information sind nicht nur für die theoretische Musikanalyse relevant. Auch kommerzielle Anwendungen wie Musiklernprogramme oder Generatoren von Leadsheets sind ohne solcher Methoden nicht denkbar. In der Arbeit werden zwei Aspekte von Harmonie betrachtet -- Akkorde und globale Tonart --, welche mit mit Hilfe tiefer neuronaler Netze extrahiert werden. Akkorderkennung bildet den Hauptbestandteil dieser Dissertation. Um Akkorde in Audioaufnahmen zu erkennen, werden zuerst datengetriebene Merkmalsextraktoren (sogenannte akustische Modelle) entwickelt. Danach rückt die Modellierung von Akkordsequenzen in den Fokus. Hierbei zeigt die Arbeit, dass die Modellierung auf Basis von kurzen Zeitschritten in der Zeitdomäne (wie in bestehenden Akkorderkennungssystemen üblich) das Erkennen von musikalischen Zusammenhängen verhindert. Des Weiteren wird gezeigt, dass solche Modelle direkt auf Akkordebene arbeiten müssen, um sinnvoll zu funktionieren. In weiterer Folge werden Akkordsequenzmodelle, die auf rekurrenten neuronalen Netzen basieren, systematisch evaluiert, und ihre Überlegenheit gegenüber Modellen mit endlichem Kontext gezeigt. Abschließend präsentiert die Arbeit ein probabilistisches Modell, welches die erwähnten Akkordsequenzmodelle, mit Hilfe verschiedener Modelle der Akkorddauer, mit akustischen Modellen verbindet. Hierbei wird insbesondere betrachtet, wie sich die Qualität der einzelnen Modelle auf das Endergebnis auswirkt. Der zweite Teil dieser Arbeit beschäftigt sich mit der Klassifizierung der Tonart. Hierfür wird, basierend auf klassischen Methoden der Tonartklassifizierung, ein faltendes neuronales Netz entwickelt, welches Tonarten besser klassifizieren kann als bestehende Methoden. In weiterer Folge wird evaluiert, wie gut dieses Modell auf andere Musikrichtungen generalisiert (ein Problem, an dem bestehende Methoden scheitern), und Änderungen der Netzwerkstruktur und der Lernprozedur präsentiert, die das Erlernen eines genre-unabhängigen Modelles ermöglichen. Dieses Modell erreicht schließlich bessere Ergebnisse als auf bestimmte Musikrichtungen spezialisierte Modelle.

Zusammenfassung (Englisch)

In this thesis, I consider the automatic extraction of harmonic information from musical audio. Obtaining such information automatically is relevant not only for theoretical analyses, but also for commercial applications such as music tutoring programs or lead sheet generators. I focus on two aspects of harmony---chords and the global key---and tackle the problem of extracting them using deep neural networks. My work on chord recognition constitutes the main part of this thesis. To recognise chords in the audio, I first develop data-driven feature extraction methods (or, acoustic models) that outperform hand-engineered ones. I then focus on modelling chord sequences, and show that doing so on a frame-by-frame basis (as common in existing chord recognition systems) prevents learning musical relationships between chords---regardless of the complexity or power of a sequence model. I also show that such models instead need to operate on higher-level chord symbol sequences in order to be useful. I continue by systematically exploring such chord sequence models based on recurrent neural networks and show their superiority to finite-context models. Finally, I devise a probabilistic model that integrates these chord sequence models with acoustic models using various models of chord duration, and evaluate how the performance of each model influences the final chord recognition results. The second part of this thesis concerns key classification. Here, I develop a convolutional neural network based on traditional key classification pipelines to create a key classifier that performs better than existing, hand-designed methods. I then evaluate how well the model generalises over datasets of different musical genres (a problem existing systems have not solved), and propose adaptations in training and network structure that enable learning a genre-agnostic model that outperforms genre-specific models on many available datasets.

Statistik
Das PDF-Dokument wurde 17 mal heruntergeladen.