Zur Seitenansicht
 

Titelaufnahme

Titel
Deep Learning for Event Detection, Sequence Labelling and Similarity Estimation in Music Signals / submitted by Jan Schlüter
VerfasserSchlüter, Jan
Begutachter / BegutachterinWidmer, Gerhard ; Dixon, Simon
GutachterWidmer, Gerhard
ErschienenLinz, 2017
Umfangxxvi, 256 Seiten : Illustrationen
HochschulschriftUniversität Linz, Dissertation, 2017
SpracheEnglisch
DokumenttypDissertation
Schlagwörter (DE)Deep Learning / maschinelles Lernen / künstliche neuronale Netze / Musikverstehen / Musikverarbeitung / Signalverarbeitung / maschinelles Hören
Schlagwörter (EN)deep learning / machine learning / artificial neural networks / music understanding / music processing / signal processing / machine listening
URNurn:nbn:at:at-ubl:1-17409 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Deep Learning for Event Detection, Sequence Labelling and Similarity Estimation in Music Signals [5.78 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Englisch)

When listening to music, some humans can easily recognize which instruments play at what time or when a new musical segment starts, but cannot describe exactly how they do this. To automatically describe particular aspects of a music piece - be it for an academic interest in emulating human perception, or for practical applications -, we can thus not directly replicate the steps taken by a human. We can, however, exploit that humans can easily annotate examples, and optimize a generic function to reproduce these annotations. In this thesis, I explore solving different music perception tasks with deep learning, a recent branch of machine learning that optimizes functions of many stacked nonlinear operations - referred to as deep neural networks - and promises to obtain better results or require less domain knowledge than more traditional techniques. In particular, I employ fully-connected neural networks for music and speech detection and to accelerate music similarity measures, and convolutional neural networks for detecting note onsets, musical segment boundaries and singing voice. In doing so, I evaluate both how well and in what way the networks solve the respective tasks. Using the example of singing voice detection, I additionally develop data augmentation methods to learn from only few annotated music pieces, and a recipe to obtain temporally accurate predictions from inaccurate training examples.

The results of my work surpass the previous state of the art in all the tasks considered. The learned solutions are similar to existing hand-designed approaches, but are more extensively optimized than possible by hand. Both indicates that the same methods could also yield substantial improvements for other machine listening problems. The self-contained description of my work - including a thorough introduction to all relevant deep learning and signal processing techniques - and my contributions to several open-source software projects shall help other researchers and practitioners to accomplish exactly that. In conclusion, this thesis both advances the state of the art in five concrete applications, and, on a higher level, participates in the ongoing democratization of deep learning.

Zusammenfassung (Deutsch)

Einige Menschen können beim Hören einer Musikaufnahme sehr leicht erkennen, wann welche Instrumente spielen oder ein neuer Abschnitt beginnt, aber nicht genau erklären, wie sie dies tun. Um ein Musikstück automatisch nach bestimmten Kriterien zu beschreiben - sei es aus dem akademischen Interesse heraus, menschliche Wahrnehmung nachzuahmen, oder für praktische Anwendungen -, können wir daher nicht direkt die Schritte kopieren, die ein Mensch dazu befolgt. Wir können allerdings ausnutzen, dass Menschen sehr leicht Beispiele annotieren können, und eine generische Funktion dahingehend optimieren, diese Annotationen zu reproduzieren. In dieser Dissertation untersuche ich die Lösung verschiedener Aufgaben der Musikwahrnehmung mittels Deep Learning, eines jungen Teilgebiets des Maschinellen Lernens, das Funktionen aus einer Abfolge an vielen nichtlinearen Operationen - sogenannte tiefe neuronale Netze - optimiert und dabei verspricht, bessere Ergebnisse zu erzielen oder weniger Domänenwissen vorauszusetzen als herkömmlichere Methoden. Konkret setze ich voll verbundene neuronale Netze ein, um Sprache und Musik zu detektieren sowie Musikähnlichkeitsmaße zu beschleunigen, und faltungsbasierte neuronale Netze, um Notenanfänge, Musikabschnitte und Gesang zu finden. Dabei erfasse ich nicht nur wie gut, sondern auch auf welche Weise die neuronalen Netze die Aufgaben lösen. Am Beispiel der Gesangsdetektion entwickele ich außerdem Methoden der Datenaugmentierung, um aus wenigen Musikstücken zu lernen, und ein Rezept, um aus zeitlich ungenau annotierten Trainingsbeispielen genaue Vorhersagen zu erzielen.

Die Ergebnisse meiner Arbeit übertreffen den bisherigen Stand der Technik in allen untersuchten Aufgaben. Die gelernten Lösungen ähneln existierenden manuell entworfenen Ansätzen; ihr Vorteil liegt in einer viel weitgehenderen Optimierung, als sie von Hand möglich wäre. Beides lässt erwarten, dass die gleichen Methoden auch für weitere Probleme des maschinellen Hörens wesentliche Verbesserungen erzielen könnten. Die abgeschlossene Beschreibung meiner Arbeit - inklusive einer umfassenden Einführung in alle verwendeten Methoden des Deep Learning und der Signalverarbeitung - sowie meine Beiträge zu mehreren quelloffenen Softwareprojekten sollen anderen ForscherInnen oder PraktikerInnen eben dies erleichtern. Zusammengefasst verbessert diese Dissertation den Stand der Technik in fünf konkreten Anwendungen, und leistet darüber hinaus einen Beitrag zur fortschreitenden Demokratisierung von Deep Learning.