Zur Seitenansicht
 

Titelaufnahme

Titel
Deep Learning Methods for Drum Transcription and Drum Pattern Generation / submitted by Richard Vogl
AutorInnenVogl, Richard Karl
Beurteiler / BeurteilerinWidmer, Gerhard ; Davies, Matthew
Betreuer / BetreuerinWidmer, Gerhard
ErschienenLinz, 2018
Umfangx, 178 Seiten : Illustrationen
HochschulschriftUniversität Linz, Dissertation, 2018
SpracheEnglisch
DokumenttypDissertation
Schlagwörter (DE)automatische Schlagzeugtranskription / automatische Musiktranskription / maschinelles Lernen / Deep Learning
Schlagwörter (EN)automatic drum transcription / automatic music transcription / machine learning / deep learning
URNurn:nbn:at:at-ubl:1-25916 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Deep Learning Methods for Drum Transcription and Drum Pattern Generation [23.26 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die vorliegende Dissertation ist im Bereich Music Information Retrieval anzusiedeln und befasst sich mit automatischer Schlagzeugtranskription und automatischer Generierung von Drum-Patterns. Unter Schlagzeugtranskription versteht man den Prozess eine symbolische Darstellung der von Schlaginstrumenten gespielten Noten aus einem Audiosignal zu extrahieren. Bei der automatischen Generierung von Drum-Patterns gilt es Methoden zur Erzeugung von musikalisch sinnvollen, neuartigen und interessanten Rhythmen für Schlaginstrumente zu finden. Der erste Teil dieser Arbeit befasst sich mit automatischer Schlagzeugtranskription. Transkription von Musik ist eine schwierige Aufgabe, die selbst für Fachkundige anspruchsvoll sein kann. Herausforderungen bei der Schlagzeugtranskription sind einerseits die klangliche Vielfalt einzelner Instrumenttypen, andererseits die Differenzierung innerhalb Gruppen ähnlich klingender Instrumente wie z.B. verschiedene Arten von Becken oder Trommeln unterschiedlicher Größe. In dieser Arbeit werden end-to-end Deep-Learning-Methoden für Schlagzeugtranskription verwendet. Mithilfe dieser werden neue Bestresultate auf öffentlichen Datensätzen sowie beim MIREX Schlagzeugtran- skriptions-Task erreicht. Darüber hinaus werden zwei weitere Ziele erreicht: (i) Extrahieren zusätzlicher Metainformationen wie Taktgrenzen, Taktart und lokales Tempo, sowie (ii) Erhöhung der Anzahl der Instrumente bei der Transkription. Während in anderen Arbeiten aus diesem Themenbereich nur Bassdrum, Snare und Hi-Hat berücksichtigt werden, kommen hier bis zu 18 verschiedene Instrumentklassen zum Einsatz. Der zweite Teil dieser Arbeit beschäftigt sich mit der automatischen Generierung von Drum-Patterns. Dabei sollen interessante musikalische Drum-Patterns erzeugt werden, die wie von Menschen kreierte klingen. Die Evaluierung solch generativer Methoden ist im allgemeinen diffizil, da Qualität in diesem Kontext subjektiv ist. Dieses Problem wird mittels qualitativer Interviews und quantitativer Umfragen gelöst. Zur Generierung von Drum-Patterns werden zwei verschiedene Modelle verwendet: Restricted Boltzmann Machines (RBMs) und Generativ Adversarial Networks (GANs). Während RBMs vergleichsweise einfach zu trainieren sind, gestaltet sich dies bei GANs problematischer. GANs benötigen außerdem mehr Trainingsdaten, können jedoch dafür besser mit einer größeren Vielfalt an Instrumenten und höheren zeitlichen Auflösungen umgehen. Der Bedarf großer Mengen an Trainigsdaten wird auf zwei Arten gedeckt: (i) durch das Erstellen eines großen synthetischen Drum-Pattern-Datensatzes und (ii) mittels der im ersten Teil vorgestellten Transkriptionsmethoden, mit denen Drum-Patterns aus Musik extrahieren werden. Weiters werden verschiedene Softwareprototypen für die Erzeugung von Drumpatterns implementiert und evaluiert. Als zusätzliches Ergebnis werden erstellte Datensätze und vortrainierte Transkriptionsmodelle der Forschungsgemeinschaft frei zur Verfügung gestellt.

Zusammenfassung (Englisch)

This thesis is situated in the field of music information retrieval and addresses the tasks of automatic drum transcription and automatic drum pattern generation. Automatic drum transcription deals with the problem of extracting a symbolic representation of the notes played by drum instruments from an audio signal. Automatic drum pattern generation aims at generating novel, musically meaningful and interesting rhythmic patterns involving several percussion instruments. The first part of this thesis focuses on automatic drum transcription. Music transcription from audio is a hard task, which can be challenging even for trained human experts. Challenges in drum transcription are the large variety of sounds for individual instrument types as well as groups of similar sounding instruments like different types of cymbals or tom-toms of varying sizes. The contributions covered by the drum transcription part introduce end-to-end deep learning methods for this task. With these, a new state of the art is established on a variety of public drum transcription datasets, as well as in the MIREX drum transcription competition. Furthermore, two additional objectives are met: (i) adding meta information like bar boundaries, meter, and local tempo to the transcripts, as well as (ii) increasing the number of instruments under observation. While traditionally, only bass drum, snare drum, and hi-hat have been focused on, in this thesis up to 18 different instrument classes are considered. The second part of this thesis deals with automatic drum pattern generation. The goal is to generate patterns which are musically meaningful and indistinguishable from human-created ones, and at the same time are not trivial but interesting. Evaluating generative methods is non-trivial, since quality in this context is subjective. This issue is addressed by conducting qualitative and quantitative user studies for evaluation purposes. Two different models are proposed for drum pattern generation: restricted Boltzmann machines (RBMs) and generative adversarial networks (GANs). While RBMs are comparably easy to train, GANs are more problematic in this respect, requiring more training data; on the other hand, GANs can better handle a greater variety of instruments and higher temporal resolutions. The need for data is met through two different approaches: (i) by creating synthetic large scale drum pattern datasets, and (ii) by leveraging the drum transcription methods from the first part of the thesis to extract drum patterns from real audio. Besides these methodological contributions, different user interfaces for drum pattern generation are implemented and evaluated in user studies. In addition, this thesis offers publicly available datasets and trained models for drum transcription as resources for the research community.

Statistik
Das PDF-Dokument wurde 19 mal heruntergeladen.