Zur Seitenansicht
 

Titelaufnahme

Titel
Multimodal Music Video Classification / submitted by Harald Rogner, BSc
AutorInnenRogner, Harald
Beurteiler / BeurteilerinSchedl, Markus
ErschienenLinz, 2018
Umfangxiv, 111 Seiten : Illustrationen
HochschulschriftUniversität Linz, Masterarbeit, 2018
SpracheEnglisch
DokumenttypMasterarbeit
Schlagwörter (EN)multimodal / music video / machine learning / information fusion
Schlagwörter (GND)Musikvideo / Multimodalität / Maschinelles Lernen / Multimedia / Metadaten / Klassifikation
URNurn:nbn:at:at-ubl:1-20638 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Multimodal Music Video Classification [4.2 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Englisch)

Video platforms provide access to a vast number of music videos and their size grows rapidly. Facing such a large data volume, the textual search approaches its limits when music videos of a certain type are in demand, but the title is not specific enough. Most music videos are official music videos and professionally filmed concert videos. Besides these types, new music video types like user recorded concert videos and lyric videos have found their way on video platforms in the last decade. Video tags can aid the search for videos, but require manual assignment of the types to every video, which is a tedious and expensive task. By utilizing multimedia content analysis methods, the music videos can be categorized automatically and the predicted types can be assigned to the videos. The fundamental modalities of music videos are the audio and video stream, but various different features can be extracted from them. Often contextual information is also available in the form of metadata. Despite the richness of information provided by music videos, most previous approaches focused on a single modality only. This thesis aims to improve the prediction accuracies of individual modalities, by combining them in the developed multimodal music video classification system. For the underlying supervised machine learning task, a labeled music video dataset was thoroughly assembled. The multimodal nature of music videos allowed to extract audio, applause, video motion, video structure, image, text, and metadata features. To reduce the processing requirements, the calculated features were evaluated and only the most suitable ones for music video classification were selected. For every modality several classification algorithms and their parameters were evaluated using grid search. The best performing algorithm was subsequently used to classify the music videos in the test dataset. Based on the results of the individual modalities, the performance of the combined modalities could be evaluated. To combine the features and predictions of all modalities, several fusion techniques were applied. Based on the insights gained from their evaluations, a novel fusion setup was developed. The results show that the classification with the proposed fusion setup is superior to using individual modalities as well as any other combination approach. The best single modality result could be outperformed by 4.44% to an almost perfect music video classification of 98.33%.

Zusammenfassung (Deutsch)

Video Portale bieten Zugriff auf eine gewaltige Anzahl von Musikvideos und deren Umfang nimmt rapide zu. Angesichts einer derart großen Datenmenge stößt die textbasierte Suche an ihre Grenzen, wenn Musikvideos einer bestimmten Art nachgefragt werden, der Titel jedoch nicht spezifisch genug ist. Die meisten Musikvideos sind offizielle Musikvideos und professionell gefilmte Konzertaufnahmen. Neben diesen Arten haben im letzten Jahrzehnt neue Musikvideoarten, wie von Besuchern aufgenommene Konzertvideos sowie Lyric Videos ihren Weg auf Video Portale gefunden. Um die Suche nach Videos zu unterstützen, kann deren Art mittels Video tags manuell zugewiesen werden. Es ist allerdings eine mühsame und aufwendige Aufgabe, jedem einzelnen Musikvideo die richtige Art zuzuordnen. Durch die Nutzung von Methoden zur Multimedia-Inhaltsanalyse können Musikvideos automatisch klassifiziert und die dabei ermittelten Videoarten den Musikvideos zugeordnet werden. Musikvideos bestehen grundsätzlich aus einem Audio und Videosignal, können allerdings dazu verwendet werden, eine Vielzahl verschiedener Merkmale zu extrahieren. Informationen zum Kontext liegen oft in der Form von Metadaten vor. Trotz dieser Fülle an Informationen zu Musikvideos, haben sich die meisten bisherigen Arbeiten nur auf einzelne Modalitäten konzentriert. Diese Arbeit setzt sich zum Ziel, die Vorhersagegenauigkeit einzelner Modalitäten zu verbessern, indem diese im entwickelten multimodalen Musikvideo-Klassifikationssystem kombiniert werden. Dabei wurde für den zugrundeliegenden Prozess des überwachten maschinellen Lernens eine Datenbank von Musikvideos und deren jeweils zugehörigem Typ sorgfältig zusammengestellt. Die multimodale Charakteristik von Musikvideos erlaubte es Audio-, Applaus-, Videobewegungs-, Videostruktur-, Bild-, Text- und Metadaten-Merkmale zu extrahieren. Um eine sinnvolle Verarbeitung zu ermöglichen, wurden die berechneten Merkmale evaluiert und nur die am besten für die Musikvideoklassifikation geeigneten Merkmale ausgewählt. Für jede Modalität wurde mittels eines Suchrasters der beste Klassifikationsalgorithmus und dessen Parameter ermittelt, um anschließend die Musikvideos in der Testdatenbank zu klassifizieren. Die Ergebnisse der einzelnen Modalitäten bilden die Grundlage für den Vergleich mit den Resultaten der kombinierten Modalitäten. Zahlreiche Kombinationstechniken wurden genutzt, um die Merkmale und Vorhersagen aller Modalitäten miteinander zu verbinden. Auf Basis der in der Evaluierung gewonnenen Erkenntnisse, wurde eine neuartige Konfiguration für die Kombination der Merkmale entwickelt. Die Ergebnisse zeigen, dass die Klassifikation mit der vorgeschlagenen Konfiguration der Verwendung einzelner Modalitäten sowie jener der anderen multimodalen Ansätze überlegen ist. Das beste mit einer einzelnen Modalität erzielte Resultat konnte um 4.44 % verbessert werden und mit 98.33 % wurde eine nahezu perfekte Klassifikation der Musikvideos erreicht.

Statistik
Das PDF-Dokument wurde 23 mal heruntergeladen.