Zur Seitenansicht
 

Titelaufnahme

Titel
Audio Identification via Fingerprinting : achieving Robustness to Severe Signal Modifications / submitted by Reinhard Sonnleitner
Weitere Titel
Audioidentifikation via Fingerprinting
AutorInnenSonnleitner, Reinhard
Beurteiler / BeurteilerinWidmer, Gerhard ; Müller, Meinard
ErschienenLinz, April 2017
Umfangx, 184 Seiten : Illustrationen
HochschulschriftUniversität Linz, Dissertation, 2017
Anmerkung
Zusammenfassung in deutscher Sprache
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)Fingerprinting / DJ mixes / Quad / Robustheit / Zeitstreckung / Pitching
Schlagwörter (EN)fingerprinting / DJ mixes / quad / robust / time-stretching / pitch-shifting / speed
Schlagwörter (GND)Daktylogramm / Robustheit / Tonsignal
URNurn:nbn:at:at-ubl:1-15490 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Audio Identification via Fingerprinting [15.37 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Englisch)

In this thesis we approach the task of audio identification via audio fingerprinting, with the special emphasis on the complex task of designing a system that is highly robust to various signal modifications. We build a system that can account for linear and non-linear time-stretching, pitch-shifting and speed changes of query audio excerpts, as well as for severe noise distortions. We motivate the design of yet another fingerprinting method to complement the rich number of proposed methods and research in this field. In this thesis we propose a novel, efficient, highly accurate and precise fingerprinting method that works on geometric hashes of local maxima of the spectrogram representation of audio signals. We propose to perform the matching of features using efficient range-search, and to subsequently integrate a verification stage for match hypotheses to maintain high precision and specificity on challenging datasets. We gradually refine this method from its early concept to a practically applicable system that is evaluated on queries against a database of 430000 tracks, with a total duration of 3.37 years of audio content.

Our proposed method is the first in the academic literature that is shown to be able to cope with severe signal modifications while being applicable to large reference collections. This claim is supported via rich evaluation on manually crafted data that is modified in the range of +-30% in speed, time-stretching and pitch scale modifications. We further evaluate the system on noise-distorted queries, and show the influence of various parameters on the resulting identification performance and processing run times. We identify the task of DJ mix monitoring to be one of the most challenging application areas for audio fingerprinting, due to the vast amount of signal modifications that can be introduced by performers. We observe that the identification performance of systems can suffer tremendously when applied to DJ mixes, much more so than on manually crafted evaluation datasets, since it is hard to create test cases that cover the variety of modifications that can be encountered in DJ-mixes. To close this gap in evaluation methodology, we manually compile and annotate a free dataset of DJ mixes to support the research community in investigating and evaluating particular strengths and weaknesses of proposed systems. In this thesis we make use of this dataset for extensive evaluation of our method. Finally, we show the possibility of building a sequence detection program on top of the fingerprinter, to enable the monitoring of long query recordings for either interactive analysis or fully automated result reporting.

Zusammenfassung (Deutsch)

Diese Dissertation befasst sich mit dem Thema Audioidentifikation mittels Audio-Fingerprinting. Im Zuge dieser Arbeit wird der Stand der Forschung durch ein effizientes- und höchst präzises System mit starker Robustheit gegenüber Signalmodifikationen erweitert. Dieses System ist unter anderem robust gegenüber linearen und nicht-linearen Modifikationen der Zeit- und Frequenzdimension von Audiosignalen. Die Funktionsweise basiert auf skalierungsinvarianten Darstellungen lokaler Maxima im Audiospektrogramm, die mittels Bereichssuche in einem vierdimensionalen Merkmalsraum verglichen werden. Ermittelte Übereinstimmungen werden einer Verifikationsmethode unterzogen, die es ermöglicht Abfragen höchst präzise und spezifisch zu beantworten. Durch schrittweise Verfeinerung wird ein praktisch anwendbares System realisiert, dessen Eigenschaften auf einer Referenzsammlung von 430.000 Audiotracks mit einer Spieldauer von insgesamt etwa 3,37 Jahren untersucht und evaluiert werden.

Diese Arbeit beschreibt das erste System in der wissenschaftlichen Literatur, das robust gegenüber starken Signalmodifikationen ist und gleichzeitig effizientes Suchen in großen Datensammlungen ermöglicht. Das System wird anhand von Experimenten mit manuell erstellten Testfällen ausgewertet, in denen die Zeit- und Frequenzdimension im Audiosignal Modifikationen von bis zu +-30% unterliegt. Weiters werden Parameterstudien und Laufzeitmessungen präsentiert. Eine der größten Herausforderungen für automatisiertes Audio-Fingerprinting ist die Track-Identifikation in DJ-Mixes, da ein DJ das Audiosignal nahezu uneingeschränkt modifizieren kann. Die Genauigkeit von Fingerprinting-Systemen kann auf DJ-Mixes weitaus geringer ausfallen als auf manuell modifizierten Testsignalen. Der Grund hierfür liegt in der Schwierigkeit, die Menge der in DJ-Mixes potentiell auftretenden Signalmodifikationen durch manuell erzeugte Testfälle abzudecken. Um diese Diskrepanz zu überbrücken erstellen und veröffentlichen wir einen für Forschungszwecke frei verfügbaren DJ-Mix-Datensatz samt Annotationen, und werten das vorgestellte System mit zahlreichen Experimenten auf diesem Datensatz aus. Weiters wird ein Sequenzdetektor für Media-Monitoring beschrieben, der als Erweiterung des Fingerprinters dazu dient, Abfragen von langer Spieldauer zu analysieren und zu segmentieren.

Statistik
Das PDF-Dokument wurde 128 mal heruntergeladen.