bbdc logo transpa 2021

Daten

Die Daten stehen zum Download bereit: bbdc_2021_public_data.zip (Dateigröße ca. 8GB).

Update 30.04.2021: Die Referenzlabels stehen nun ebenfalls zum Download bereit: test.csv.

Aufgabenstellung

In der Bremen Big Data Challenge 2021 geht es um das Detektieren von akustischen Ereignissen mit einem Störgeräusch-Hintergrund. Hierfür liegen Tondateien von 10 Sekunden Länge vor, in welchen mindestens zwei und maximal vier Ereignisse auftreten. Es gibt keine Überlappung von Ereignissen, d.h. zu jedem Zeitpunkt tritt nur maximal ein Ereignis auf. Die Aufgabe ist es, innerhalb der Testdaten alle Ereignisse sowie deren Start- und Endzeitpunkte zu bestimmen.

Die folgenden Ereignisse sind zu unterscheiden:

  • Shatter
  • Doorbell
  • Cough
  • Church_bell
  • Fireworks
  • Meow
  • Bark
  • Shout
  • Camera
  • Scratching_(performance_technique)
  • Burping_and_eructation
  • Cheering

Die Tondateien liegen als .wav Dateien und die Annotationen als .csv Dateien vor. Die Annotationen geben in jeder Zeile ein Ereignis mit Start- und Endzeitpunkt, sowie die Tondatei an. Es kann mehrere Ereignisse pro Datei geben. Diese sind dann in verschiedenen Zeilen gelistet. Die Annotationen haben folgendes Format (onset entspricht dem Start- und offset dem Endzeitpunkt):

 

filename,onset,offset,event_label
00001_mix.wav,2.8521429192297485,3.8521429192297485,Cheering
00001_mix.wav,5.468055921327309,6.468055921327309,Church_bell
00002_mix.wav,0.4330880728874676,1.4330880728874675,Doorbell
...

  

Die Trainingsdaten bestehen aus ca. 28 Stunden Audiodaten und die Testdaten aus ca. 8 Stunden.
Die Abgabe ist mittels einer .csv Datei durchzuführen, die das gleiche Format wie die Annotationsdatei des Trainings besitzt. Dabei ist es wichtig, dass die Schreibweise (inkl. Groß-/Kleinschreibung) der textuellen Labels (Ereignisse) mit der Schreibweise der Labels in den Trainingsdaten exakt übereinstimmt.

Die csv-Datei mit eurer Abgabe ladet ihr bitte wie gewohnt hier hoch: https://bbdc.csl.uni-bremen.de/submission

 

Fast-Fourier-Transformation

Dieses Jahr stellen wir ein kurzes Python-Skript zur Verfügung mit dem ihr Frequenzen aus den Tondaten extrahieren und möglicherweise als Features für eure Ansätze nutzen könnt. Die Frequenzen werden via Fast-Fourier-Transformation auf Blackman Fenstern des Signals gewonnen und sehen als Plot folgendermaßen aus:

00020 mix 

 

Das Skript benötigt eine lokale Python3-Installation und kann inklusive Anleitung hier heruntergeladen werden: FFT_Skript.zip

 

Scoring

Die Abgaben werden mithilfe des Polyphonic Sound Detection Score (PSDS) evaluiert. Jedes erkannte Ereignis wird mit der Grundwahrheit abgeglichen und akzeptiert, wenn das erkannte Ereignis korrekt ist, es den Großteil des wahren Ereignisses abdeckt und nicht allzu weit darüber hinaus geht. Ein höherer Score ist besser.

Ihr könnt eigene Trainings- und Testsplits zur Parameterevaluation oder Performanzabschätzung erstellen und mit dem PSDS-Score evaluieren. Hierfür stellen wir ebenfalls ein Python-Skript und Jupyter-Notebook zur Verfügung. Das Notebook kann lokal oder auch in einer beliebigen Cloud-Umgebung genutzt werden. Mehr Infos in der Anleitung und im Skript hier: Evaluation_Notebook.zip

 

Die exakte PSDS-Definition könnt ihr in folgendem Paper nachlesen: A Framework for the Robust Evaluation of Sound Event Detection (https://arxiv.org/abs/1910.08440).