bbdc 2818 cloud


Daten

Die Daten stehen zum Download bereit: bbdc-2017-aufgabe-daten_v2_mit_referenz.zip (~2MB)

Updates:

  • [02.03.2017] Korrektur des Beginns der vorlesungsfreien Zeit des Wintersemesters 2008/09
  • [08.05.2017] Die Daten enthalten nun die Referenz für das Jahr 2016

Aufgabenstellung

In der diesjährigen Bremen Big Data Challenge geht es darum, die Besucherzahlen der Mensa auf dem Universitäts-Campus (Mensa Universität am Boulevard) vorherzusagen. Ihr erhaltet die Besucherstatistiken mehrerer Jahre ("Trainingsdaten") in Blöcken von jeweils fünf Minuten Länge zum Training eines Vorhersagemodells und müsst die Zahlen für entsprechende Blöcke des Jahres 2016 ("Testdaten") prädizieren. Die Besucherzahl wird dabei gemessen in der Anzahl abgerechneter Belege (unabhängig vom Umsatz) innerhalb des Blocks, akkumuliert über alle Kassen der Mensa. Neben den Zeitpunkten und Besucherzahlen habt ihr auch noch die Möglichkeit, weitere Datenquellen (z.B. über das Wetter oder die Vorlesungszeiten) hinzuzuziehen, von denen wir euch einige zur Verfügung stellen.

Alle Daten liegen als CSV-Dateien (comma separated values) vor. Die ersten drei Zeilen der Trainingsdaten (train.csv) sehen wie folgt aus:

Datum,Anzahl_Belege
2009-01-05 11:20:00,2
2009-01-05 11:25:00,0
2009-01-05 11:30:00,89

Dabei enthält die erste Spalte Datum und Startzeitpunkt des jeweiligen Blocks und die zweite Spalte die Anzahl der in dieser Zeit abkassierten Kunden der Mensa. Die Testdaten (challenge.csv) haben folgendes Format:

Datum,Anzahl_Belege
2016-01-01 00:00:00,x
2016-01-01 00:05:00,x
2016-01-01 00:10:00,x

Dabei enthält die erste Spalte wieder Datum und Startzeitpunkt des jeweiligen Blocks, die zweite Spalte enthält konstant den Buchstaben x, um anzuzeigen, dass dieser Wert nicht vorlieggt. Wenn ihr Lösungen einreicht, dann soll eure Abgabe genau den Testdaten entsprechen, wobei jedes x durch eine nicht-negative Zahl (nicht notwendigerweise ganzzahlig) ersetzt wurde. Diese Zahl entspricht eurer Schätzung der Besucherzahl für den dazugehörigen Block.

Jede Abgabe wird mittels eines Fehlerscores bewertet, um das Ranking der Teilnehmer zu ermitteln. Dabei gilt: Je niedriger der Fehlerscore, desto besser der Rang der Einreichung. Der Fehlerscore wird als Root Mean Squared Error (RMSE) zwischen den vorhergesagten Besucherzahlen und den tatsächlichen Besucherzahlen berechnet:

$\text{RMSE} = \sqrt{\frac{1}{n} \cdot \sum\limits_{i=1}^{n}\left(ref_i - pred_i\right)^2}$
Mit
  • $n = $ Anzahl der 5-Minuten-Blöcke
  • $ref_i = $ Anzahl der in Block $i$ abgerechneten Belege ("reference")
  • $pred_i = $ Eure Schätzung der in Block $i$ abgerechneten Belege ("prediction")

Um eure Prädiktion zu verbessern, könnt ihr über das Datum und die Uhrzeit hinaus auf weitere Datenquellen zugreifen. Einige stellen wir euch zur Verfügung, ihr könnt euch aber auch weitere Möglichkeiten überlegen und einbinden. Wichtig: Die Tatsache, dass wir euch diese Daten zur Verfügung stellen, impliziert nicht, dass diese Daten auch verwertbare Informationen enthalten.

Von uns bekommt ihr (gezeigt sind jeweils die ersten Zeilen):

  • Datum von Beginn und Ende der Vorlesungszeit im Betrachtungszeitraum (Datei: Semesterzeiten.csv)
    WS,2016/17,Veranstaltungszeit,17.10.16,03.02.17
    WS,2016/17,Veranstaltungsfrei,24.12.16,06.01.17
    WS,2016/17,Orientierungswoche,10.10.16,14.10.16
    SS,2016,Veranstaltungszeit,04.04.16,08.07.16
    WS,2015/16,Veranstaltungszeit,12.10.15,05.02.16
  • Entwicklung der Studierenden- und Mitarbeiterzahlen im Betrachtungszeitraum (Datei: UniStudierende.csv, UniPersonal.csv)
    Typ,Zeit,Studierende
    WS,2016/17,19531
    SS,2016,18725
    WS,2015/16,20141
    SS,2015,18490
    Jahr,Personal
    2009,3243
    2010,3359
    2011,3457
    2012,3366
  • Wetterdaten des Deutschen Wetterdiensts für Bremen im Stundentakt im Betrachtungszeitraum (Datei: wetterDaten.csv)
    MESS_DATUM,NIEDERSCHLAG_GEFALLEN_IND,NIEDERSCHLAGSHOEHE,NIEDERSCHLAGSFORM,LUFTTEMPERATUR,REL_FEUCHTE,STUNDENSUMME_SONNENSCHEIN,WINDGESCHWINDIGKEIT,WINDRICHTUNG
    2009-01-01 00:00:00,0.0,0.0,0.0,-3.1,93.0,,2.1,290
    2009-01-01 01:00:00,0.0,0.0,-999.0,-2.5,91.0,,2.4,310
    2009-01-01 02:00:00,0.0,0.0,0.0,-2.5,87.0,,3.8,350
    2009-01-01 03:00:00,0.0,0.0,0.0,-2.7,89.0,,1.6,40
  • Speisepläne der Mensa für Teile des Betrachtungszeitraums (Datei: Speisepläne.csv)
    DATUM,"Aufläufe, Gratin & Co",Beilagen,Desserts & Co.,"ESSEN I   € 2,35 / € 4,35 / € 5,35","ESSEN II € 1,35 / € 3,15 / € 3,95","Pasta, Suppen & Co.","Pfanne, Wok & Co.",Vegetarisch & Co.
    2015-01-17,,,,,[X],,,
    2015-01-18,,,,,,,,
    2015-02-16,"Tiroler Apfelstrudel  mit  Vanillasauce [V] € 2,70",Pommes frites / groß Pommes frites / klein Baked potato / Sour Cream Petersilienkartoffeln Parpadelle Möhrengemüse,"Gratiniertes Schweinerückensteak ""Strindberg"" mit Senf - Zwiebelhaube, Mandelbrokkoli  Kroketten [S]  €  5,90",Currywurst mit Pommes frites & pikanter Currysauce [S] Dessert,Lauch-Käsesuppe  [V],">>Pizza Prosciutto << mit Kochschinken, grüne & rote Paprika, Champignons, Peperoni  & Käse [S]  € 3,10","Knusprig gebratene Entenbrust auf Paprika-Mango-Gemüse Parpadelle [G] oder Grünkohl  Salzkartoffeln € 5,90","Backkartoffel mit Champignons, Zwiebeln & Sour Cream  [V]  € 3,10"

 

Wichtig: Die Tatsache, dass wir euch diese Daten zur Verfügung stellen, impliziert nicht, dass diese Daten auch verwertbare Informationen enthalten. Wir empfehlen euch daher, zunächst ein funktionierendes Basissystem zu entwickeln und dann Schritt für Schritt ausgewählte Datenquellen hinzuzufügen.

 

Gesponsert von:

neuland
Unterstützt durch:

stuwe

 


UB  csl