Daten
Die Daten
stehen zum Download bereit: bbdc-2017-aufgabe-daten_v2_mit_referenz.zip (~2MB)
Updates:
- [02.03.2017] Korrektur des Beginns der vorlesungsfreien Zeit des Wintersemesters 2008/09
- [08.05.2017] Die Daten enthalten nun die Referenz für das Jahr 2016
Aufgabenstellung
In der diesjährigen Bremen Big Data Challenge geht es darum, die Besucherzahlen der Mensa auf dem Universitäts-Campus (Mensa Universität am Boulevard) vorherzusagen. Ihr erhaltet die Besucherstatistiken mehrerer Jahre ("Trainingsdaten") in Blöcken von jeweils fünf Minuten Länge zum Training eines Vorhersagemodells und müsst die Zahlen für entsprechende Blöcke des Jahres 2016 ("Testdaten") prädizieren. Die Besucherzahl wird dabei gemessen in der Anzahl abgerechneter Belege (unabhängig vom Umsatz) innerhalb des Blocks, akkumuliert über alle Kassen der Mensa. Neben den Zeitpunkten und Besucherzahlen habt ihr auch noch die Möglichkeit, weitere Datenquellen (z.B. über das Wetter oder die Vorlesungszeiten) hinzuzuziehen, von denen wir euch einige zur Verfügung stellen.
Alle Daten liegen als CSV-Dateien (comma separated values) vor. Die ersten drei Zeilen der Trainingsdaten (train.csv) sehen wie folgt aus:
Datum,Anzahl_Belege
2009-01-05 11:20:00,2
2009-01-05 11:25:00,0
2009-01-05 11:30:00,89
Dabei enthält die erste Spalte Datum und Startzeitpunkt des jeweiligen Blocks und die zweite Spalte die Anzahl der in dieser Zeit abkassierten Kunden der Mensa. Die Testdaten (challenge.csv) haben folgendes Format:
Datum,Anzahl_Belege
2016-01-01 00:00:00,x
2016-01-01 00:05:00,x
2016-01-01 00:10:00,x
Dabei enthält die erste Spalte wieder Datum und Startzeitpunkt des jeweiligen Blocks, die zweite Spalte enthält konstant den Buchstaben x
, um anzuzeigen, dass dieser Wert nicht vorlieggt. Wenn ihr Lösungen einreicht, dann soll eure Abgabe genau den Testdaten entsprechen, wobei jedes x
durch eine nicht-negative Zahl (nicht notwendigerweise ganzzahlig) ersetzt wurde. Diese Zahl entspricht eurer Schätzung der Besucherzahl für den dazugehörigen Block.
Jede Abgabe wird mittels eines Fehlerscores bewertet, um das Ranking der Teilnehmer zu ermitteln. Dabei gilt: Je niedriger der Fehlerscore, desto besser der Rang der Einreichung. Der Fehlerscore wird als Root Mean Squared Error (RMSE) zwischen den vorhergesagten Besucherzahlen und den tatsächlichen Besucherzahlen berechnet:
Mit
- $n = $ Anzahl der 5-Minuten-Blöcke
- $ref_i = $ Anzahl der in Block $i$ abgerechneten Belege ("reference")
- $pred_i = $ Eure Schätzung der in Block $i$ abgerechneten Belege ("prediction")
Um eure Prädiktion zu verbessern, könnt ihr über das Datum und die Uhrzeit hinaus auf weitere Datenquellen zugreifen. Einige stellen wir euch zur Verfügung, ihr könnt euch aber auch weitere Möglichkeiten überlegen und einbinden. Wichtig: Die Tatsache, dass wir euch diese Daten zur Verfügung stellen, impliziert nicht, dass diese Daten auch verwertbare Informationen enthalten.
Von uns bekommt ihr (gezeigt sind jeweils die ersten Zeilen):
- Datum von Beginn und Ende der Vorlesungszeit im Betrachtungszeitraum (Datei: Semesterzeiten.csv)
WS,2016/17,Veranstaltungszeit,17.10.16,03.02.17 WS,2016/17,Veranstaltungsfrei,24.12.16,06.01.17 WS,2016/17,Orientierungswoche,10.10.16,14.10.16 SS,2016,Veranstaltungszeit,04.04.16,08.07.16 WS,2015/16,Veranstaltungszeit,12.10.15,05.02.16
- Entwicklung der Studierenden- und Mitarbeiterzahlen im Betrachtungszeitraum (Datei: UniStudierende.csv, UniPersonal.csv)
Typ,Zeit,Studierende WS,2016/17,19531 SS,2016,18725 WS,2015/16,20141 SS,2015,18490
Jahr,Personal 2009,3243 2010,3359 2011,3457 2012,3366
- Wetterdaten des Deutschen Wetterdiensts für Bremen im Stundentakt im Betrachtungszeitraum (Datei: wetterDaten.csv)
MESS_DATUM,NIEDERSCHLAG_GEFALLEN_IND,NIEDERSCHLAGSHOEHE,NIEDERSCHLAGSFORM,LUFTTEMPERATUR,REL_FEUCHTE,STUNDENSUMME_SONNENSCHEIN,WINDGESCHWINDIGKEIT,WINDRICHTUNG 2009-01-01 00:00:00,0.0,0.0,0.0,-3.1,93.0,,2.1,290 2009-01-01 01:00:00,0.0,0.0,-999.0,-2.5,91.0,,2.4,310 2009-01-01 02:00:00,0.0,0.0,0.0,-2.5,87.0,,3.8,350 2009-01-01 03:00:00,0.0,0.0,0.0,-2.7,89.0,,1.6,40
- Speisepläne der Mensa für Teile des Betrachtungszeitraums (Datei: Speisepläne.csv)
DATUM,"Aufläufe, Gratin & Co",Beilagen,Desserts & Co.,"ESSEN I € 2,35 / € 4,35 / € 5,35","ESSEN II € 1,35 / € 3,15 / € 3,95","Pasta, Suppen & Co.","Pfanne, Wok & Co.",Vegetarisch & Co. 2015-01-17,,,,,[X],,, 2015-01-18,,,,,,,, 2015-02-16,"Tiroler Apfelstrudel mit Vanillasauce [V] € 2,70",Pommes frites / groß Pommes frites / klein Baked potato / Sour Cream Petersilienkartoffeln Parpadelle Möhrengemüse,"Gratiniertes Schweinerückensteak ""Strindberg"" mit Senf - Zwiebelhaube, Mandelbrokkoli Kroketten [S] € 5,90",Currywurst mit Pommes frites & pikanter Currysauce [S] Dessert,Lauch-Käsesuppe [V],">>Pizza Prosciutto << mit Kochschinken, grüne & rote Paprika, Champignons, Peperoni & Käse [S] € 3,10","Knusprig gebratene Entenbrust auf Paprika-Mango-Gemüse Parpadelle [G] oder Grünkohl Salzkartoffeln € 5,90","Backkartoffel mit Champignons, Zwiebeln & Sour Cream [V] € 3,10"
Wichtig: Die Tatsache, dass wir euch diese Daten zur Verfügung stellen, impliziert nicht, dass diese Daten auch verwertbare Informationen enthalten. Wir empfehlen euch daher, zunächst ein funktionierendes Basissystem zu entwickeln und dann Schritt für Schritt ausgewählte Datenquellen hinzuzufügen.
Gesponsert von:![]() |
Unterstützt durch:![]() |