Die Fakultät für Elektrotechnik und Informatik veranstaltet in Zusammenarbeit mit dem Gründungsservice "starting business" der Leibniz Universität Hannover einen Data Science Hackathon. Es geht um die Extraktion, Vorhersage und Visualisierung von Informationen aus verschiedenen Datensätzen.

Es werden umfangreiche Datensätze zu den Themen Mobilität, akademische Suchmaschinen und Social Streams vorgegeben. Aus diesen Datensätzen sollen Informationen extrahiert, vorhergesagt und visualisiert werden. Die Aufgaben sollen in Teams bearbeitet werden, die sowohl vorab als auch zu Beginn des Hackathons gebildet werden können.

Alle Studierenden der der Fakultät ET-INF sowie der anderen Fakultäten der Universität sind herzlich eingeladen, an diesem Hackathon teilzunehmen. Es gibt wertvolle Preise zu gewinnen, die durch eine Expertenjury vergeben werden.

Die Teilnehmerinnen und Teilnehmer werden gebeten, eigene Laptops zu verwenden. Die Datensätze werden zur Verfügung gestellt bzw. sind öffentlich verfügbar. Alle notwendigen Tools sind öffentlich verfügbar und sollten möglichst vorab installiert werden.

Eine Anmeldung ist bis zum 12.4.2018 erforderlich. Für Verpflegung ist während der gesamten Veranstaltung gesorgt.

Zeit

  • Start: Freitag, 20. April, 11:00 Uhr
  • Ende: Samstag, 21. April, 14:00 Uhr

Ort

Anmeldung

  • über Stud.IP
  • Anmeldeschluss: 12. April, 23:59 Uhr

Freitag, 20.4.

  • 11:00 Uhr: Eröffnung und Begrüßung, Teamfindung
  • 12:00 Uhr: 24-Stunden-Hackathon mit Verpflegung

Samstag, 21.4.

  • 12:00 Uhr: Präsentation der Ergebnisse
  • 13:00 Uhr: Beratung der Jury
  • 13:30 Uhr: Bekanntgabe der Gewinner
  • 14:00 Uhr: Ende des Data Science Hackathons

Der Gründungsservice "starting business" stiftet Preise im Wert von mehr als 500 Euro für die Gewinnerteams.

Dataset description

This dataset is about taxi trips in Thessaloniki, Greece from January 1 – March 31 2015 of about 1000 taxis. Each trip is described in terms of six variables: trip id, taxi id, timestamp, starting latitude, starting longitude, and revenue class. A description of the dataset can be found here. This dataset was part of the EPIA 2017 challenge. External data sources can be used to enrich the data, e.g., information about holidays and observances in Greece at that period.

Potential tasks and scenarios

  • Predict the revenue class of future unseen trips (original EPIA challenge)
  • Predict taxi demand for different areas of the city or points of interest
  • Predict fare-specific taxi demand for different areas
  • Understand the taxi flow on a daily, weekly, etc. basis

Tools

For the analysis you can use

  • Java (Weka, Moa)
  • Python (Jupyter, Numpy, Scipy, Sklearn, Pandas...)
  • R (a sample submission is already provided by EPIA 2017)

For the visualization you can use

  • Google Maps
  • Tableau

Dataset description

The dataset contains metadata on tweets (the original text is not shared due to Twitter's terms and conditions) from January 1 – November 30 2017 (11 months).

The dataset (#238.546.750 tweets) was collected via the Twitter API and represents a ~1% random sample of the public Twitter volume during that time. Each tweet is represented by tweet id, date, number of followers, number of friends, number of retweets, number of favourites, a sentiment score, mentions, hashtags and typed entities.

The original text cannot be shared due to Twitter’s terms and conditions. The sentiment score, the entities and the typed entities were extracted from the original text using SentiStrength, FEL and Stanford NLP, respectively.

Possible use cases

  • Temporal sentiment analysis
  • Aspects sentiment analysis
  • Geographical sentiment analysis
  • Temporal network analysis
  • Combinations of the above, e.g., Temporal geospatial sentiment analysis

Tools

For the analysis you can use

  • Java (Weka, Moa)
  • Python (Jupyter, Numpy, Scipy, Sklearn, Pandas...)
  • Spark
  • Tensorflow

For the visualization you can use

  • Mapbox, Grafana (Graphite, Elasticsearch, InfluxDB, MySQL, Postgres)
  • neo4j (graph database)

Dataset-Beschreibung

Der Datensatz beinhaltet eine Teilmenge der Papers (wissenschaftliche Artikel aus Teilgebieten der Informatik), die auf dem Pre-Print Server arxiv.org zu finden sind. Zu diesen Papers werden außerdem Metadaten zur Verfügung gestellt.

mögliche Aufgaben und Szenarien

  • Entwurf eines neuen grafischen Interfaces
  • Entwurf von Übersichten über Themengruppen
  • Visualisierung der zeitlichen Entwicklung der Popularität von Forschungsthemen
  • Personalisierung: Empfehlen von relevanten Artikeln auf Basis der Papersammlung eines Nutzers

empfohlene Tools

Dataset-Beschreibung

Diese Datensätze enthalten Daten über Taxifahrten der yellow cabs und green cabs in New York aus dem Jahr 2016. Die Attribute umfassen u.a. vendor id, pickup date/time, pickup location, dropoff date/time, dropoff location, rate code, passenger count, trip distance, fare amount, tip amount, tolls amount, payment type und trip type.

mögliche Aufgaben und Szenarien

  • Visualisierung der Szeneviertel, in denen abends ausgegangen wird
  • Visualisierung verschiedener Kategorien von Stadtteilen (wohnen, arbeiten, ausgehen, etc.)
  • Visualisierung von oft frequentierten Routen und Orten, Visualisierung von Umwegen

empfohlene Tools