Aus dem Unterricht des CAS Disruptive Technology Data Science (part 1) mit Simon Hefti berichtet Mensur Kutleshi ergänzend zum Blogbeitrag von Michael Kemmer.

Gleich zu Beginn wird klar, dass ein solch spannendes Thema breite Erwartungen erzeugt, welche Inhalte und Fragen zu diskutieren sind.

Set the scence

Gut, dass die knifflige Frage der Definition von Big Data gleich zu Beginn geklärt wird. Ganz allgemein ist Big Data «Eine Reihe von Methoden und Werkzeugen, die für datengesteuerte Wertschöpfung verwendet wird». Es geht dabei hauptsächlich um die Datenmenge (Volume), die Veränderungsgeschwindigkeit der Daten (Velocity) und die Datenvielfalt (Variety).

Der Begriff Big Data wird seit paar Jahren zu einem Modewort gepusht, genauso wie auch andere Begriffe wie zum Beispiel Artifical Intelligence. Im Rahmen der Datenwissenschaft – bei der es um die generelle Extraktion von Wissen aus Daten geht – wird es jedoch im Grunde schon seit langem betrieben. Nur sind wir in einem Zeitalter gelangt, in der in jedem Bereich mit Daten gearbeitet wird und der Begriff Daten sich gut als Rohstoff verkaufen lässt. Trotz dieser steigenden Entwicklung scheinen wird doch erst am “Anfang” zu sein, wie wir Daten nutzen. Wie bis anhin wird es auch zukünftig exponentiell weitergehen.

Strukturierte vs. unstrukturierte Daten

Die grundlegendste Unterteilung von Daten ist in unstrukturierte und strukturierte Daten. Unstrukturierte Daten sind Daten, die noch nicht bearbeitet wurden, wie beispielsweise ein Lied. Es ist sogar bei unstrukturierten Daten möglich ein Muster herauszuziehen bzw. diese strukturieren.

Um beim Beispiel des Lieds zu bleiben und zu zeigen, wie viel aus unstrukturierten Daten herausholen ist, hat uns der Dozent ein musikalisches Highlight präsentiert. Als Datenbasis standen die letzten 50 Jahre der Schweizer Musik Charts zur Verfügung, die dann eindrücklich in einem Datenuniversum visualisiert. Die einzelnen Lieder wurden nach eher traurigen oder eher fröhlichen Lieder aufgeteilt – und somit bereits zum ersten mal strukturiert. Der Grössenumfang der Punkte stellte dar, wie weit das Musikstück in den Charts geschafft hat. Somit entstand ein interaktives Bild, in der man durch die Datengalaxy und auf verschiedenen Planeten (einzelne Songs) fahren konnte, wobei gleich anschliessend die Musik laufen lies. Eine gelungene Demo, die aufzeigt, dass die Kombination von Daten mit Visualisierung ein mächtiges Werkzeug ist.

Herausforderungen

Um Daten für Entscheidungen zu nutzen, ist es wichtig, ein breite Datengrundlage zu haben. Unternehmen sind bestrebt mehr und mehr Daten zu sammeln. Einer der Hauptherausforderungen ist die Skalierung von Big Data. Es muss darauf geachtet werden, dass:

  • Datenvolumen: Daten von vielen verschiedenen Kunden sammeln
  • Datengeschwindigkeit: in welcher Periode und Periodizität sollen Daten für die Analyse zur Verfügung stehen.
  • Datenkomplexität verstehen: wie stehen die Daten zueinander, welche Abhängigkeiten gibt es

Des Weiteren sollte Big Data ganzheitlich betrachtet werden in der alle Schritte wichtig sind und auszuführen sind. Ein möglicher Ansatz stellt folgende Grafik dar:

Bei Grossprojekten, wo viele Daten und aus verschiedenen Quellen zusammenkommen, müssen diese verknüpft werden, weil ansonsten eine Silosicht entsteht.

GDPR

Als Zusatz – und damit die Erwartungen der Studenten erfüllt wurden – wurde über das aktuelle Thema GDPR diskutiert. Kurz zusammengefasst gibt es beim GDPR 2 Musskriterien und ein Kann-Kriterium:

  • Musskriterien
    • Ein Unternehmen muss sein Datenuniversum kennen.
    • Die Veränderung der Daten muss in einem Verzeichnis nachgeführt werden.
  • Kannkriterien
    • Falls die Kundendaten genutzt werden, braucht es einen Nachweis, dass der Kunde die Verarbeitung zugestimmt hat.