Aus dem Unterricht des CAS Mobile Business zum Thema „BIG DATA AND THE MOBILE ECOSYSTEM“ mit Marcel Blattner berichtet Pascal Staub:

Eine spannende und sehr herausfordernde Vorlesung mit Marcel Blattner startete einmal nicht mit der obligaten Frage: „Was ist Big Data?“ sondern mit dem „Was Big Data eben nicht ist“. Die einen Studenten waren hoch erfreut, die andern total entsetzt, dass es heute Nachmittag nicht um Facebook, Google, Apple oder irgendwelche Plattformen und System ging.

In einer ersten Gruppenarbeit wurden intensiv über das Thema Daten diskutiert, wenn nicht sogar philosophiert. Was sind Daten? Was für Daten kennen wir? Sind Daten wichtig oder eben doch nicht? Es kann festgehalten werden, dass Daten – Werte, Zahlen, Befunde, Zeichen, Symbole oder die Beschreibung eines Ist-Zustanden sind – ABER keine Informationen. Data are a response to a given measurement.

Schon diese erste Gruppenarbeit zeigte uns Studenten, wie hochkomplex und teilweise sehr sureal das Thema „Big Data“ ist. Kommt noch erschwerend hinzu, dass alle Daten „biased“ sind. Sind die Daten verzerrt, befangen oder eben „biased“ sind dadurch auch die Resultate resp. Erkenntnisse „biased“ und es können keine Fakten generiert werden. Speziell taucht dieses „Bias Phänomen“ bei Daten auf, welche auf subjektiven Bewertungen (Hotelbewertung etc.) oder Kriterien beruhen. Dieser „Bias-Circle“ kann auch als „Teufelskreis der Datenanalyse“ bezeichnet werden.

Bias Circle

Nach dem intensiven Start mit korrupten Daten und parteiischen Erkenntnissen kamen wir zur eigentlichen Frage: „Was ist Big Data?“ Gartner definiert Big Data wie folgt:

Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making“.

Anhand der 3 V’s „Volume, Velocity und Variety “ wurde erneut intensive über Big Data diskutiert. Ist Big Data mehr Schein als sein?

Folie

Fazit der Diskussion:

  • Volume: mehr Daten heisst nicht mehr Informationen – Big Data ist nicht Big Volumen
  • Velocity: Daten müssen/können schnell wandelbar sein – Speed? Seldom an issue
  • Variety: viele unterschiedliche Datenquellen DAS mach die Musik.
  • THE ONLY ADDED VALUE COMES FOR VARIETY
  • Big Data ist „future driven“, blickt in die Zukunft und möchte etwas Voraussagen
  • Es muss die richtige und unternehmensbezogene Frage an die Daten gestellt werden

Nachdem wir nun wussten was „Big Data“ ist, wurde der Ablauf eines Big Data Projekts behandelt. Mittels des „What we want Circle“ hat uns Marcel Blattner eindrücklich die verschiedenen Phasen in einem Big Data Projekt näher gebracht. Uns wurde bewusst, dass nicht die Technologie sondern das Business im Vordergrund steht. Ein Zusammenspiel aus „number crunching“ und „human interpretation“ führt schlussendlich zum Erfolg.

What we want

Als Abschluss eines intensiven ersten Vorlesungsteils bleibt nur noch eine Frage zu klären. Wer kann so ein komplexes Big Data Projekt durchführen und erfolgreich über die Ziellinie bringen?

superman

Die simple Antwort: Nur ein Team oder vielleicht Superman! „Data Science“ ist eine interdisziplinäre Wissenschaft in der Fähigkeiten in den Bereichen „Math, Technology, Domain knowledge, Modeling and Visualization“ von Nöten sind. Da neben Superman keine reale Person über all diese Fähigkeiten verfügt, liegt es auf der Hand, dass ein Big Date Projekt nur im Team erfolgreich bewältigt werden kann. Die grösste Herausforderung dabei ist, dass alle eine einheitliche Sprache sprechen.

Sollte sich trotz allem einmal, ein Superman für den Job bei uns als „Data Scientist“ bewerben, so bleibt nur eins…. Teste diesen Superman! Bewerfe ihn mit dem „Yule-Simpson effect“ oder dem „Curse of dimensionality“ und zu guter Letzt, jage Ihn durch die „Kaggle competition“. Nun wird sich zeigen ob er der wahre Superman ist.

Im zweiten Teil der Vorlesung haben wir über Big Data in der Praxis gesprochen. Anhand eindrücklicher Beispiele konnten wir erleben wie Big Data in der heutigen Zeit funktioniert. Wir mussten einmal mehr erkennen, dass Big Data wirklich „BIG“ ist.

Unter dem Titel „The Web is driven by recommendations“ konnte wir in das „Recommender System“ von Amazon eintauchen. Erneut diskutierten wir – fast exzessiv – über den Sinn und Unsinn solcher Recommender Systeme. Und so blieb – welch Wunder –  nur folgende Feststellung:

The quest fort he ultimate recommender system – There is no ultimate recommender system

Mit der Erfolgsgeschichte von Netflix und der „Anatomy oft Netflix Personalization“ ging ein sehr intensiver, spannender aber auch extrem herausfordernder Nachmittag zu Ende.

BIG DATA – BIG GAIN OR BIG PAIN? Trotz den vielen neuen Informationen kann ich diese Frage noch nicht abschliessend beantworten. Ich musst jedoch feststellen, dass ich leider nicht Superman bin und daher Marcel Blattner’s „Final Statement“ nur beipflichten kann:

„We are not even close to have an idea what it really means to pair Big Data and Mobile“