Life Cycle Data management: Big or Small Data

Die Referenten Simon Caspar (POM+) und Lukas Stöcklin (POM+) haben einen sehr spannenden und kurzweiligen Vormittag gestaltet. Das Modul “Life Cycle Data Management: Big or Small Data” vom 06.10.2018 im Studiengang  CAS Digital Real Estate hat uns optimal in die Welt von Big Data und Data Science eingeführt. Es berichtet Martin Frei.

Big Data

Big Data wird häufig als Sammelbegriff für digitale Technologien verwendet, die in technischer Hinsicht für eine neue Ära digitaler Kommunikation und Verarbeitung und in sozialer Hinsicht für einen gesellschaftlichen Umbruch verantwortlich gemacht werden (R. Reichert: Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie, 2014).

Big Data verfolgt das Ziel, Zusammenhänge aus grossen Datenmengen zu erkennen und entsprechend Struktur und Erkenntnis daraus zu ziehen. Die Resultate sollten danach in einfach lesbaren Cockpits ersichtlich werden. Hichert und Partner haben in Sachen Visualisierung von Charts und Resultaten wegweisende Guidelines erstellt. Folgendes Video gibt einen kurzen Einblick über die häufigsten Fehler in der Darstellung von Daten.

Machine Learning

Die Dozenten haben anhand des “Titanic-Beispiels” aufgezeigt, wie aus mehrheitlich unstrukturierten Daten Erkenntnisse gewonnen werden können. Das Vorgehen einer Analyse wird meistens in folgende Steps unterteilt:

Nachdem Daten gesammelt und bereinigt und ein Datenmodell erstellt wurde, werden Testdatensätze verwendet, um das Modell zu trainieren. Mit den Methoden des Entscheidungsbaumverfahrens oder dem Random Forest Algorithmus wird das Modell trainiert.

Es gibt zwei Varianten des Machine Learnings:

  • Supervised Learning: Die Methode richtet sich also nach einer im Vorhinein festgelegten zu lernenden Ausgabe, deren Ergebnisse bekannt sind. Die Ergebnisse des Lernprozesses können mit den bekannten, richtigen Ergebnissen verglichen, also „überwacht“, werden.[Wikipedia]
  • Unsupervised Learning bezeichnet maschinelles Lernen ohne im Voraus bekannte Zielwerte sowie ohne Belohnung durch die Umwelt. Die (Lern-) Maschine versucht, in den Eingabedaten Muster zu erkennen, die vom strukturlosen Rauschen abweichen. [Wikipedia] Ein Künstliches neuronales Netz orientiert sich an der Ähnlichkeit zu den Inputwerten und adaptiert die Gewichte entsprechend. Es können verschiedene Dinge gelernt werden. Beliebt sind die automatische Segmentierung (Clustering) oder die Komprimierung von Daten zur Dimensionsreduktion.

Webservices

Um Daten aus vielen verschiedenen Systemen herausziehen zu können, sind Interfaces/Schnittstellen von grösster Wichtigkeit. Diese werden heutzutage meistens über Webservices genutzt. Hier hat sich SOA (Service Oriented Architecture) durchgesetzt. Diese Architektur ermöglicht es auch, eine Kette von verschiedenen Plattformen zu nutzen, um einen eigen Service anzubieten. Ein Beispiel ist eine Parkplatz App:

Die Vorteile von SOA beschreiben Stöcklin/Casper folgendermassen:

  • Mehr Schnelligkeit im Design von Geschäftsprozessen
  • Kostensenkung in der Softwareentwicklung
  • Qualitätssteigerung durch Wiederverwendbarkeit
  • Plattformunabhängig
  • Dienste im Netz verfügbar zu klaren Kosten
  • Wiederverwendbarkeit von Services
  • Realisierung von Skaleneffekten

Fragen

Folgende Fragen können nun aufgrund dieses Blogs beantwortet werden:

  1. Erkläre den Begriff BigData und was man damit bezweckt (Ziel)
  2. Was ist mit Machine Learning gemeint? Welche zwei Methoden gibt es?
  3. Was ist ein Webservice?
  4. Was bedeutet SOA und was sind die Vorteile?