Aus dem Unterrichts im CAS AI Management mit Barnaby Skinner berichten Armin Ledergerber und Patrick S.:

Wie die Wissenschaft der Daten den Journalisten augmentieren, Algorithmen den Journalisten gar ersetzen und die Verbreitung von Inhalten durch intelligente Systeme gesteuert wird, hat Barnaby Skinner anschaulich erläutert. Der Journalist leitet das Ressort Visuals bei der NZZ und war vorher Leiter Datenjournalismus bei Tamedia. 

COVID-19 hat gezeigt, wie wichtig verlässliche Daten für die Einschätzung des Pandemie-Verlaufs und die Wirkung der verordneten Massnahmen sind. So wie diese Krise für viele Unternehmen ein Beschleuniger für die Digitalisierung von Geschäftsprozessen und der virtuellen Zusammenarbeit darstellt, hat sie auch die Verlage nicht unberührt belassen: Zwar verzeichnen sie eine rekordhohe Nachfrage, werden aber von wegbrechenden Werbeeinnahmen gebeutelt. Und was bedeutet Corona für das Handwerk des Journalisten? 

Von der menschlichen Quelle zur Datenquelle

Daten sind in letzter Zeit ins Zentrum des journalistischen Interesses gerückt. Die Beiträge zum Verlauf der Pandemie fussen nicht mehr primär auf einer Institution oder Person als Quelle, sondern ziehen die Story aus Datenreihen. Sekundärquellen wie das COVID-19 Data  Repository der Johns Hopkins University oder die täglich aktualisierten Fallzahlen der Schweiz und Lichtenstein, bereitgestellt vom Statistischen Amt des Kantons Zürich, stellen den Aufmacher dar. Artikel mit Daten und Fakten zum Coronavirus, gespickt mit ausgeklügelten Visualisierungen und Plots von Datenreihen, rangieren über längere Zeit unter den meistgelesensten Artikeln der Newsportale. Barnaby Skinner beweist im Unterricht mit dem Einblick in seinen Alltag, dass Datenpipelines, Python und Jupyter Notebooks auch in den Redaktionsräumen keine Fremdworte sind.

Visualisierte Daten in einem Artikel der Neuen Zürcher Zeitung

Die Visualisierung in der Neuen Zürcher Zeitung als Beispiel, wie Datenjournalismus funktioniert. Die Plots zeigen die tägliche Anzahl der Coronavirus-Toten als gleitender Durchschnitt über die letzten 7 Tage.

Algorithmen automatisieren den Journalismus

So wie die Datenwissenschaft den Journalisten augmentiert und neue Betrachtungsweisen auf Zahlen und Daten ermöglicht, so zeigen sich in derselben Disziplin auch disruptive Kräfte: «Extraordinary advances in machine learning in recent years have resulted in A.I.s that can write for you.», textete der New Yorker im Oktober letzten Jahres. In der ausführlichen Reportage zu GPT-2, dem AI-Writer von OpenAI sinnierte der Autor, wie sich sein Beruf wohl verändern wird.

Natural Language Generation ist zwar nicht neu, hat jedoch mit den Entwicklungen im Bereich des maschinellen Lernens massive Fortschritte gemacht. Früher waren es regelbasierte Systeme, welche aufgrund von strukturierten Informationen und Textbausteinen Artikel generierten. Heute sind es Schnittstellen (APIs), über welche solche “AI-Writers” ihre Rohdaten beziehen. Der Mensch legt lediglich noch Kriterien wie Textlänge oder -tonalität fest. Der trainierte Algorithmus wählt die verwendeten Wörter und setzt diese grammatikalisch korrekt in syntaktisch schlüssige Reihenfolge. Vorreiter in diesem Bereich sind, so die Einschätzung von Skinner, Bloomberg und Associated Press. Letztere erstellt seit 2014 automatisierte Berichte zu von Unternehmen veröffentlichten Quartalszahlen mithilfe der Software Wordsmith von Automated Insights. 

AI steuert Verbreitung, Zugang und Konsum von News

Algorithmen zur Personalisierung von Suchergebnissen oder News- und Social-Media-Feeds sind nichts unbekanntes. Unter dem Stichwort “Filter Bubble” sind diese Praktiken der Informationsselektion, entsprechend den Ansichten des Nutzers, bekannt. Gemäss Skinner versuchen Medienunternehmen daher, mit auf Mikro-Zielgruppen zugeschnittenen Inhalten ihre Relevanz zu steigern. Einen anderen Weg beschreitet die Neue Zürcher Zeitung mit dem Projekt “Dynamic Paygates”. Das von Googles Digital News Innovation Fund alimentierte Projekt hat erreicht, dass mit einer AI-gesteuerten Bezahlschranke die Anzahl frei zugänglicher Artikel abhängig des Nutzungsverhaltens bestimmt wird und sich dadurch eine Verfünffachung der Conversion Rate bei Bezahlinhalten gezeigt hat. 

Google fördert mit den finanziellen Beiträgen an solche Initiativen aber nicht nur Verlage und den Journalismus, sondern ist selbst auch (umstrittener) News-Kurator. Google News bietet auf der Website und via iOS- und Android-App von Algorithmen kuratierte und personalisierte Inhalte von registrierten Verlagen an. Lediglich in der Rubrik “Featured” werden Artikel durch das Google News Team selektiert. Im Gegensatz zu klassischen Verlagen und ihrer Redaktion verzichtet Google auf eine journalistische Auswahl der Themen. 

In diesem Kontext weist Skinner auf die Problematik der vollständigen Automatisierung hin: Im Jahr 2008 hatte der Algorithmus nämlich einen Artikel der Sun-Sentinel aus dem Jahr 2002 indexiert und auf der News-Seite referenziert. Es handelte sich dabei um die Nachricht, dass United Airlines den Konkurs eröffnet hat. Ein Mitarbeiter von Bloomberg hat diese vermeintlich neue Meldung auf dem Nachrichtendienst veröffentlicht. In der Folge ist der Aktienkurs um 75% eingebrochen. 

Diese wahre Geschichte illustriert, dass die AI im Journalismus nicht nur neue Möglichkeiten schafft. Wie alle Technologien können sie bei einer unkritischen Herangehensweise auch sprichwörtlich Turbulenzen verursachen.

Programmierung mit Python

In der zweiten Tageshälfte gab es für jeden Teilnehmer hands-on experience in Form eines Python Crashkurses.

Alle Teilnehmer konnten zusammen anhand des bereits von Skinner vorbereiteten Google Colaboratory Notebooks, die schon auf ein Minimum reduzierten must-know Python Basics durchgehen. Grundlagen wie:

wurden dabei Schritt für Schritt durchgegangen und selbständig ausprobiert.

Nach der Einführung wurde zusammen an einem kleinen Fallbeispiel eine Datenanalyse durchgeführt. Dabei wurde anhand der tagesaktuellen COVID-19 Sterbedaten von der John-Hopkins-Universität auf Github, die Ausgangsdatei in ein vorbereitetes Google Colaboratory Notebook eingelesen. Dort konnte jeder Teilnehmer unter der Erklärung von Skinner die einzelnen Codezeilen und Ergebnisse nachvollziehen. Ziel war es, mit dem vermittelten Wissen von Python eine Ahnung zu bekommen, wie der Prozess der Datenanalyse aussehen kann. Auch wurde gezeigt, wie mit der Datenbereinigung die Datensätze in eine brauchbare Form gebracht werden können. Damit soll auch eine bessere Darstellung erzielt werden. Weiterhin über den Import eines Plots aus der Library «matplotlib» die extrahierten aufbereiteten Daten vereinfacht grafisch visualisiert werden.

Code und Daten Plotting aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

Code und Darstellung Plotting aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

Unter Zuhilfenahme der Python basierten «matplotlib»-Library konnten zum Beispiel auch die Plots aller Länder in der Ausgangsdatei vereinfacht grafisch gegenübergestellt werden.

Code und Daten Darstellung aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

Code und Darstellung aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

 

Sentiment Analyse mit VADER

Zum Abschluss des Nachmittags präsentierte uns Skinner in einem weiteren Fallbeispiel den Datenverarbeitungsprozess bei der VADER-Sentiment-Analyse am Beispiel wie positiv, negativ und neutral die Tweets des gegenwärtigen amerikanischen Präsidenten formuliert sind. Ursprung dieses Fallbeispiels war die Fragestellung ob es zutrifft, dass der gegenwärtige Präsident durch seine Tweets mehr Zustimmung erhält oder diese eher abnimmt. 

Das VADER (Valence Aware Dictionary and sEntiment Reasoner) ist im Grunde ein Lexikon und ein regelbasiertes Tool zur Stimmungsanalyse, das speziell auf die in Englisch-sprachigen sozialen Medien zum Ausdruck gebrachten Inhalte abgestimmt ist.

Zusammengefasst nutzt der Algorithmus bei der Analyse in diesem Fallbeispiel ein Lexikon. Dieses beinahltet Wörter und Kontexte, die mit einem positiven, negativen und neutralen Wert bemessen wurden. Unter der weiteren Berücksichtigung von Interpunktionen und Gross- und Kleinschreibung gewisser Wörter ergaben sich je nach Kombination pro Tweet ein Wert zwischen -1 und +1. Mit einer sinnvollen Festlegung der Bandbreite, ab welcher ein Tweet als positiv, negativ oder neutral gilt, konnten somit entsprechende Analyseergebnisse erzielt werden.

Den Code des Fallbeispiel haben wir uns diesmal auf den Jupyter Notebook angesehen. Für das Beispiel galt es noch Python Data Analysis Library pandas, dem Phyton Built-in Module math zu installieren. Skinner erläuterte uns kurz die einzelnen Codeblöcke zum Import, Datenbereinigung, Sentiment Analyse, Sentiment distribution und das Plotting sentiment. 

"<yoastmark

"<yoastmark

"<yoastmark

"<yoastmark

Ein interessanter und lehrreicher Vorlesungstag ging zu Ende. Vielen Dank Barnaby Skinner.

 

Weitere Blogbeiträge zum CAS AI Management findet ihr hier.