Aus dem Unterricht des CAS Digital Insurance mit Dozent Markus Maurer berichtet Student Florian Schoeffel

Sprechen statt tippen! So kann das Thema im Allgemeinen zusammengefasst werden. «Voice User Interface (VUI)» bezieht sich auf ein System, das hauptsächlich Benutzereingaben über Sprachbefehle entgegennimmt und mit dem User via Sprachausgabe kommuniziert. Doch was braucht es, damit ein solches VUI funktioniert? Der Unterricht soll uns die Grundlagen für das Thema «Voice» vermitteln. Er zielt darauf ab, ein Gespür für den Einsatz rund um Voice Assistants zu entwickeln, um so potenzielle Anwendungsfälle ableiten zu können.

Entwicklung und bisherige Meilensteine

Grundsätzlich gibt es das Thema «Voice» schon seit mehreren Jahrzehnten. So kam die Speech Recognition erstmals im Jahr 1950, in Form einer sprachgesteuerten Maschine namens Audrey, auf den Markt. Es konnte gesprochene Zahlen von 0 bis 9 verstehen und hatte eine Genauigkeit von 90 Prozent. Dann kam im Jahr 1962 die IBM Shoebox hinzu, welche bereits fähig war 16 gesprochene Wörter zu verstehen. Die Entwicklung ging seither stetig weiter und ist wohl noch lange nicht am Ende. Darüber hinaus wird sie durch die immer weiterwachsenden Technologien unterstützt und es entstehen neue Chancen mit dem Einsatz von Voice Assistants.

Quelle: Skript aus dem Unterricht “Voice User Interfaces” mit Markus Maurer, 2020

Beispiele der Neuzeit

Ausserdem wurde die Sprachsteuerung in der jüngsten Vergangenheit immer relevanter und es entstanden bereits einige Beispiele mit riesigem Wachstumspotential. Zum Beispiel kennen wir alle die Sprachsteuerungs-Assistenten Siri, Google Assistant, Alexa und wie sie alle heissen. Jedoch sind dies nur die bekanntesten aller Beispiele. Mit anderen Worten, es gibt noch viele andere und heute noch nicht erforschte Anwendungsmöglichkeiten rund um «Voice». Das Hauptargument für den Nutzer ist die Bequemlichkeit. Dieser muss nämlich ausser seine Gedanken und Anliegen auszusprechen nichts mehr selber machen! Nicht zuletzt deswegen, wird das Thema «Voice» in der Zukunft an Bedeutung gewinnen.

Der Mensch ist ein sehr bequemes Wesen und geniesst die Bequemlichkeiten welche Voice Assistants bieten immer wie mehr.” – Markus Maurer

Wie funktioniert’s?

Zusammenfassend erlauben Voice User Interfaces eine freihändige und augenfreie Interaktion mit einem System, währenddessen die Aufmerksamkeit auf andere Bereiche gelenkt werden kann. Trotzdem sind VUIs letztlich lediglich die Schnittstellen zum Kunden. Der Kunde «weckt» den Assistenten mittels eines vorbestimmten Wortes wie z.B. «Google», spricht sein Anliegen aus und erhält eine entsprechende Antwort. Es klingt im ersten Moment sehr einfach, doch es verbirgt sich einiges mehr hinter diesen Stimmen. Das Bild verdeutlicht, dass einiges an Daten und Informationen ausgetauscht werden muss, bis der Nutzer schliesslich das Ergebnis erhält.

Quelle: archive.signalprocessingsociety.org

Automatic Speech Recognition (ASR)

Gemeint ist damit die automatische Spracherkennung. Zum Beispiel beinhaltet es das Wissen und die Forschungen in den Bereichen Informatik, Linguistik oder Computertechnik. Deshalb bezieht diese sich im Normalfall auf eine eigenständige Software.

Natural Language Processing (NLP)

Bezeichnet die Fähigkeit eines Programms, die menschlichen Sprachen zu verarbeiten und zu verstehen. Dazu gehört sowohl die Übersetzung einer Sprache in eine andere, aber auch das Erkennen um die Bedeutung. NLP ist zudem Bestandteil der künstlichen Intelligenz.

Natural Language Understanding (NLU)

Beschreibt das Verständnis durch den Computer, die Struktur und Bedeutung der menschlichen Sprache zu verstehen. NLU ermöglicht eine direkte Interaktion zwischen Menschen und Computer.

Conversational User Interface (CUI)

Damit sind die Plattformen gemeint, die ein Gespräch mit einem echten Menschen nachahmen können. Sie bieten dem Benutzer die Möglichkeit, mit dem Computer in seiner natürlichen Sprache zu kommunizieren. CUIs sind in zwei Untergruppen eingeteilt, zum einen in (textbasierte) Chatbots und zum anderen in (sprachbasierte) Voice User Interfaces.

Multimodal

Die Ausgabe eines Voice Assistent in Verbindung mit einem physischen Element (z.B. Tastatur) wird Multimodal genannt. Diese Elemente können die Spracherfahrung noch angenehmer und benutzerfreundlicher – unterstützt durch Visualisierungen – gestalten.

Voice-App

Zurzeit ist es noch nicht möglich, ohne Installation und Aktivierung einer Voice-App auf einem Smart Speaker etwas zu erledigen. Damit eine Interaktion vorgenommen werden kann, benötigt es eine Voice-App.

Die Aufzählung ist nicht abschliessend und es gibt noch einiges an Technologie und Wissenschaft, welche die Voice User Interfaces unterstützen resp. beliefern. In diesem Kontext ist es wichtig festzuhalten, dass Voice User Interfaces primär die Schnittstelle zum Kunden auf sprachlicher Basis bildet. Die einzelnen Elemente, welche die «Voice» beliefern, entwickeln sich stetig weiter und werden immer zuverlässiger und genauer.

“Bereits heute ist in Bezug auf Voice Assistants sehr vieles möglich. Mit Blick in die Zukunft wird jede App ein VUI integriert haben und den Alltag des Nutzers spürbar erleichtern.” – Markus Maurer

Touchpoints & Treiber

Voice User Interfaces erfüllen ein wichtiges Kriterium; Sie erleichtern den Alltag von Menschen. Der Mensch ist ein sehr bequemes Wesen und geniesst die effiziente Unterstützung, welche VUIs bieten. Es gibt einige Gründe und Hinweise, die darauf hindeuten, dass diese Form von Kommunikation zwischen Mensch und Computer in den nächsten Jahren steigen wird.

  • Die Anwendung ist kinderleicht, jeder kann mitmachen!
  • Die Sprache ist die angeborene API der Menschen – sie ist unsere natürliche Kommunikation
  • Unser Gehirn wird entlastet
  • Sehr schnell wachsende Technologie
  • Sprechen ist 3x schneller als Schreiben
  • Prinzip des geringsten Aufwandes
  • Multitasking – ermöglicht mehrere Dinge gleichzeitig zu erledigen
  • Evolution der Technologie
    …des User Interface
    …und Plattformnutzung
  • Pro-aktive Assistenz

Voice User Interfaces bereichern die digitale Transformation um ein weiteres Element und lassen bestehende Prozessschritte teilweise komplett überflüssig werden. So ist es zu erwarten, dass in naher Zukunft vor allem einzelne Teile mittels Voice Assistants ergänzt werden. Geeignete Eintrittspunkte liegen beispielsweise im Kundenservice oder in Call Centers, hier können optimale Use Cases gefunden und weiterentwickelt werden. Ein nicht zu unterschätzender Vorteil ist zudem die Inclusion, es erhalten alle Zugang – auch ältere Menschen und Kinder sowie Menschen, welchen technisch nicht so bewandt sind.