What is CUI?
CUI
Der Begriff “Conversational User Interfaces” (CUI) ist erst einmal intuitiv verständlich: Es geht um die Interaktion zwischen Mensch und Maschine in einer Konversation. Was aber umfassen CUI genau, und warum werden sie so gehyped? Neben Sprachassistenten wie Amazons Alexa, Apples Siri oder der Google Assistant gehört zur Domäne der CUI jedoch auch der ganze Bereich der Bot-Kommunikation. Ein optimales Interface ist an die Nutzungsgewohnheiten und Nutzungsumgebungen des Menschen angepasst. Eine natürlich-sprachige Konversation zwischen Mensch und Maschine, wie sie durch CUIs angestrebt wird, erfüllt diese Bedingungen in vielerlei Hinsicht besser als frühere Interfaces.
Die Evolution der Mensch-Maschine- Interaktion
Die Evolution der User Interfaces schreitet mit der Entwicklung der Digitalisierung kontinuierlich voran. Der aktuelle Trend geht – nach den Command Line Interfaces (CLIs) der Anfangszeit und den Graphic User Interfaces (GUIs) ab den 1980er Jahren – nun hin zu text- und sprachbasierter Bedienung sogenannter Conversational User Interfaces (CUIs). Klassische Icon-Menüs, wie wir sie von Desktop- und Mobile-Betriebssystem gewohnt sind, könnten schon bald der Vergangenheit angehören. Die Art, wie Nutzer mit Informationen und Geräten interagieren, wird sich noch einmal erheblich verändern – mit weitreichenden Folgen für Unternehmen und Nutzer. Wie erreiche ich als Unternehmen meine Zielgruppe über konversationsbasierte Interfaces? Was bedeuten die neuen Interfaces für den User und seine Informationsbeschaffung? Wir stehen an der Schwelle einer drastischen Entwicklung: Vom GUI mit Touchbedienung zum CUI und der dadurch möglichen ­Conversational User Experience (CuX). Noch befinden sich die vielfältigen, notwendigen technischen Module (insbesondere Speech-to-Text, Natural Language Processing, Integration in APIs, sowie Automatic-Text-Generation und schließlich Speech-Generation) ziemlich am Anfang der Entwicklung. Deshalb ist die Nutzung für die “early adopters” aktuell häufig noch unbefriedigend. Allerdings ist bereits abzusehen, dass die Fortschritte schon recht bald zu uneingeschränkt brauchbaren Systemen führen werden – gerade Unternehmen sollten sich daher frühzeitig mit CUIs auseinandersetzen.
Neues Interface, neues Betriebssystem?
Wichtig für CUIs sind unter anderem Textmessaging-Systeme (z.B. WhatsApp und Facebook Messenger), die als “neues Betriebssystem für das Internet” gehandelt werden. Hier lassen sich sprachbasierte Chatbots einsetzen, mit denen Nutzer in einer Weise interagieren, die unseren normalen Gesprächsgewohnheiten ähnelt. Da der Nutzer, wie in einem Gespräch, Schritt für Schritt geführt wird, wird die Komplexität verwirrend überladener GUIs und Portalseiten vermieden. Im Idealfall erfolgt die Steuerung der Software ganz intuitiv. Der chinesische Dienst WeChat ist derzeit Vorreiter dieser Entwicklung. In der westlichen Öffentlichkeit werden sprachbasierte CUIs wie Amazon Alexa, Google Assistant und Apple Siri, die in Form von sogenannten Smart Speakers den Markt gebracht werden, am stärksten wahrgenommen.
Natural Language Recognition
Natural Language Recognition ist ein essentieller Bestandteil dessen, was wir häufig als “künstliche Intelligenz” bezeichnen - und die Basis für das Funktionieren von Conversational User Interfaces. Im Prinzip funktioniert NLR in vier Schritten. Im ersten Schritt wird ein Text in Bestandteile segmentiert und diese analysiert; anschließend werden bekannte, definierte Entities erkannt. Anschließend werden Referenzen im Text erkannt, und schließlich Bezüge zwischen den Elementen im Text untereinander hergestellt. Der Natural Language Recognition liegt also eine syntaktische Segmentierung zugrunde; das eigentliche „Verständnis“ wird jedoch erst über die Definition von semantischen Entitäten und weiteren Referenzdaten hergestellt.
Trust vs. Nutzungsverhalten
Das tatsächliche Nutzungsverhalten widerspricht nicht selten dem angegebenen Maß an Vertrauen in eine Technologie, ein Produkt, eine Dienstleistung. Menschen nutzen Dienste und Produkte faktisch bereits - und bringen damit Vertrauen auf -, obwohl sie nach eigenen Angaben nur wenig Vertrauen haben. Noch ist das allgemeine Vertrauen in Conversational User Interfaces eher gering. Dies hängt in Teilen mit der Funktionalität zusammen, aber auch damit, dass große Unsicherheit gegenüber der noch neuen Technologie besteht: Wer hört mit? Was passiert mit meinen Daten? Assistenten können nur funktionieren, wenn wir ihnen vertrauen. Das bedeutet: Darauf vertrauen, dass sie die richtige Entscheidung in unserem Interesse treffen. Je mehr wir also unsere Entscheidungen Maschinen bzw. Assistenten übergeben, desto mehr müssen wir vertrauen. Daher ist voraussichtlich das Thema Trust entscheidend für die Frage, ob und wie schnell sich CUI bzw. Intelligente Assistenten durchsetzen ­können.
Ausblick
Für Unternehmen aller Art empfiehlt sich rechtzeitig mit der neuen Konstellation vertraut zu machen, um die notwendige Transformation vieler Unternehmensbereiche und -prozesse einleiten zu können. Binnen kürzester Zeit werden Nutzer sich an den Komfort gewöhnt haben und ein überzeugendes Conversational User Experience (CuX) selbstverständlich von allen Anbietern erwarten. Eine Anforderung, die nur erfüllt werden kann, wenn Inhalte entsprechend aufbereitet (also z.B. semantisch optimiert) werden, technische Schnittstellen (APIs) ausgearbeitet und performant sind und Geschäfts- und Servicemodelle angepasst. Zu Bedenken ist dabei auch die Gatekeeper-Funktion, die große Plattformen einnehmen, und daraus resultierende Abhängigkeiten der ­Unternehmen.
Die Zukunft der Mensch-Maschine-Interaktion
Es wurde bereits angedeutet: Konversations-basierte Mensch-Maschine-Interaktion ist für User attraktiv, weil sie der natürlichen Sprache und Interaktion des Menschen ähnelt. Die Vorteile für die User liegen so auf der Hand: Die gewünschte Information wird direkt im Gespräch angesteuert; bei voice-basierten Systemen entfällt auch das umständliche Tippen. Die Sprache ist eine anthropologische Grundkonstante; ihre Verwendung in der Mensch-Maschine-Interaktion ist darum der natürlichste Kommunikationsweg überhaupt. Wird aber durch das neue Paradigma der Conversational Interfaces das grafische Interface vollständig entfallen? Das ist eher nicht zu erwarten. Vielmehr ist davon auszugehen, dass sich ein multimodales System etablieren wird, das aus unterschiedlichsten technischen und kommunikativen Komponenten einschließlich graphischer Interfaces besteht – und dass es der konkrete Use Case ist, der entscheidet, welche Input- und Outputmodalitäten gewählt werden bzw. zur Verfügung stehen. Bei vielen Fast Moving Consumer Goods (FMCG) etwa ist es zur Bestellung nicht unbedingt nötig, das Produkt zu sehen: Im Zweifelsfall vertrauen wir, dass das Klopapier seinen Zweck erfüllt und müssen uns kein Bild dazu anschauen. Zudem können solche FMCG auch gut als Abo-Modelle nachbestellt werden, sodass die Frage, welche Marke und welches Produkt gekauft wird, entfällt. Beim Kauf von Schuhen sieht das bereits anders aus. Auch bei einer präzisen Suche nach “schwarzer Halbschuh mit Schnürsenkeln in Größe 39” möchten wir eine Auswahl haben, möchten wir das Produkt sehen. Für all solche Fälle bleibt ein Bildschirm notwendig. Viele zur Nutzung wichtigen Fragestellungen nach sinnvollen Use Cases, attraktiven Service/Content-Bündeln, praktischer Implementierung, Evaluation und Service Design sind noch weitgehend unbearbeitet. Die Anforderung an die Anbieter und Entwickler eines derart heterogenen Systems sind hoch. Daten und Inhalte müssen hochgradig responsiv ausgespielt werden und technisch bislang wenig kompatible Systeme performant vernetzt werden. Alle Anbieter von Inhalten, Dienstleistungen und Produkten – also Agenturen, Verlage, Contentmanager und Unternehmen aus dem Handel, Produktion und Services – müssen sich neu positionieren, ihre Angebote neu formulieren und Strategien ­anpassen. Das gilt vor allem auch für E-Commerce und alle Formen des digitalen Vertriebs. Kernaufgaben, wie das Auffinden von unbekannten Serviceangeboten (Findability) und das Entdecken von unbekannten Produktangeboten (Discoverability) sind aufgrund der flachen Informations-Architektur-Hierarchie von CUIs noch weitgehend ungelöst. CUIs in Form von Chatbots und Virtual Assistants können im B2C Umfeld entlang der gesamten Customer- und User Journey eingesetzt werden. Für Interface- und Service-Designer, die sich bisher überwiegend mit Desktop-Websites und Mobile-Apps beschäftigen, bietet eine derartige Umwälzung gleichzeitig eine existentielle Herausforderung, aber auch viele faszinierende neue Chancen. Eine Beispiel: Eine wichtige Herausforderung besteht beispielsweise darin, zu schauen, wie viele Inhalte auf eine Suchanfrage ausgespielt werden sollten: Bekommt der User zu viele Elemente – z.B. Produkte – ausgespielt, ist er überfordert; bekommt er zu wenig Auswahl angeboten, ist er ebenfalls frustriert (Paradox of Choice).
Key concepts
Wenn Du tell-me.io schon etwas länger verfolgst und vielleicht auch auf unseren tell-me days 2019 warst, hast Du sicher schon gemerkt: Conversational User Interfaces sind ein ziemlich spannendes, aber auch komplexes Feld! Gerade, wenn Du Dich zum ersten Mal mit Digitalen Assistenten wie Alexa oder dem Google Assistant oder mit Chatbots befasst, ist Dir der “Tech Talk” vielleicht noch ein wenig fremd. Darum haben wir Dir hier unter der Rubrik “Key Concepts” zentrale Schlüsselbegriffe zusammengestellt, damit Du neue Konzepte entdecken kannst oder auch einfach mal schnell nachlesen, wenn Dir ein Begriff unbekannt ist. Damit Du in Zukunft immer mitreden kannst, wenn es um Conversational Interfaces geht!