HER ist Science-Fiction, doch es bleibt unklar, in welcher Zukunft der Film anzusiedeln ist. Technik ist unauffällig und wie selbstverständlich in den Alltag integriert. Eine Liebesbeziehung mit einem Betriebssystem stößt zwar noch auf Befremden, bewegt sich aber im Rahmen des Möglichen. Das ist verwirrend, denn alle anderen technischen Details scheinen unseren aktuellen Techniktrends gar nicht so fern. Werden sich also auch bei uns Menschen bald in ihr Betriebssystem verlieben können?
Künstliche Intelligenz (KI) kommt auch heute schon in den unterschiedlichsten Lebensbereichen zum Einsatz und entwickelt sich seit etwa fünfzig Jahren mit hohem Tempo weiter. Viele KI-Anwendungen sind aus unserem Alltag schon nicht mehr wegzudenken: Wir benutzen Suchmaschinen genauso selbstverständlich wie die Spracherkennung im Smartphone, lassen uns vom Navigationssystem um den Stau lenken und kämpfen in Computerspielen gegen autonom agierende virtuelle Mitspieler/innen. So vielfältig die Anwendungsgebiete von Künstlicher Intelligenz sind, so mannigfaltig sind auch die Forschungsansätze und Disziplinen, in denen man sich mit ihr auseinandersetzt. Ein Ziel der KI-Forschung ist es, menschliche Intelligenz mit technischen Systemen nachzubauen. Manche KI-Forscher/innen vertreten die Ansicht, dass dafür zunächst das menschliche Denken und Handeln selbst verstanden werden muss. Deshalb gibt es zum Teil große Überschneidungen zwischen KI-Forschung und Neurologie beziehungsweise Psychologie und Kognitionswissenschaften. Weil diese Technologien einen großen Einfluss auf unsere Zukunft nehmen könnten, werden gleichzeitig auch ethische, philosophische, politische und gesellschaftswissenschaftliche Fragestellungen aufgeworfen.
Braucht Intelligenz einen Körper?
Man könnte sich fragen, woher Samantha in HER all ihre emotionalen und sozialen Fähigkeiten hat, ohne je eigene körperliche Erfahrungen gemacht zu haben. In der Kognitionswissenschaft werden Wahrnehmung und Bewusstsein als ein Zusammenspiel zwischen Körper und Umwelt angesehen und so gibt es auch in der KI-Forschung die – wenn auch teilweise umstrittene – Ansicht, dass eine menschenähnliche Künstliche Intelligenz nur in Kombination mit einem Körper entwickelt werden kann. Humanoide, also menschenähnliche Roboter sollen, unter anderem mithilfe von Sensoren oder Videokameras, eine „Embodied Intelligence“ (verkörperte Intelligenz) entwickeln und durch eigene „Erfahrungen“ eigenständig lernen. Zudem halten viele Forscher/innen die menschliche Gestalt und ein menschenähnliches Verhalten als am besten geeignet, um eine intuitive Mensch-Maschine- Kommunikation zu ermöglichen.
Hierbei besteht die Herausforderung, dass es bislang wesentlich einfacher ist, einem intelligenten System das Schachspielen auf höchstem Niveau beizubringen, als mit einem Roboter eine ganz alltägliche Geste wie das Heben eines Wasserglases umzusetzen. In der Robotik gibt es daher momentan noch viele unterschiedliche Einzelanstrengungen, Roboter immer menschenähnlicher zu gestalten, sei es im Bereich der Feinmotorik, Bewegungsfähigkeit, Sprache, Mimik, Gestik, Lernfähigkeit oder im Hinblick auf emotionale oder soziale Fähigkeiten. Dennoch gibt es bereits Roboter, die Menschen zum Verwechseln ähnlich sehen, wie ein Kind laufen lernen, Händchen haltend mit einem Menschen spazieren gehen oder Getränke auf einem Tablett servieren können.
PARO, ist der bekannteste therapeutische Roboter: eine Plüschrobbe, die wie ein Robbenbaby fiepst, auf Berührung und Ansprache mit Augenklimpern oder Flossenwackeln reagiert, vertraute Personen erkennen und lernen kann, auf einen Namen zu hören.
Der japanische Robotiker Hiroshi Ishiguro ist weltweit für seine besonders menschlich wirkenden Roboter (Androide) bekannt. Dieser heißt Actroide.
„Sie“ kann menschliche
Bewegungen und Mimik
nachahmen oder selbstständig
auf ihr Gegenüber reagieren.
ASIMO, ein humanoider
Roboter des Autoherstellers
Honda kann schon joggen
und Treppen steigen,
Getränke einschenken und
rudimentär kommunizieren
– auch in Gebärdensprache.
Samantha spricht in HER mit Theodore über ihre Gefühle und kann auch jede Nuance von Theodores innerer Verfassung erkennen. Sie hört ihm zu und versteht ihn.
Mit diesen Eigenschaften würde vermutlich auch ein weniger intelligentes Betriebssystem als Samantha eine gewisse Anziehungskraft ausüben. Forschungen im Bereich der Mensch-Computer-Interaktion haben gezeigt, dass Menschen in hohem Maße dazu neigen, unbelebten Objekten unbewusst Absichten, Gefühle und ein eigenes Bewusstsein zuzuschreiben.In der Psychologie wird dieses Phänomen Anthropomorphismus genannt. Bereits 1966 stellte Joseph Weizenbaum bestürzt fest, wie schnell Menschen eine emotionale Beziehung zu einem Computer-Programm herstellen. Am „Massachusetts Institute of Technology“ (MIT) hatte er gerade das Programm „Eliza“ entwickelt, das im Chat mit simplen Fragen verständnisvolles Interesse an seinem Gegenüber simulieren konnte. Vor allem, wenn Roboter ein menschenähnliches Aussehen haben, sich bewegen, uns anschauen und persönlich ansprechen, wirken sie auf uns wie echte Lebewesen. Dass besonders kleinere Kinder dieser Täuschung unterliegen, hat eine Studie zur Interaktion von Kindern mit Robotern gezeigt, die 2012 am Forschungsinstitut „HINTS“ (Human Interaction With Nature and Technological Systems) in Washington durchgeführt wurde. „Wenn eine Maschine Interesse an uns zeigt, werden unsere Darwin’schen Knöpfe gedrückt“, ist sich auch MIT-Forscherin Sherry Turkle sicher.
Computerexperte David Levy stellt in seinem Buch „Love and Sex with Robots“ (2007) sogar die Behauptung auf, dass sich die Menschen um das Jahr 2050 regelmäßig in humanoide Roboter verlieben werden. Ob es jemals so weit kommen wird, sei dahin gestellt. Im Forschungsfeld „Affective Computing“, wie zum Beispiel am „Emotion Lab“ der Universität Ulm, ist man jedenfalls darum bemüht, Computern das Erkennen von menschlichen Gefühlslagen beizubringen. Über Sensoren und Messsysteme werden dazu Körpersignale, Bewegungen, Gesichtsausdrücke oder Stimmlagen analysiert und die Reaktionsmuster des Systems entsprechend ausgerichtet. Doch werden auch Computer irgendwann Emotionen entwickeln können? Dafür müsste zunächst genau definierbar sein, was Emotionen genau sind, wie sie entstehen und was dabei zum Beispiel im Gehirn passiert. Es scheint jedoch nicht einfach zu sein, diese Fragen auf neurowissenschaftlicher Ebene zu beantworten. Dennoch arbeiten Forscher/innen – um zum Beispiel Roboter sozialfähiger zu machen – weltweit daran, Computer mit menschlichen Gefühlen auszustatten, oder ihnen zumindest den Anschein zu verleihen, sie würden Gefühle empfinden. Dabei bedient man sich unter anderem eines „dimensionalen Emotionsmo- dells“ aus der Psychologie. Jeder Input von der Außenwelt wird bewertet und verschiebt den emotionalen Zustand des Systems innerhalb eines mehrdimensionalen Emotionsraums in die Richtung einer „Gefühlssektion“. Den verschiedenen Sektionen lassen sich dann festgelegte Ausdrucksformen etwa eines Avatars (einer virtuellen Person) zuordnen. Computer werden also in Zukunft immer persönlicher und „gefühlvoller“ auf Menschen eingehen können. Was, wenn auch Aussehen, Bewegungen und Sprachklang von künstlich intelligenten Wesen weiter vermenschlicht werden? Überwinden sie dann das „unheimliche Tal“ (Uncanny Valley) – den Bereich, in dem uns künstliche Wesen umso mehr erschaudern lassen, je menschenähnlicher sie sind, aber dann doch den Eindruck von Zombies erwecken?
Mensch-Maschine-Interaktion - wenn wir unsere Smartphones streicheln...
Theodore kommuniziert in HER mit seinem Computer über Sprachbefehle, Emails hört er per Knopf im Ohr ab und kann sich mit seinem Betriebssystem über natürlichen Sprachfluss unterhalten – von Tastaturen und Mäusen ist im Setting von HER keine Spur mehr?
Mit der Frage, wie wir eine immer komplexer agierende Technik immer leichter und intuitiver bedienen können, setzen sich auch heute schon Forschungseinrichtungen auf der ganzen Welt auseinander (siehe Infokasten Seite 11). Eine große Rolle spielt hier die Forschung an berührungsloser Steuerung. Bewegungs- und Sprachsensoren, an denen aktuell geforscht wird, befinden sich heute schon in den meisten Geräten; die Möglichkeiten, sie zu nutzen werden aber immer ausgefeilter. So forscht man unter anderem am „Fraunhofer Heinrich- Hertz-Institut“ in Berlin an neuen Ansätzen der Gestensteuerung – mit Händen, Füßen oder dem ganzen Körper. Mit einem videobasierten Tracking System können Objekte auf dem Bildschirm berührungslos über Fingergesten ausgewählt, rotiert oder skaliert werden. Insgesamt scheinen dem Vorstellungsvermögen der Entwickler/innen keine Grenzen gesetzt: Für die Steuerung durch Blicksignale oder Augenzwinkern gibt es bereits Prototypen und nicht nur am Freiburger Exzellenz-Cluster „BrainLinks- BrainTools“ arbeitet man an der Steuerung über Gedanken mit Hilfe von Elektroden. Auch an der Interaktion mit dem Computer über natürliche Sprache wird in der Forschung ehrgeizig gearbeitet. In der Computerlinguistik wurden hier in den vergangenen Jahren große Hürden genommen. Dazu gehörte zum Beispiel die undeutliche Aussprache von Worten oder die Verwendung von mehrdeutigen (z.B. Bank) oder gleichklingenden Worten mit unterschiedlichen Bedeutungen (z.B. Seen/sehen). Mittlerweile wird ein hoher Prozentsatz der gesprochenen Wörter richtig erkannt, was unter anderem durch die Auswertung von „Big Data“ ermöglicht wurde. Das sind all die Datenberge, die sich zum Beispiel in Onlinelexika, Videoportalen und sozialen Netzwerken, vor allem aber durch die Auswertung aller vorherigen Nutzungen eines Systems anhäufen. Beim „Deep Learning“ werden diese Daten mit Hilfe von mehrschichtigen „neuronalen Netzen“ ausgewertet. Das sind hierarchische Verschaltungen, die der Funktionsweise des menschlichen Gehirns nachempfunden sind, in dem sich Neuronen gegenseitig anregen,
Begrüßung durch Microsofts Sprachassistentin Cortana |
immer komplexere Muster erkennen und Zusammenhänge erlernen. Mit diesem Ansatz wurden auch große Fortschritte darin gemacht, Aussagen nicht nur korrekt zu „hören“, sondern auch deren Sinn zu erfassen. Auf dieser Basis arbeiten auch Sprachassistenten (oder lieber noch: Assistentinnen) in modernen Smartphones wie Siri (Apple), Cortana (Microsoft) oder Google Now (Google). Sie stützen ihre Auswertung auf unterschiedliche Suchmaschinen und liefern zu einem Sprachkommando wie „Wir möchten gerne Pizza essen“ eine nett gesprochene Antwort mitsamt Wegbeschreibung zur nächsten Pizzeria. Cortana lässt sich zum Beispiel sagen, wann sie einen Termin machen soll und warnt vor Überschneidungen, lässt sich Emails diktieren oder liest Sportergebnisse vor. Dabei merkt sich das System auch Gewohnheiten und Vorlieben; wenn man es zulässt, wertet es sogar Emails aus oder antwortet auf philosophische oder persönliche Fragen. Anders als bei Samantha in HER handelt es sich hier aber um einprogrammierte Standardantworten. Bei virtuellen Assistenten/innen oder Agenten/ innen werden neben der Sprache noch Mimik und Gestik in die Kommunikation einbezogen. Besonders beliebt sind solche Assistenten/ innen als interaktive Auskunft in Bibliotheken immer komplexere Muster erkennen und Zusammenhänge erlernen. Mit diesem Ansatz wurden auch große Fortschritte darin gemacht, Aussagen nicht nur korrekt zu „hören“, sondern auch deren Sinn zu erfassen. Auf dieser Basis arbeiten auch Sprachassistenten (oder lieber noch: Assistentinnen) in modernen Smartphones wie Siri (Apple), Cortana (Microsoft) oder Google Now (Google). Sie stützen ihre Auswertung auf unterschiedliche Suchmaschinen und liefern zu einem Sprachkommando wie „Wir möchten gerne Pizza essen“ eine nett gesprochene Antwort mitsamt Wegbeschreibung zur nächsten Pizzeria. Cortana lässt sich zum Beispiel sagen, wann sie einen Termin machen soll und warnt vor Überschneidungen, lässt sich Emails diktieren oder liest Sportergebnisse vor. Dabei merkt sich das System auch Gewohnheiten und Vorlieben; wenn man es zulässt, wertet es sogar Emails aus oder antwortet auf philospohische oder persönliche Fragen. Anders als bei Samantha in HER handelt es sich hier aber um einprogrammierte Standardantworten. Bei virtuellen Assistenten/innen oder Agenten/ innen werden neben der Sprache noch Mimik und Gestik in die Kommunikation einbezogen. Besonders beliebt sind solche Assistenten/ innen als interaktive Auskunft in Bibliotheken Kommunikatioder Museen oder als Tutoren/innen in Lernprogrammen. So dient zum Beispiel Max, ein am Bielefelder „Zentrum für interdisziplinäre Forschung“ (ZiF) entwickelter virtueller Assistent, als Museumsführer im Heinz-Nixdorf-Museum in Paderborn. Seine Gesichtsfläche wird von „Action Units“ angetrieben, die den Bewegungen der menschlichen Gesichtsmuskeln entsprechen. Damit kann er während der Kommunikation mit den Besucher/innen unterschiedliche emotionale Zustände zeigen und reagiert so auf die Worte seines Gegenübers.