Braunschweig: Smarten Maschinen unter die „Motorhaube“ geschaut
Dass Maschinen immer mehr können, was uns Menschen vorbehalten war, macht die Faszination, aber auch die Unheimlichkeit künstlicher Intelligenz aus. Die Menschenform mancher Roboter verleite uns aber auch zu Fehlschlüssen und einer Überschätzung der Technik, erklärte der Robotik-Experte Jochen Steil. (Symbolbild) Foto: Possessed Photography/Unsplash
Abt-Jerusalem-Preisträgerin Katharina Zweig erklärt, warum es keine gute Idee ist, Schüler von künstlicher Intelligenz bewerten zu lassen.
Aus Science Fiction sind längst Science Fakten geworden – so brachte der Präsident der Braunschweigischen Wissenschaftlichen Gesellschaft, Otto Richter, den Stand der Technik bei digitaler Transformation und künstlicher Intelligenz (KI) auf eine griffige Formel: Computer treffen immer mehr Entscheidungen, die bisher uns Menschen vorbehalten waren, und sie „lernen“ menschliche Fähigkeiten – ob beim Erkennen von Sprache, beim Navigieren durch den Straßenverkehr oder beim Empfehlen von Büchern oder Videoclips.
Dieser Artikel ist zuerst erschienen am 25.06.2022 (Bezahl-Artikel)
Je mehr Computersoftware unser gesellschaftliches Leben prägt, umso dringender müssen wir dem Miteinander von Mensch und Maschine auf die Spur kommen. Dies ist seit Jahren das wissenschaftliche Programm von Katharina Zweig. Für ihre Arbeit erhielt die Informatikprofessorin der Technischen Universität Kaiserslautern am Freitagabend den Braunschweiger Abt-Jerusalem-Preis. Vor der feierlichen Übergabe in der Klosterkirche Riddagshausen widmeten sich die Preisträgerin und Forscherkolleginnen und -Kollegen in einer kleinen Tagung dem „Menschenbild der künstlichen Intelligenz“.
In allen Vorträgen wurde deutlich, dass es „das“ Menschenbild der KI freilich nicht gibt. „Wir müssen der jeweiligen Technik schon unter die Motorhaube gucken“, sagte die Informatikerin Zweig. Welche Erwartungen hat ein Algorithmus an unser Verhalten? Was setzt das Computerprogramm voraus? Welche unserer Schwächen oder Defizite sollen durch die Technik ausgeglichen werden? Wenn man sich eine Übersetzungssoftware anschaut kommen dabei ganz andere Antworten zutage als bei einem Programm, das etwa bei die Zuteilung von Weiterbildungsmaßnahmen an Arbeitslose helfen soll. Die entscheidende Frage lautet aber: Wie sieht der bestmögliche Umgang mit solchen Systemen künstlicher Intelligenz aus – und wann ist es vielleicht besser, auf eine bestimmte digitale Anwendung zu verzichten?
Macht KI Lehrer überflüssig?
Um diese Fragen an einem Beispiel zu erörtern, nahm sich Zweig den „E-Rater“ vor, ein bereits vor rund 20 Jahren entwickeltes Computerprogramm, das kurze Essays von Sprachschülern mit Zensuren benotet. Wie die Informatikerin berichtete, ergab eine Studie, dass die Software bei fast allen Aufsätzen, mit denen sie gefüttert wurde, zu einem ähnlichen Ergebnis kam wie menschliche Prüfer. „Fast alle Noten wurden von dem Programm mit einer maximalen Abweichung von einer Note korrekt vorhergesagt“, erklärte sie das fast schon unheimliche Ergebnis. Macht diese Software also eine Bewertung durch menschliche Lehrer überflüssig?
Zweigs „Blick unter die Motorhaube“ zeigt, dass das mitnichten der Fall ist. Statt zu bewerten, wie gut die Schüler das Gelernte mit ihrer Lektüre verknüpfen konnten, wie relevant, korrekt oder kohärent ihre Argumente waren – Zweig: „Wie sollte eine Maschine das leisten?“ – analysierte die Software lediglich die Wortwahl und die Häufigkeit komplex aufgebauter Sätze. „Wenn ein Sprachschüler sehr gut ist, hat er einen größeren Wortschatz und traut sich eher mal, einen Satz mit Konjunktiv zu bilden“, erklärt sie die erstaunlich große Schnittmenge der Bewertungsergebnisse.
„Bei der Software werden lediglich Symptome gemessen, nicht jedoch die tatsächlichen Kompetenzen der Schüler, um die es geht.“
Dies bedeute aber auch: „Bei der Software werden lediglich Symptome gemessen, nicht jedoch die tatsächlichen Kompetenzen der Schüler, um die es geht.“ Als Beweis hierfür zeigt sie einen kurzen Text, der vom E-Rater ebenfalls die Bestnote erhielt: Ein absoluter Nonsense-Absatz – allerdings mit anspruchsvollen Satzkonstruktionen und gespickt mit Fremdwörtern.
Das Beispiel zeigt: Die Fähigkeit des Computers, Benotungen vorherzusagen, ist etwas völlig Anderes als die menschliche Kompetenz, die Essays wirklich zu bewerten. Und letztere ist auch aus anderem Grund nicht einfach zu ersetzen, wie Zweig erklärt: Eine Benotung ist ein sozialer „Sprechakt“ – eine sprachliche Äußerung, die laut dem britischen Philosophen John Langshaw Austin „Fakten schaffe“. Dazu gehöre aber viel mehr als eine korrekte Vorhersage. Im Fall der Benotung sind dies etwa: Akzeptanz der Zensur durch den Schüler, ein transparentes Verfahren, die Begründbarkeit der Bewertung seitens der Schule oder das Vertrauen in die Bewertung durch Dritte – also etwa durch Firmen, die aufgrund der Note ihre Bewerber einstellen.
Zieht ein neues „Zeitalter der Geistes- und Sozialwissenschaften“ auf?
Bis KI-Systeme sinnvoll eingesetzt werden können, um den Menschen bei „Sprechakten“ – also etwa auch behördlichen Entscheidungen, Eheschließungen oder Schiffstaufen – zu ersetzen, müssen noch gewichtige Fragen geklärt werden. Die Informatik allein ist damit aus Zweigs Sicht überfordert. Sie sieht sogar ein neues „Zeitalter der Geistes- und Sozialwissenschaften“ am Horizont heraufziehen. Nur wenn diese Disziplinen zentrale Fragen beantworteten, könne die Digitalisierung letztlich „fruchtbar gemacht“ werden, betont sie.
Passend dazu waren die weiteren Referenten beim Braunschweiger Kolloquium ausgewählt – neben dem Robotik-Professor Jochen Steil von der TU Braunschweig waren dies der katholische Theologe Lukas Brand aus Bochum sowie die Philosophin Prof. Karen Joisten, die wie Zweig in Kaiserslautern lehrt.
Dieser Artikel ist zuerst erschienen am 25.06.2022 und erreichbar unter: https://www.braunschweiger-zeitung.de/region/article235719407/Braunschweig-Smarten-Maschinen-unter-die-Motorhaube-geschaut.html (Bezahl-Artikel)