[SL] Einhörner in den Anden entdeckt -- was AI mit Texten machen kann

Vervollständigen Sie bitte diese Zeile:

Alle meine Entchen schwimmen auf dem _____

Das war nicht schwer, oder? Die meisten von uns haben dieses deutsche Kinderlied irgendwann mal gelernt: “Alle meine Entchen schwimmen auf dem See”.

Wie ist es mit dieser Zeile hier:

Alle meine Täubchen gurren _______

Auch wenn Sie diese Strophe nicht kennen, können Sie ganz gut raten, wie es weitergeht. Erst recht, wenn ich Ihnen noch Antwortmöglichkeiten anbiete:

Alle meine Täubchen gurren… a) auf dem Stuhl b) im Bundestag c) auf dem Dach

(Das erinnert schon an gewisse Gewinnspiele im Fernsehen.) Die Strophe heißt: “Alle meine Täubchen gurren auf dem Dach”.

Eine Software könnte man nun mit allen Liedtexten füttern, eine Volltextsuche würde diese Strophen zuverlässig und mit Leichtigkeit wieder ausspucken. Das ist noch keine künstliche Intelligenz (artificial intelligence, AI), sondern nur eine Datenbankabfrage, vergleichbar dem Auswendiglernen von Liedtexten.

Ein Teilgebiet der künstlichen Intelligenz nutzt Neuronale Netze, um ein sogenannte “Sprachmodelle” zu lernen. Auch wenn Sie die Liedzeile mit den Täubchen nicht kennen, hilft Ihnen Ihr eigenes “Sprachmodell”, die obige Liedzeile zu ergänzen. In unserem Zusammenhang wäre ein Modell ein vereinfachtes Abbild der “Menge aller möglichen Texte”. Damit kann man wesentlich schwierigere Aufgaben lösen, so ein Modell ist ein Baustein für Assistenz-Systeme wie Siri oder für maschinelles Übersetzen.

Die Modelle werden zum Beispiel darauf trainiert, Sätze zu ergänzen, so wie wir es mit den Liedzeilen oben gemacht haben. Das ist eine gut definierte Aufgabenstellung: man lässt die Maschine anhand von ein paar Millionen Beispielen lernen, welches Wort als nächstes kommt. Die Qualität des Modells lässt sich leicht bewerten: Je öfter es richtig rät, desto besser ist es. Das Modell ist probabilistisch, d.h. die Maschine lernt, mit welcher Wahrscheinlichkeit welches Wort als nächstes kommen kann. Dabei werden alle vorangegangenen Worte einbezogen, frühere einfachere Modell nutzten vielleicht nur die zwei oder drei vorangegangenen Worte.

Für den Eingabetext “Alle meine Täubchen gurren” wird das System also etwa raten

Wenn wir die erste Möglichkeit (“auf”) wählen, können wir das System weiter vervollständigen lassen:

Und so weiter, bis schließlich die ganze Zeile - “Alle meine Täubchen gurren auf dem Dach” geraten ist.

Diese Systeme können ganz gut verallgemeinern, d.h. auch wenn sie den Textausschnitt “Alle meine Täubchen gurren” noch nie gesehen haben, können sie aufgrund anderer Beispiele raten, dass eine Präposition (“auf”, “im”, “vor”) als nächstes kommen könnte.

Das Sprachmodell lernt also die Wahrscheinlichkeiten für das nächste Wort, schön und gut, aber was ist daran so spektakulär? Die Wahrscheinlichkeit reicht, um dies hier richtig zu entscheiden:

Das Nashorn steht a) auf dem Flur b) im Zoo c) zur Verfügung

Menschen setzen dafür etwas ein, was in der künstlichen Intelligenz als Weltwissen bezeichnet wird. Wir wissen eben, wo ein Nashorn normalerweise steht, und können auf unzählige ähnliche “Fakten” zurückgreifen. Den Maschinen solches Weltwissen beizubringen war (und ist) sehr schwierig. Ein neuronales Netz kann das zumindest simulieren, weil in dem an realen Texten trainierten Modell die Variante (b) “im Zoo” bei Weitem am wahrscheinlichsten ist.

Um Ihnen zu zeigen, wie weit man mit solchen Textmodellen kommen kann, möchte ich ein Beispiel geben: Das Modell GPT-2, das im Februar 2019 von OpenAI beschrieben wurde. GPT-2 wurde mit 8 Millionen Webseiten (40 GB Text) darauf trainiert, das jeweils nächste Wort vorherzusagen. Das System ist in der Lage, einen vorgegebenen Texanfang weiterzuführen, indem es, wie oben beschrieben, sein Modell wiederholt anwendet.

Die Vorgabe (von einem Menschen geschrieben) behauptet, dass Wissenschaftler in einem abgelegenen Tal in den Anden eine Herde von Einhörnern entdeckt haben:

In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.

Daraus kann man verschiedene Fortsetzungen produzieren, indem man nach gewissen Regeln jeweils einen der Wort-Vorschläge des Modells auswählt (es muss also nicht immer das wahrscheinlichste Wort als Nächstes gewählt werden). Aus 10 vom System produzierten Fortsetzungen haben die Forscher diese hier ausgewählt:

The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.

Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.

Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.

Und so geht es noch eine Weile sehr überzeugend weiter, inklusive Originalzitaten des frei erfundenen Dr. Jorge Pérez. Das System passt seinen Schreibstil wie ein Chamäleon an die Vorgabe an, etwa Zeitungsartikel, Schulaufsätze oder Fantasy. Weitere Beispiele sind aus Vorgaben entstanden wie “Miley Cyrus beim Ladendiebstahl erwischt” oder “John F. Kennedy zum Präsidenten gewählt, nachdem er Jahrzehnte nach seiner Ermordung mit Hilfe von Nanotechnologie und Robotik wieder zum Leben erweckt wurde “.

Wofür kann man so etwas gebrauchen? Die Forscher von OpenAI sehen eine große Gefahr im Missbrauch solcher Systeme, u.a. für die automatische Produktion von Fake News. Die synthetischen Texte klingen sehr plausibel, in einer Studie fanden 72% der Probanden die Artikel überzeugend, Artikel aus der New York Times kommen auf 83%. Solche Texte können im Propagandakrieg massenhaft erzeugt werden, und wir Menschen denken dann, dass ja viele andere diese Meinung vertreten, obwohl sie nur Bots sind. Die Erkennung solcher Fake-Texte ist übrigens ein offenes Forschungsthema – wahrscheinlich müssen wir uns mit dem Gedanken anfreunden, dass sie irgendwann nicht mehr von echten Texten zu unterscheiden sein werden.

Wegen des Missbrauchspotenzials haben die Forscher von OpenAI vorlaufig nur abgeschwächte Versionen ihres Modells GPT-2 publiziert. Sie wollen beobachten, was damit angestellt wird, und den Spam-Erkennern einen gewissen Vorsprung lassen.

Wir bei SoftwareLiefern.de interessieren uns für künstliche Intelligenz als Alternative zu “klassischen” Software-Projekten. Was kann man besser per Machine Learning machen, statt umständlich unzählige Regeln in die Software zu schreiben? Diese Email wird nun schon etwas umfangreich, daher muss ich Sie für die Anwendungen von Textmodellen in der Unternehmens-IT leider auf morgen ______.

Matthias Berth

Alle Emails