Eine Künstliche Intelligenz von Google hat gerade ihre eigene Sprache erfunden

Und uns Menschen wird diese Geheimsprache wohl für immer ein Rätsel bleiben.

|
23 November 2016, 2:56pm

Bild: Google

Bild: Google

Statt statistischen Modellen zur Textübersetzung steckt unter der Haube von Googles Übersetzungssystem Translate ab sofort bei acht Sprachen ein selbstlernendes neuronales Netzwerk. Dank Deep Learning soll es bessere und natürlichere Übersetzungen ausspucken—eine mysteriöse eigene Geheimsprache hat es laut Google zumindest schon entwickelt.

Das Upgrade auf neuronale Netze bedeutet die erste wirklich große Veränderung an Googles beliebter und doch oftmals ziemlich gurkiger Übersetzungsfunktion. Diese kann Texte zwar in sehr vielen Sprachen erkennen (103, um genau zu sein) und auch in andere übertragen, präsentiert aber nicht immer ein verständliches, geschweige denn geschliffenes Ergebnis.

Gerade in Sprachen, die mit vielen Schachtelsätzen, komplizierter Grammatik und haufenweise zusammengesetzten Substantiven daherkommen (wie zum Beispiel der, in der dieser Text verfasst ist), trägt der ausgegebene Text häufig eher zum gemeinschaftlichen Kopfzerbrechen als zum interkulturellen Verständnis bei. Ausgestattet mit einem selbstlernenden Netzwerk soll sich das System aber bessere Übertragungen aneignen können, wie Google am Endgegner Deutsch veranschaulicht:

Wenn man also dem System beibringen könnte, zwischen dem Englischen und dem Koreanischen hin und her zu übersetzen und ebenso zwischen dem Japanischen und Englischen—wie würde sich das Netzwerk dann verhalten, wenn man ihm befehlen würde, vom Japanischen ins Koreanische zu übersetzen, ohne Englisch als Brückensprache?

Das wollten Google-KI-Forscher wissen, die eine solche Art von Übersetzung in einem auf dem Preprint-Server ArXiv veröffentlichten Paper „Zero-Shot-Translation" nennen. In dem Bericht, der sich hauptsächlich um die Qualität multilingualer Übersetzungen dreht, schreibt das achtköpfige Autorenteam:

„Die interessanteste Beobachtung ist, dass sowohl Modell 1 als auch 2 eine Zero-Shot-Übersetzung in vernünftiger Qualität hinkriegen. Obwohl es keinerlei Daten für dieses Sprachpaar gesehen hat". Kurz gesagt: Es funktioniert. Das System hat sich wie von Zauberhand eine eigene Zwischensprache beigebracht, mit der es zwischen zwei Sprachen vermitteln kann.

Bild: Google

Da stellt sich doch die Frage, welche Art von Sprache die KI eigentlich entwickelt hat, um zwischen zwei Sprachen zu übersetzen, die in keiner Weise miteinander verbunden sind. Doch diese mysteriöse Digital-Referenz wird uns Menschen wohl für immer verborgen bleiben. Es ist selbst für die Programmierer eines neuronalen Netzes schwierig bis unmöglich, nachzuvollziehen, wie genau sich ein System eine neue Fähigkeit beigebracht hat—zuletzt konnte man das anhand eines Verschlüsselungsmechanismus sehen, den zwei Google-KIs zur Kommunikation miteinander entwickelt hatten und den Menschen nicht verstehen können.

Das erklärt auch, wieso die Forscher die Sprache, mit der es das Netzwerk schafft, die Ähnlichkeit zwischen ganzen Sätzen in zwei unterschiedlichen Sprachen ohne Referenzsprache zur Rückübersetzung zu erkennen, etwas nebulös als „eine Art gemeinsame Repräsentation" beschreiben: Wir haben es hier mit Geheimnissen zu tun, die die Systeme mit in ihr digitales Grab nehmen werden.

Keine Panik: Das bedeutet noch lange nicht, dass uns die Maschinen in ihrer Intelligenz überlegen sind; einzig der Weg zur Aneignung einer gelernten Fähigkeit liegt bei Selbstlernmechanismen oft im Dunklen. „Wenn ich das System abends anmache und am nächsten Morgen wiederkomme, kann ich natürlich exakt sehen, was es so über Nacht gelernt hat", erklärte zum Beispiel der KI-Forscher Toby Walsh im November bei einer Konferenz über Künstliche Intelligenz in Berlin gegenüber Motherboard, „aber WIE sich das Netz das beigebracht hat, ist meist kaum nachzuvollziehen."

Wie ein neuronales Netzwerk funktioniert, erklärt uns hier einer der weltweit führenden Spitzenforscher auf ein paar Bierdeckeln.

Maschinelle Übersetzungssysteme teilen Sätze zunächst in einzelne Worte und versuchen, die Bedeutung dieser Worte zu entschlüsseln—man nennt das „Aufmerksamkeitsmechanismus". Googles neue selbstlernende Modelle schaffen es, diesen Aufmerksamkeitsmechanismus auszuweiten, ganze Sätze zu übersetzen und sie dann „umzuordnen und anzupassen, damit sie eher wie menschliche Sprecher mit korrekter Grammatik klingen", schreibt Google in einem Blogpost. Die US-Firma steckt seit Jahren viel Geld und Arbeit in den browserbasierten Translator, in diesem Jahr kamen ganze 13 neue Sprachen hinzu.

Natürlich kann die Investition in Übersetzungssysteme auch als Seitenhieb in Richtung Skype verstanden werden: Der Anbieter für Internettelefonie und Videochats präsentierte erst im Februar 2016 eine spannende neue Funktion, mit der Text-Übersetzungen direkt im Videochat in eine andere Sprache übertragen werden können.

Sehr poetisch, leider nicht besonders hilfreich.

In dem Versuch benutzten die Forscher zwölf Sprachen als Eingabe in einem einzigen Modell, doch es wäre ein leichtes, noch mehr Sprachen hinzuzufügen. Netterweise ist bei den Sprachpaaren, für die Google nun eine akkuratere und flüssige Übersetzung dank der neuen Netze verspricht, auch Deutsch dabei—neben Spanisch, Englisch, Portugiesisch, Französisch, Türkisch, Japanisch und Koreanisch. Diese Sprachen entsprechen etwas mehr als einem Drittel aller Suchanfragen für Übersetzungen bei Google und werden ebenfalls von einem Drittel der Weltbevölkerung gesprochen. In Zukunft möchte Google laut eigener Ankündigung den neuen Mechanismus des Maschinenlernens auf alle 103 abgedeckten Sprachen ausweiten.

All das klingt sehr schön oder sehr schrecklich—je nachdem, ob man Translationswissenschaften studiert hat oder nicht. Bevor nun erfahrene Übersetzer trotzig ihr Wörterbuch in den See schmeißen, sei ihnen jedoch gesagt: Googles automatische Übersetzungsmaschine bleibt im Praxistest trotz aller „Intelligenz" immer noch eine ziemliche Krücke, wie ein beliebiger Beispielsatz aus dem Paper verdeutlicht, den ich schnell durch den Translator gejagt habe. Lehnt euch zurück und genießt:

„Beispielsweise, Ein mehrsprachiges NMT-Modell mit Portugiesisch ausgebildet aufrechtzuerhalten Englisch und Englisch aufrechtzuerhalten Spanische Beispiele können Generieren Sie vernünftige Übersetzungen für Portugiesisch aufrechtzuerhalten Spanisch, obwohl es keine Daten dafür gesehen hat Sprache-Paar. Wir zeigen, dass die Qualität der Null-Schuss Sprache Paare leicht mit wenig verbessert werden können Zusätzliche Daten des betreffenden Sprachpaars."

Sehr poetisch, Google—nur leider nicht besonders hilfreich.