Sorry, Internet, aber der Turing-Test wurde nicht von einer Maschine bestanden

Das Programm Eugene Goostman hat keine neue Ära der künstlichen Intelligenz eingeleitet, auch wenn viele das gerne glauben wollen.

|
Juni 10 2014, 12:02pm

Schenkt man der allgemeinen Presse Glauben, dann wurde dieses Wochenende ein Meilenstein in der Geschichte der Maschine erreicht. Die Kernaussage: „Ein ,Super-Computer‘ hat Menschen glauben lassen, ein 13-jähriger Junge zu sein, und damit als erste Maschine den Turing-Test bestanden, sagen Experten.“ Manche Pressekanäle haben diese Neuigkeit in ihrer eigenen enthusiastischen Weise interpretiert und sich zu der Aussagen hinreißen lassen, dass der Computer „denken kann“. 

Was aber geschah wirklich? Ein Computerprogramm namens Eugene Goostman nahm an einem Royal-Society-Event in London teil, das zum 60. Todestag von Alan Turing veranstaltet wurde. Fünf Maschinenintelligenzen führten textbasierte Unterhaltungen mit einem Gremium von 30 Jurymitgliedern und versuchten dabei, von den Juroren für Menschen gehalten zu werden. Hinter dem berühmten Test, der 1950 von Alan Turing entwickelt wurde, steht die Idee, dass man davon ausgehen muss, dass eine Maschine über Empfindungen verfügt und somit auf gewisse Weise „denken“ kann, sofern sie eine sinnvolle Unterhaltung mit einem Menschen führen kann.

Die Goostman-Software gab sich als ukrainischer Junge mit gebrochenem Englisch aus, was einen von drei Jurymitglieder bzw. 33 Prozent des Gremiums überzeugte. Auf dieser Grundlage erklärte der Organisator—der Kybernetik-Showman Professor Kevin Warwick—, dass ein Grenzwert von 30 Prozent festgelegt wurde, um den Wettbewerb zu „gewinnen“ und eine neue Ära der künstlichen Intelligenz einzuleiten. „Dieser Meilenstein wird als einer der aufregendsten in die Geschichte eingehen“, sagte er. 

Es wäre in der Tat aufregend, gäbe es nicht ein grundlegendes Problem: Im Grunde genommen hat die Maschine den Turing-Test nicht bestanden. Eine künstliche Intelligenz besteht den Test dann, wenn sie menschliche Fragesteller verlässlich täuschen kann. Turing selbst hat es so dargelegt: 

„Was passiert, wenn eine Maschine in diesem Spiel die Rolle [der Testperson] übernimmt? Wird der Fragesteller genauso oft falsche Entscheidungen treffen, wenn er gegen eine Maschine spielt, wie wenn das Spiel zwischen einem Mann und einer Frau gespielt wird? Diese Fragen ersetzen unsere ursprüngliche Frage: ‚Können Maschinen denken?’“

Die Schlüsselwörter lauten „verlässlich“ und „oft“. Turing fragt nicht, ob eine Maschine manchmal oder bei bestimmten Gelegenheiten einen menschlichen Sachverständigen davon überzeugen kann, ein Mensch zu sein. Er fragte, ob eine Maschine dies auf verlässliche Weise tun kann und dabei mindestens ebenso gute Testergebnisse wie Menschen erlangt. In diesem Fall ließ sich nur ein Drittel der Jurymitglieder täuschen—was natürlich eine beeindruckende Leistung ist, aber nichts mit der robusten, wiederholbaren Wissenschaft zu tun hat, die Turing in seinem Bericht beschreibt. 

Problematisch ist auch, wie schnell die Juroren getäuscht wurden. In dieser Hinsicht ist der Ansatz von Eugene Goostmans Entwicklern ein brillantes Beispiel dafür, wie man durch Querdenken Schlupflöcher und mehrdeutige Wettbewerbsregeln ausnutzen kann. 

Das Programm selbst ist relativ durchschnittlich. Es handelt sich um eine Art Chatbot, der Sprachverarbeitung, Keyword Matching und große Textdatenbanken kombiniert, um angemessene Antworten auf einen Text-Input zu generieren. Chatbots können coole Dinge machen—Siri von Apple ist ein Beispiel—, aber normalerweise können sie keine Menschen hereinlegen. 

Um den Wettbewerb zu gewinnen, haben die Entwickler von Goostman ein weiteres Bestandteil hinzugefügt. Statt sich der Herausforderung direkt zu stellen, haben sie es geschafft, dass sie als 13-jähriger Junge aus Odessa (Ukraine) posieren durften, mit einem Gynäkologen als Vater und einem Meerschwein als Haustier. Offensichtliche Fehler, die eine Teilnahme normalerweise nach Sekunden beendet hätten, konnten so mit den geringen Englischkenntnissen oder dem Alter des „Jungen“ erklärt werden.

Die Idee ist clever, Hut ab dafür. Dennoch bezweifle ich, dass dies im Sinne von Alan Turing war, als er den Test entwarf. Zudem drängen sich alle möglichen Fragen zu den Spielregeln auf. Gibt es ein Mindestalter von künstlichen Intelligenzen? Warum sollte kein Achtjähriger oder Säugling teilnehmen dürfen? Was ist mit jemandem, dessen Englischkenntnisse sich auf dem Niveau eines brasilianischen Stammesangehörigen befinden? Es geht nicht darum, Eugenes Leistung abzuerkennen—es ist faszinierend, wie er geschafft hat, Menschen hereinzulegen—, aber die Maschine hat kein Gespür dafür, was sie von sich gibt. Sie ist hervorragende Ingenieurskunst, aber keine Maschine, die denken kann. 

Das führt zur Frage, inwiefern die gegenwärtigen Versionen des Turing-Tests die Forschung zur künstlichen Intelligenz vorangetrieben haben. Forscher sprechen oft von „starker KI“ und „schwacher KI“. Unter starke KI fällt ungefähr das, was du dir darunter vorstellst—eine empfindungsfähige Maschine, mit universellen Zwecken und Wissen, denk an Data aus Star Trek oder HAL aus 2001. Schwache KI dagegen ist begrenzter. Sie verfügt über keine wirkliche Intelligenz oder über Bewusstsein, und Probleme werden mit Hilfe spezifischer Tricks und Techniken gelöst—denk an Siri, Texterkennung oder die neuen Cluster-Algorithmen für Nachrichten auf Google. 

Turing hatte starke KI im Sinn, als er seinen Test entwickelte. Er glaubte, dass Empfindungsvermögen und die Integration von Informationen in eine Art „Bewusstsein“ nötig sind, um einen sinnvollen Dialog mit einem Menschen führen zu können, und dass dieses Bewusstsein in irgendeiner Weise mit der Erfahrung der Welt verbunden sein muss—vielleicht mittels eines mechanischen Körpers. „Während wir versuchen, ein erwachsenes Bewusstsein zu imitieren, müssen wir uns ziemlich viele Gedanken über den Prozess machen, durch den es seinen gegenwärtigen Zustand erreicht hat.“

Die modernen Inkarnationen des Tests wurden durch schwache KI dominiert, und viele Wettstreiter waren kaum mehr als Browser-Spiele. Es waren Chatbots, die nur dafür entworfen und entwickelt wurden, einen ziemlich niedrigen Grenzwert zu überschreiten. Eugene Goostman ist der bisher überzeugendste Teilnehmer und eine fantastisches Errungenschaft, aber ich bin mir sicher, dass die Entwickler die Ersten wären, die zugeben, dass es wenig zur Forschung zur starken KI beiträgt und auch kommerziell weniger interessant ist als fokussiertere Anwendungen wie etwa Siri. 

In anderen Bereichen haben Forscher wesentlich größere Fortschritte gemacht. Der Super-Computer von IBM, der menschliche Gegner bei Jeopardy schlägt, ist immer noch eine schwache KI, auch wenn du es ihm angesichts seiner 80-Teraflops-Rechenleistung nicht ins Gesicht sagen würdest. Außerdem ist es allen Teilnehmern von Turing-Tests dadurch weit voraus, dass es Informationen integrieren und Bedeutungen extrahieren kann—eine der wesentlichen Voraussetzungen für Empfindungsvermögen. Watson spricht vielleicht nicht so fließend wie Goostman, kann aber weit mehr verstehen. 

Die wichtigste Erkenntnis besteht wohl darin, dass das 33-prozentige Bestehen eines Turing-Tests keine so große Sache ist, wie wir dachten. Die Geburt unserer zukünftigen maschinellen Oberherren ist damit noch nicht näher gerückt. In ein paar Jahrzehnten wird es eine Maschine geben, die den Turing-Test verlässlich besteht, und dieser Tag wird leicht beängstigend sein. Derzeit bezweifle ich jedoch, dass Wettbewerbe wie der von Professor Warwick, die mit großzügigen Bedingungen auf schnelle Erfolge und PR ausgerichtet sind, diese Entwicklung beschleunigen.

Mehr VICE
VICE-Kanäle