Bild: Gage Skidmore | Flickr | Lizenz: CC BY-SA 2.0
Die US-Präsidentschaftswahl 2016 hat gezeigt, welche Macht von Fake News ausgehen kann. Auch im Hinblick auf kommende politische Entscheidungen ist es daher essentiell, Falschmeldungen künftig schneller identifizieren zu können. Dabei gibt es jedoch ein Problem: Menschen haben in der Vergangenheit wiederholt ihre Unfähigkeit unter Beweis gestellt, echte Meldungen von frei erfundenen Geschichten zu unterscheiden. Wenn der Mensch also nicht in der Lage ist, den Unterschied zwischen wahr und falsch zu erkennen, könnte man diese Aufgabe dann von Maschinen erledigen lassen?
Videos by VICE
Um diese Frage zu beantworten, hat der Computerwissenschaftler William Wang die weltweit größte Datenbank für Fake News, LIAR, entwickelt. Sein Ziel: Er möchte Maschinen darauf trainieren, automatisch unwahre Inhalte zu erkennen.
Folgt Motherboard auf Facebook, Instagram, Snapchat und Twitter
Der Probedatensatz, auf dem LIAR aufbaut, besteht aus 12.836 Statements aus der Pulitzer-prämierten Datenbank politifact.com. Somit ist LIAR um ein Vielfaches umfangreicher als die anderen Fake-News-Datenbanken, die in Reaktion auf die US-Wahl 2016 aufgesetzt wurden.
Damit der Algorithmus lernen konnte, die Aussagen zu beurteilen, wurde jedes der 12.836 Zitate mit Informationen über seinen Wahrheitsgehalt, Inhalt und Kontext versehen. Außerdem enthielten die Metadaten Informationen über die Person, die die Aussage getroffen hatte – beispielsweise ihre Parteizugehörigkeit und ob diese Person bereits in der Vergangenheit unwahre Aussagen verbreitet hatte. Für jedes Zitat gab es zudem einen ausführlichen Analysebericht.
Nun begannen die Forscher, dem neuronalen Netz beizubringen, Fake News zu identifizieren. Für das Training nutzten die Forscher 10.000 Beispiele aus ihrer Datenbank, damit die Maschine lernen konnte, wie Fake News überhaupt aussehen – beispielsweise welche Wörter oder Themen besonders häufig auf Falschnachrichten hindeuten.
Nachdem das neuronale Netz mit diesen Statements trainiert worden war, wurden ihm 1.000 weitere Aussagen aus dem Datensatz vorgesetzt. Diesmal wusste die Maschine jedoch nicht, wo die Aussage auf der Wahrheitsskala von Politifact einzuordnen ist. Auf Politifact werden Aussagen in sechs Kategorien unterteilt: ‘glatte Lüge’, ‘falsch’, ‘kaum wahr’, ‘halbwahr’, ‘größtenteils wahr’ und ‘wahr’.
Genau in dieser differenzierten Unterscheidung bestehe jedoch die größte Herausforderung für das System, so LIAR-Entwickler Wang. Für Maschinen sei es viel schwerer, die Aussagen nach verschiedenen Wahrheitsgraden zu bewerten, statt sie nur in richtig oder falsch einzuteilen.
Trotzdem zeigte LIAR nach dem Training eine hohe Erfolgsquote: Ließ man die Maschine einfach nur raten, wo eine Aussage auf der sechs-Punkte-Skala einzuordnen ist, so lag die Trefferquote bei etwa 20 Prozent. Durch weiteres intensives Training habe er LIARs Treffsicherheit jedoch auf 27 Prozent erhöhen können, so Wang.
Auch wenn eine Quote von 27 Prozent kaum ausreichen dürfte, um der Verbreitung von Fake News in naher Zukunft ein Ende zu bereiten, sind Wangs Ergebnisse trotzdem ein kleiner Erfolg: Sie zeigen einerseits, wie schwer es für Maschinen ist, menschliche Täuschungsmanöver zu durchschauen; und andererseits, dass sie lernfähig sind.
„Ich sehe diese Studie als Vorarbeit. Es liegt noch viel Arbeit vor uns, damit Maschinen in Zukunft zuverlässig Fake News erkennen können”, so Wang in einer E-Mail an Motherboard. „Es ist für Maschinen sehr schwer, Fake News zu identifizieren, wenn sie die Aussagen nicht mit einer externen Datenbank überprüfen können. Zukünftig werden wir versuchen, Fact-Checking-Algorithmen zu entwickeln, die zusätzlich zum Kontext und den Metadaten auch nach externen Beweisen suchen.”