Anzeige
Tech

Künstliche Intelligenz entdeckt, was alle Forschenden seit Jahren übersehen

Forschende haben einen Algorithmus auf alte wissenschaftliche Texte losgelassen und festgestellt: Die Informationen sind da, Menschen erkennen sie nur nicht.

von Madeleine Gregory
11 Juli 2019, 3:30am

Symbolfoto | Androiden: imago images / Science Photo Library | Netzwerk: imago images / blickwinkel 

Jetzt übernehmen die Maschinen auch noch die Forschung für uns: Allein auf der Grundlage von Millionen älterer wissenschaftlicher Arbeiten hat es ein Machine-Learning-Algorithmus geschafft, neue Entdeckungen zu machen.

Für eine am 3. Juli veröffentlichten Studie sind Forschende des amerikanischen Lawrence Berkeley National Laboratory mit einem Algorithmus wissenschaftliche Arbeiten durchgegangen, um so nach bisher übersehenen Zusammenhängen zu suchen. Und siehe da: Der Algorithmus namens Word2Vec gab Prognosen zu möglichen thermoelektrischen Materialien ab, die Wärme in Energie umwandeln und in vielen Heiz- und Kühlgeräten verwendet werden.

Der Clou: Word2Vec wusste gar nicht, wie Thermoelektrik überhaupt definiert ist. Er hatte nämlich kein Training im Bereich Materialwissenschaft erhalten. Nur durch Wortassoziationen war Word2Vec in der Lage, zukünftige thermoelektrische Materialien vorzuschlagen. Einige davon sind vielleicht sogar besser als die, die wir derzeit nutzen.


Auch bei VICE: Die Mathematik eines Massenaufstands


"Der Algorithmus kann jede materialwissenschaftliche Arbeit lesen und so Zusammenhänge herstellen, auf die kein Wissenschaftler kommen würde", sagt der Forscher Anubhav Jain. "Manchmal verhält er sich so wie wir Forschenden, manchmal macht er aber auch interdisziplinäre Assoziationen."

Um den Algorithmus zu trainieren, werteten die Forschenden den Text von 3,3 Millionen wissenschaftlichen Kurzfassungen aus dem Bereich Materialwissenschaft aus. So kamen sie auf ein Vokabular von rund 500.000 Wörtern. Dann speisten sie die Kurzfassungen in Word2Vec ein. So lernte der Algorithmus, wie verschiedene Wörter zusammenhängen.

"Der Word2Vec-Algorithmus funktioniert so: Man trainiert ein neurales Netzwerk darauf, jedes Wort einzeln zu betrachten und vorherzusagen, welche Wörter als Nächstes kommen", sagt Jain. "Indem man ein neurales Netzwerk auf ein Wort trainiert, bekommt man Wortgruppen heraus, die wirklich neues Wissen beinhalten."

Nur mithilfe der Wörter aus den wissenschaftlichen Kurzfassungen konnte der Algorithmus Dinge wie das Periodensystem oder die chemische Struktur von Molekülen verstehen. Der Algorithmus verband Wörter, die nah beieinanderstanden, und erschuf so Vektoren von verwandten Wörtern, mit denen verschiedene wissenschaftliche Konzepte klar wurden. Einige Wörter hat Word2Vec dann mit Thermoelektrik assoziiert, obwohl die Wörter in keiner der Kurzfassungen im thermoelektrischen Kontext fielen. Solche Wissenssprünge sind für Menschen nur schwer zu machen. Ein Algorithmus hat damit aber keine Probleme.

Nachdem die Fähigkeiten des Algorithmus klar waren, gingen die Forschenden damit in der Zeit zurück: Sie ließen Word2Vec auf ältere Arbeiten los, um zu bestätigen, dass ein Algorithmus wissenschaftliche Entdeckungen voraussagen kann. Auch hier landete Word2Vec mehrere Volltreffer.

In einem Versuch analysierten die Forschenden zum Beispiel ausschließlich Arbeiten, die vor 2009 veröffentlicht wurden. So konnten sie eines der besten modernen thermoelektrischen Materialien vorhersagen, das 2012 wirklich entdeckt wurde – nur schaffte Word2Vec das mit dem Stand der Forschung, wie sie vier Jahre zuvor aussah.

Diese neue Anwendungsmöglichkeit des maschinellen Lernens geht aber über die Materialwissenschaft hinaus. Weil Word2Vec nicht auf einen bestimmten wissenschaftlichen Datensatz trainiert ist, kann man den Algorithmus in verschiedenen Bereichen zum Einsatz bringen – man braucht nur die entsprechende Literatur. Vahe Tshitoyan, der Hauptautor der Studie, sagt, es hätten ihn schon andere Forschende kontaktiert, um mehr über Word2Vec zu erfahren.

"Dieser Algorithmus wird nicht gesteuert, er erschließt sich seine eigenen Zusammenhänge", sagt Tshitoyan. "Man könnte ihn zum Beispiel auch in der medizinischen Forschung einsetzen. Die Informationen sind bereits verfügbar. Wir haben bloß noch nicht alle Zusammenhänge erkannt, weil wir nicht alle Arbeiten lesen können."

Da habt ihr's: Die Wahrheit, und damit vielleicht auch die Lösung all unserer Probleme, ist schon längst da draußen. Wir müssen einfach nur ein Hirn darauf ansetzen, das mehr drauf hat als unser menschliches.

Folge VICE auf Facebook, Instagram und Snapchat.