Anzeige
Tech

Ein Irrtum von 1925 hat die moderne Wissenschaft in die Krise gestürzt

Aber 72 Forscher haben jetzt eine ziemlich gute Idee, wie sie zu lösen ist.

von Theresa Locker
30 August 2017, 11:07am

Ronald Fisher, de "Vader van de Statistiek" | Beeld: Wikimedia Commons; Bewerking: Motherboard

Machen wir doch mal ein Experiment: Eine Schulklasse trinkt jeden Tag mehrere Liter Energydrinks zu allen Mahlzeiten. Eine zweite Klasse nicht. Wenn ich jetzt beobachte, wie alle Schüler der ersten Schulklasse spätabends hyperaktiv im Kreis rennen, statt brav einzuschlafen, ist das dann Zufall oder nicht? Die naheliegende Antwort lautet: Wahrscheinlich nicht.

Wir gehen davon aus, dass die Monsterration aufputschender Getränke an den Schlafstörungen der Kinder schuld ist und erwarten, dass sie eine Nachtschicht schieben. Aber wie sicher können wir uns da sein? Um unsere Annahme statistisch zu belegen, müssen wir die Möglichkeit des Zufalls als Variable in der Gleichung einberechnen.

Folgt Motherboard auf Facebook, Instagram, Snapchat und Twitter

Das tun Wissenschaftler gern mit dem sogenannten p-Wert, den sie in ihre Daten mit einbeziehen. Seit den Zwanzigerjahren benutzen die meisten Forscher dafür einen Wert von p=0,05 oder fünf Prozent, um abzuschätzen, wie wahrscheinlich es ist, dass das gemessene Ergebnis allein durch den Zufall – in der Stichprobe gab es eben besonders aufgeweckte Kinder! – und nicht durch die Energydrinks zustandekommen. Nach diesem Check mit dem p-Wert am Computer kommt am Ende für unsere Untersuchung ein Wert zwischen 0 und 1 heraus. Liegt er ganz nah an 0, könnten wir schon mal den Schampus kaltstellen, denn ein Artikel in einem prestigeträchtigen Fachblatt und damit Ruhm und Ehre wären plötzlich greifbar geworden: Unser Ergebnis gilt in der Wissenschaft plötzlich als "statistisch hochsignifikant".

Dass wir immer noch alle mit dem willkürlichen p-Wert rechnen, gilt als schmutziges Geheimnis der Wissenschaft.

Der p-Wert gilt für die Kompatibilität von Daten mit einem festgelegten statistischen Modell als unanfechtbarer Standard, doch tatsächlich ist er das nicht – er kann die Aussage nicht treffen, zu der er dienen soll. Denn er muss eigentlich je nach Untersuchung behutsam neu angepasst werden, ist willkürlich festgelegt und längst nicht so aussagekräftig und objektiv, wie die meisten meinen.

Dass wir ihn trotzdem immer noch benutzen, ist eigentlich paradox, denn er führt so häufig zu nicht reproduzierbaren Ergebnissen in der Forschung, dass sich der weltgrößte Statistikerverband genötigt sah, ein langes Pamphlet darüber zu veröffentlichen, was der p-Wert alles nicht aussagen kann. "Lasst uns ganz klar sagen", liest man dort etwas rechthaberisch, "dass Statistiker schon seit Jahrzehnten Alarm in dieser Sache schlagen".

Seit 1925 ein sehr berühmter Statistiker namens Ronald Fisher ziemlich wahllos die Idee hatte, dass man ihn für statistische Tests bei fünf Prozent ansetzen könnte, um möglichst wenig sogenannter "false positives" oder "false negatives" zu ermitteln, hat sich daran bis heute wenig geändert. Fisher hat sich damals von der Tabelle eines Guinness-Brauers inspirieren lassen, um den Begriff der "statistischen Signifikanz" zu definieren. Später übernahmen Statistiker den Fünf Prozent-Wert in Lehrbücher – und dass er bis heute benutzt wird, bezeichnen manche Autoren als "schmutziges Geheimnis der Wissenschaft".

Ja, es gibt Statistik-Memes! Zumindest eins. Hier der Unterschied zwischen einem 'false positive' und einem 'false negative', also fälschlicherweise zurückgewiesenen oder angenommenen Nullhypothesen. Bild: 9Gag

Noch heute lernen Studierende, wenn sie sich durch den Statistikkurs quälen: Die Irrtumswahrscheinlichkeit liegt bei fünf Prozent. Wissenschaftler bearbeiten solange ihre Daten, bis die Ergebnisse mit dem p-Wert in den Bereich "hochsignifikant" fallen – dafür gibt es sogar einen Begriff: p-Hacking. Aber warum ist das eigentlich so? Dass da ein bisschen Willkür im Spiel sein könnte, ist schon seit Jahrzehnten Thema unter Wissenschaftlern. Vielen Statistik-Neulingen kommt dieser festgelegte Wert zu Recht verdächtig simpel vor – und auch Professoren geben zu, dass unser statistischer Werkzeugkasten ein dringendes Update braucht.

Medizin, Chemie, Psychologie: Die meisten veröffentlichten wissenschaftlichen Ergebnisse sind wahrscheinlich falsch.

Doch so richtig trat erst 2016 das Fachblatt Nature die Debatte los: 1.500 Forscher wurden gefragt, ob sie die publizierten Versuche ihrer Kollegen wiederholen könnten. Das Ergebnis war katastrophal: 70 Prozent der Befragten hatten es nach eigenen Angaben nicht geschafft, die Experimente anderer Wissenschaftler zu reproduzieren, und die gleichen "signifikanten" oder "hochsignifikanten" Ergebnisse zu erzielen. Man nennt das "Krise der Reproduzierbarkeit". Und die ist ein gigantisches Problem, weil die Reproduzierbarkeit eine essentielle Säule der wissenschaftlichen Arbeitsweise ist. Vereinfacht gesagt: Wenn jemand eine Studie liest, die ein Wissenschaftler geschrieben hat und genau dieselben Werkzeuge zur Verfügung hat, dann muss es ihm mit der Studie als Anleitung gelingen, zu den gleichen ermittelten Ergebnissen zu kommen – sonst hätte man sich ja alles auch gleich ausdenken können.

Heute befinden sich Medizin, Wirtschaft, Psychologie und Chemie allesamt in einer schweren Krise – und das Problem liegt noch nicht mal in Donald Trumps Antiwissenschaftlichkeit. Es steht nicht weniger auf dem Spiel als das Vertrauen in die Forschungsdisziplinen selbst.

61 von 100 Studien in der Psychologie ließen sich in einem groß angelegten Experiment nicht wiederholen; damit sind die Erkenntnisse für darauf aufbauende Forschungen so gut wie wertlos. Auch in anderen Disziplinen wie Wirtschaftswissenschaften oder Chemie kamen Meta-Untersuchungen der vergangenen Jahre auf ähnlich desaströse Werte. Und eine vielbeachtete Studie im medizinischen Fachverlag PLOS One hieß ganz trocken: "Warum die meisten publizierten Forschungsergebnisse falsch sind".

So sieht der p-Wert in einer Kurve aus. Wichtig: Der p-Wert darf nicht als Wahrheits-Score benutzt werden – doch genau das passiert in vielen wissenschaftlichen Veröffentlichungen. Bild: Wikimedia Commons

Während diese Krise viele Facetten und Ursachen hat, liegt ein großer Teil auch daran, dass der p-Wert seit Fishers Statistik-Standardwerk von 1925 quasi willkürlich auf fünf Prozent festgesetzt wurde und in vielen Disziplinen bis heute als eine Art Wahrheits-Score für die Untersuchung angewendet wird. Schließlich werden signifikante Ergebnisse wegen ihres Neuigkeitswerts häufiger in wissenschaftlichen Journalen veröffentlicht als Replikationsstudien – auch, wenn sich später herausstellt, dass sie gar nicht reproduzierbar sind und die Ergebnisse nur haufenweise "false positives" liefern – also einen Effekt beobachten, der eigentlich nur "falscher Alarm" ist statt einer Erkenntnis. Dazu kommt: Der Druck, publizierbare Ergebnisse zu produzieren, ist gerade bei jungen Forschern hoch.

Kann ein kleiner Trick die Wissenschaft wieder auf festeren Boden stellen?

Doch jetzt kommt neue Bewegung in die Forschergemeinde: 72 Wissenschaftler verschiedener Disziplinen haben sich für ein fachübergreifendes Paper zusammengetan. Sie schlagen eine relativ einfache Lösung vor: Man könne doch einfach die Schwelle für ein "signifikantes" Ergebnis von 0.05 auf 0.005 verkleinern. Alle Ergebnisse, die dazwischenliegen, würden nur noch als "suggestiv" behandelt werden – ob es tatsächlich einen messbaren Effekt in den Ergebnissen gäbe, würde damit noch offengelassen.

Tatsächlich gibt es schon zwei wissenschaftliche Felder, in denen die Schwelle für signifikante Ergebnisse bereits gesenkt wurde: Sowohl in der Genetik als auch im Bereich der hochenergetischen Physik wurde der p-Wert bereits feldübergreifend verkleinert. Mit guten Erfahrungen – die Genetik hat sich dadurch zur Disziplin mit stabilen Ergebnissen gemausert. Auch damals kam der Anstoß von Wissenschaftlern aus der Fachdisziplin selbst, die sich um die Verlässlichkeit ihrer Ergebnisse sorgten.

Dass sich jedoch nun so viele Forscher aus Disziplinen beteiligen, deren Forschungsergebnisse jüngst in Verruf geraten sind, beweist, wie groß die Unterstützung für diese Idee mittlerweile ist.

Wenn diese neuen Schwellenwerte nicht nur von Forschern, sondern auch von Redakteuren wichtiger wissenschaftlicher Fachpublikationen angenommen würden, würden möglicherweise die Journale ziemlich leer bleiben – denn es gäbe nur noch sehr wenige Studien, deren Ergebnisse dann überhaupt noch statistisch signifikant wären. Dafür gäbe es aber möglicherweise einen Anreiz, um mehr Replikationsstudien von früheren Experimenten durchzuführen. Leider klingt das für viele Forscher unsexy, weil das Wiederholen einer schon geleisteten Studie zwar das Ergebnis auf festeren Boden stellt, aber möglicherweise keine bahnbrechenden neuen Erkenntnisse liefert.

Bei der Verkleinerung des p-Werts gibt es nämlich noch ein Problem: Um dieselbe statistische Aussagekraft zu haben, müsste man die Samplegröße – also zum Beispiel, wie viele Teilnehmer es bei der Energydrink-Studie gibt – bei einem Hypothesentest um fast 70 Prozent erhöhen, schreibt das Center for Open Science. Wir brauchen also mehr Schüler, mehr Red Bull, mehr Geld. Wissenschaftlich gesicherte Erkenntnisse, die auch dem Test der Zeit standhalten und den Forschern von morgen noch einen Nutzen bringen, haben also ihren Preis.

Tagged:
tech
Motherboard
mathematik
Wissenschaft
Forschung
Krise
Statistik
sample
Wahrscheinlichkeit