Bild: Valérie Chételat

Jaantwortet der Statistiker Thomas Fabbro.

Die Kontroverse um Signifikanztests ist so alt wie die Methode selbst. Die meisten Kritikpunkte laufen auf das gleiche hinaus: Die statistischen Methoden werden falsch angewendet oder die Resultate daraus falsch interpretiert. Richtig durchgeführt, ist das Testen von Hypothesen jedoch weiterhin nützlich und wichtig.

Bild: Valérie Chételat

Neinantwortet die Statistikerin Fränzi Korner-Nievergelt.

Um Schlüsse zu ziehen und Entscheidungen zu treffen, wird oft getestet, ob der p-Wert unter fünf Prozent liegt (p < 0,05). Leider ist die Bedeutung des p-Werts so schwierig zu verstehen, dass die meisten Forschenden falsche Schlüsse daraus ziehen. Weit verbreitet ist die falsche Annahme, dass ein p-Wert über 5 Prozent beweise, dass kein Effekt vorhanden ist.

p-Wert und statistisch signifikante Resultate
Eine Studie zeigt einen Effekt. Aber sind die beobachteten Unterschiede vielleicht zufällig? Messwerte variieren ja immer. Forschende berechnen deswegen die Wahrscheinlichkeit, dass die Unterschiede rein zufällig entstanden sind: den p-Wert. Ist er klein genug, gehen sie davon aus, dass der Effekt echt ist. Liegt er unter der Schwelle von fünf Prozent (p < 0,05), sagen sie: «Die Resultate sind statistisch signifikant.»

Die Theorie dahinter ist sicher nicht einfach zu verstehen. Im Gegensatz dazu ist die Anwendung dank heutigen Computerprogrammen simpel. Das kommt vielen Anwendern sehr entgegen, da sie sich primär mit ihrem Forschungsthema und nicht mit der Methodik auseinandersetzen möchten. Sie möchten unterscheiden, ob ein Effekt signifikant ist oder nicht, und vertrauen dem Computerprogramm blind. Leider bedeutet signifikant nicht
automatisch relevant. So werden aus sehr vielen Untersuchungen Schlussfolgerungen gezogen, die statistisch unhaltbar sind. Gewisse Argumente der Kritiker sind also richtig: Die statistische Signifikanz mit dem p-Wert sollte weniger zum Zug kommen. Häufig wäre es besser, den geschätzten Effekt und dessen Genauigkeit zu beschreiben.

Das Hypothesentesten bleibt jedoch eine sehr wertvolle Methode, wenn es darum geht, informierte Entscheidungen zu treffen und deren Nutzen und Risiken genau abzuwägen, zum Beispiel, wenn ein Medikament oder eine Therapie getestet wird. Eine unverzichtbare Grundlage für eine solche Anwendung ist jedoch eine gute statistische Planung, und diese muss in vielen Fachgebieten wesentlich verbessert werden.

«Wie eng die Planung mit der Interpretation der Resultate verbunden ist, ist vielen nicht bewusst.»

Möchten Forschende zum Beispiel zeigen, dass sich zwei Behandlungen unterscheiden, müssen sie zwingend im Vorfeld festlegen, wie sie den Effekt messen. Zusätzlich müssen sie begründen, wie gross der gesuchte Effekt mindestens sein soll, damit er inhaltlich relevant ist. Dieser rein fachliche Schritt ist für die Planung unerlässlich. Basierend darauf kann auch die Stichprobengrösse berechnet werden: Ist sie zu klein, kann ein relevanter Effekt nicht gezeigt werden; ist sie zu gross, können irrelevante Effekte signifikant werden. Wie eng die Planung mit der Interpretation der Resultate eines Hypothesentests verbunden ist, ist vielen nicht bewusst. Um das Bewusstsein dafür zu schärfen, schlage ich deshalb vor, diese Informationen schon vor der Durchführung einer Studie zu veröffentlichen. Schon heute gibt es wissenschaftliche Fachmagazine, die solche Studienprotokolle vorab veröffentlichen. Der Trend wird sich fortsetzen.

Neben den Hypothesentests hat eine gute Planung noch viele weitere positive Auswirkungen auf den ganzen Wissenschaftsbetrieb. Der Fokus der Diskussion sollte deshalb weg von isolierten methodischen Aspekten hin zum wissenschaftlichen Gesamtkontext gelenkt werden.

Thomas Fabbro ist Biologe, Dozent an der Universität Basel und Leiter klinische Forschungsinfrastruktur am Departement Klinische Forschung (Clinical Trial Unit) des Universitätsspitals Basel.

Zum Beispiel fand 2017 eine kanadische Studie bei Kindern, deren Mütter in der Schwangerschaft ein Antidepressivum eingenommen haben, ein 1,6 Mal höheres Risiko für Autismus. Der p-Wert lag aber ganz knapp über fünf Prozent, womit der Effekt statistisch nicht signifikant war. Daraus folgerten die Autoren fälschlicherweise, das Antidepressivum habe keinen Einfluss auf das Risiko für Autismus. Dabei wäre sogar ein 2,6 Mal erhöhtes Risiko immer noch mit den Daten vereinbar. Zu solchen Fehlschlüssen kommt es, weil der Glaube so verbreitet ist, ab einem p-Wert von fünf Prozent kehre sich die Schlussfolgerung einer Studie um.

Die Probleme mit dem p-Wert gehen noch weiter: Selbst wenn Forschende den p-Wert korrekt verwenden, kann es in der Praxis schiefgehen. Die von Biologen richtig formulierte Aussage «wir fanden keinen signifikanten Zusammenhang zwischen der Dauer der Jagdzeit und der Population
einer Tierart» ist für einige Politiker Beweis für das Fehlen eines solchen Zusammenhangs. Anstelle des p-Werts hätten die Biologen besser die Stärke des Zusammenhangs gezeigt. Das würde erlauben abzuschätzen, wie sich die zukünftige Population entwickelt, je nach Jagddauer, unter Berücksichtigung des aktuellen Wissenstands. Aufgrund dieser Information könnten sich die Interessengruppen auf eine Jagddauer einigen.

«Nur weil wir mehr Daten erheben, verändert sich ein biologischer Zusammenhang nicht.»

Eine datenbasierte Entscheidung ist nicht möglich, wenn das Resultat auf einen p-Wert grösser oder kleiner als fünf Prozent reduziert wird. Denn ob der Schwellenwert unterschritten wird, darüber entscheidet vor allem die Stichprobengrösse. Nur weil wir mehr Daten erheben, verändert sich ein biologischer Zusammenhang aber nicht. Durch die Reduktion auf den p-Wert geht die Information über die Stärke des Zusammenhangs verloren.

Eine gute Entscheidung ist der Situation angepasst und basiert auf Abwägung verschiedener Alternativen. Bei einer stark gefährdeten Tierart genügen schwache Hinweise auf einen Populationsrückgang, um Schutzmassnahmen zu rechtfertigen. Hingegen werden wir bei einer weit verbreiteten Art erst handeln, wenn starke Hinweise auf eine Abnahme vorliegen. Ein für alle Anwendungen gleiches Kriterium, wie es p < 0,05 ist, führt zu willkürlichen Entscheiden ohne Berücksichtigung der Konsequenzen. Das ist verantwortungslos.

Fränzi Korner-Nievergelt ist Biologin, Inhaberin des Statistikbüros Oikostat, Dozentin an der ETH Zürich und Mitarbeiterin der Schweizerischen Vogelwarte Sempach.

Bild: Valérie Chételat

Jaantwortet der Statistiker Thomas Fabbro.

Die Kontroverse um Signifikanztests ist so alt wie die Methode selbst. Die meisten Kritikpunkte laufen auf das gleiche hinaus: Die statistischen Methoden werden falsch angewendet oder die Resultate daraus falsch interpretiert. Richtig durchgeführt, ist das Testen von Hypothesen jedoch weiterhin nützlich und wichtig.

Die Theorie dahinter ist sicher nicht einfach zu verstehen. Im Gegensatz dazu ist die Anwendung dank heutigen Computerprogrammen simpel. Das kommt vielen Anwendern sehr entgegen, da sie sich primär mit ihrem Forschungsthema und nicht mit der Methodik auseinandersetzen möchten. Sie möchten unterscheiden, ob ein Effekt signifikant ist oder nicht, und vertrauen dem Computerprogramm blind. Leider bedeutet signifikant nicht
automatisch relevant. So werden aus sehr vielen Untersuchungen Schlussfolgerungen gezogen, die statistisch unhaltbar sind. Gewisse Argumente der Kritiker sind also richtig: Die statistische Signifikanz mit dem p-Wert sollte weniger zum Zug kommen. Häufig wäre es besser, den geschätzten Effekt und dessen Genauigkeit zu beschreiben.

Das Hypothesentesten bleibt jedoch eine sehr wertvolle Methode, wenn es darum geht, informierte Entscheidungen zu treffen und deren Nutzen und Risiken genau abzuwägen, zum Beispiel, wenn ein Medikament oder eine Therapie getestet wird. Eine unverzichtbare Grundlage für eine solche Anwendung ist jedoch eine gute statistische Planung, und diese muss in vielen Fachgebieten wesentlich verbessert werden.

«Wie eng die Planung mit der Interpretation der Resultate verbunden ist, ist vielen nicht bewusst.»

Möchten Forschende zum Beispiel zeigen, dass sich zwei Behandlungen unterscheiden, müssen sie zwingend im Vorfeld festlegen, wie sie den Effekt messen. Zusätzlich müssen sie begründen, wie gross der gesuchte Effekt mindestens sein soll, damit er inhaltlich relevant ist. Dieser rein fachliche Schritt ist für die Planung unerlässlich. Basierend darauf kann auch die Stichprobengrösse berechnet werden: Ist sie zu klein, kann ein relevanter Effekt nicht gezeigt werden; ist sie zu gross, können irrelevante Effekte signifikant werden. Wie eng die Planung mit der Interpretation der Resultate eines Hypothesentests verbunden ist, ist vielen nicht bewusst. Um das Bewusstsein dafür zu schärfen, schlage ich deshalb vor, diese Informationen schon vor der Durchführung einer Studie zu veröffentlichen. Schon heute gibt es wissenschaftliche Fachmagazine, die solche Studienprotokolle vorab veröffentlichen. Der Trend wird sich fortsetzen.

Neben den Hypothesentests hat eine gute Planung noch viele weitere positive Auswirkungen auf den ganzen Wissenschaftsbetrieb. Der Fokus der Diskussion sollte deshalb weg von isolierten methodischen Aspekten hin zum wissenschaftlichen Gesamtkontext gelenkt werden.

Thomas Fabbro ist Biologe, Dozent an der Universität Basel und Leiter klinische Forschungsinfrastruktur am Departement Klinische Forschung (Clinical Trial Unit) des Universitätsspitals Basel.


Bild: Valérie Chételat

Neinantwortet die Statistikerin Fränzi Korner-Nievergelt.

Um Schlüsse zu ziehen und Entscheidungen zu treffen, wird oft getestet, ob der p-Wert unter fünf Prozent liegt (p < 0,05). Leider ist die Bedeutung des p-Werts so schwierig zu verstehen, dass die meisten Forschenden falsche Schlüsse daraus ziehen. Weit verbreitet ist die falsche Annahme, dass ein p-Wert über 5 Prozent beweise, dass kein Effekt vorhanden ist.

Zum Beispiel fand 2017 eine kanadische Studie bei Kindern, deren Mütter in der Schwangerschaft ein Antidepressivum eingenommen haben, ein 1,6 Mal höheres Risiko für Autismus. Der p-Wert lag aber ganz knapp über fünf Prozent, womit der Effekt statistisch nicht signifikant war. Daraus folgerten die Autoren fälschlicherweise, das Antidepressivum habe keinen Einfluss auf das Risiko für Autismus. Dabei wäre sogar ein 2,6 Mal erhöhtes Risiko immer noch mit den Daten vereinbar. Zu solchen Fehlschlüssen kommt es, weil der Glaube so verbreitet ist, ab einem p-Wert von fünf Prozent kehre sich die Schlussfolgerung einer Studie um.

Die Probleme mit dem p-Wert gehen noch weiter: Selbst wenn Forschende den p-Wert korrekt verwenden, kann es in der Praxis schiefgehen. Die von Biologen richtig formulierte Aussage «wir fanden keinen signifikanten Zusammenhang zwischen der Dauer der Jagdzeit und der Population
einer Tierart» ist für einige Politiker Beweis für das Fehlen eines solchen Zusammenhangs. Anstelle des p-Werts hätten die Biologen besser die Stärke des Zusammenhangs gezeigt. Das würde erlauben abzuschätzen, wie sich die zukünftige Population entwickelt, je nach Jagddauer, unter Berücksichtigung des aktuellen Wissenstands. Aufgrund dieser Information könnten sich die Interessengruppen auf eine Jagddauer einigen.

«Nur weil wir mehr Daten erheben, verändert sich ein biologischer Zusammenhang nicht.»

Eine datenbasierte Entscheidung ist nicht möglich, wenn das Resultat auf einen p-Wert grösser oder kleiner als fünf Prozent reduziert wird. Denn ob der Schwellenwert unterschritten wird, darüber entscheidet vor allem die Stichprobengrösse. Nur weil wir mehr Daten erheben, verändert sich ein biologischer Zusammenhang aber nicht. Durch die Reduktion auf den p-Wert geht die Information über die Stärke des Zusammenhangs verloren.

Eine gute Entscheidung ist der Situation angepasst und basiert auf Abwägung verschiedener Alternativen. Bei einer stark gefährdeten Tierart genügen schwache Hinweise auf einen Populationsrückgang, um Schutzmassnahmen zu rechtfertigen. Hingegen werden wir bei einer weit verbreiteten Art erst handeln, wenn starke Hinweise auf eine Abnahme vorliegen. Ein für alle Anwendungen gleiches Kriterium, wie es p < 0,05 ist, führt zu willkürlichen Entscheiden ohne Berücksichtigung der Konsequenzen. Das ist verantwortungslos.

Fränzi Korner-Nievergelt ist Biologin, Inhaberin des Statistikbüros Oikostat, Dozentin an der ETH Zürich und Mitarbeiterin der Schweizerischen Vogelwarte Sempach.

p-Wert und statistisch signifikante Resultate
Eine Studie zeigt einen Effekt. Aber sind die beobachteten Unterschiede vielleicht zufällig? Messwerte variieren ja immer. Forschende berechnen deswegen die Wahrscheinlichkeit, dass die Unterschiede rein zufällig entstanden sind: den p-Wert. Ist er klein genug, gehen sie davon aus, dass der Effekt echt ist. Liegt er unter der Schwelle von fünf Prozent (p < 0,05), sagen sie: «Die Resultate sind statistisch signifikant.»