p-Hacking, auch als specification searching bekannt, bezeichnet die Verzerrung[1] und Manipulation von Forschungsresultaten durch nachträgliche Anpassung der Testparameter.

Der -Wert wird „gehackt“, also künstlich unter die 5-%-Grenze gedrückt. Auf diese Weise wird eine vermeintliche Statistische Signifikanz der Ergebnisse erzeugt. Die häufige Fehlinterpretation von -Werten und die Anwendung von -Hacking hat zu unzähligen falschen Forschungsresultaten geführt, die der Wissenschaft geschadet haben.[2] -Hacking kann als Reaktion wissenschaftlicher Autoren auf die Tatsache angesehen werden, dass Studien mit signifikanten Ergebnissen für die Publikation präferiert werden und Analysen, die nicht signifikante Resultate aufweisen, unveröffentlicht bleiben (File-Drawer-Problem). Mit Hilfe von Metaanalysen ist es möglich, -Hacking aufzudecken[1].

Statistische Signifikanz durch ZufallBearbeiten

Beim Prozess des Data-Minings in einem einzigen Datensatz werden durch akribisches automatisiertes Suchen von Variablenkombinationen, die eine Korrelation aufweisen könnten, eine große Anzahl an Hypothesen getestet.

Konventionelle Signifikanztests legen a priori eine Fehlerwahrscheinlichkeit (größer als Null) für einen Fehler 1. Art fest. Es muss also das Risiko akzeptiert werden, mit dieser Wahrscheinlichkeit ein falsches Testergebnis zu erhalten. Wenn eine Vielzahl von statistischen Tests durchgeführt wird, dann produzieren einige davon per Konstruktion durch Zufall falsche Ergebnisse. Somit stellt sich heraus, das 5 % der zufällig ausgewählten Hypothesen nur durch Zufall signifikant auf dem 5-%-Level sind, 1 % auf dem 1-%-Level usw. Wenn ausreichend viele Hypothesen getestet wurden, ist es praktisch sicher, dass manche Hypothesen fälschlicherweise als statistisch signifikant erscheinen.

Beispiel: SchokoladendiätBearbeiten

In einer satirisch angelegten Studie[3] behauptete John Bohannon 2015, dass Bitterschokolade als Teil einer Diät zu Gewichtsreduktion führen könne.

Um diese Behauptung mit einer Irrtumswahrscheinlichkeit kleiner 5 % zu veröffentlichen (also  ), dachte er sich im Vorfeld 18 unterschiedliche Kriterien aus, auf die Bitterschokolade eine Wirkung haben könnte, beispielsweise Gewicht, Cholesterol-Wert, Blutdruck, Schlafqualität etc. Einzeln für sich war es sehr unwahrscheinlich, dass Bitterschokolade eines dieser Kriterien statistisch signifikant beeinflusst. Aber dadurch, dass es so viele Kriterien waren, war von Anfang an die Wahrscheinlichkeit hoch, dass irgendeine von ihnen (zufälligerweise) signifikant mit dem Konsum von Bitterschokolade korrelieren würde. In dieser Studie ergab sich, dass die Behauptung mit der Gewichtsreduktion „statistisch signifikant“ war.

Die Studie wies absichtlich zahlreiche andere methodische Fehler auf und wollte dadurch auf genau diese Missstände hinweisen.

Weitere PraktikenBearbeiten

Eine Variante des  -Hacking liegt vor, wenn während einer Studie die statistische Relevanz der Daten geprüft wird, um vom Ergebnis dieser Prüfung abhängig zu machen, ob weitere zusätzliche Daten erhoben werden. Desgleichen, wenn die Erhebung von Daten nach einer solchen Zwischenprüfung vorzeitig beendet wird. Stattdessen sollte vorab festgelegt werden, welche Datenmenge untersucht wird. Auch das nachträgliche Ausschließen, Kombinieren oder Aufteilen von Beobachtungsgruppen weist auf versuchtes  -Hacking hin.

Wenn zur Messung eines Effektes Störfaktoren herausgerechnet werden müssen, die Auswahl der zu berücksichtigenden Störfaktoren aber von der sich jeweils ergebenden Größe des gemessenen Effekts abhängig gemacht wird ist dies ebenfalls  -Hacking. Eine weitere Variante ist das Abrunden eines  -Wertes, der die vorgegebene Schwelle in nicht angegebenen Nachkommastellen überschreitet.

GegenmaßnahmenBearbeiten

Eine zunehmende Anzahl von Fachzeitschriften geht mittlerweile zum Format des registrierten Berichts über, um wissenschaftlichem Fehlverhalten wie p-Hacking und HARKing entgegenzutreten.[4]

LiteraturBearbeiten

WeblinksBearbeiten

EinzelnachweiseBearbeiten

  1. a b Megan L. Head u. a.: The Extent and Consequences of P-Hacking in Science. In: PLOS Biology. 13. März 2015, doi:10.1371/journal.pbio.1002106. S. 1.
  2. Regina Nuzzo: Wenn Forscher durch den Signifikanztest fallen. In: Spektrum.de. 2. Februar 2014, abgerufen am 11. April 2018.
  3. io9.gizmodo.com
  4. Promoting reproducibility with registered reports. In: Nature.com. 10. Januar 2017, doi:10.1038/s41562-016-0034.