Replikationskrise

systemisch unzureichende Wiederholbarkeit von Untersuchungsergebnissen

Die Replikationskrise oder Krise der Reproduzierbarkeit ist die anhaltende Beobachtung, dass zahlreiche wissenschaftliche Erkenntnisse in erneuten Studien nicht bestätigt werden können.

In der Psychologie wird seit 2011 verstärkt über diese methodische Krise diskutiert. Damit einher gehen zunehmende Zweifel an der Reliabilität veröffentlichter psychologischer Studien.[1][2] Einer großen öffentlichen Beachtung ausgesetzt und Mitauslöser für die Diskussion um die Replikationskrise in der Psychologie waren die von dem Sozialpsychologen Daryl Bem berichteten „Vorahnungen“ in Gedächtnisexperimenten, zu denen es gleich drei (fehlgeschlagene) Replikationsversuche gab.[3][4] Der kritische Bericht über diese Falsifikation wurde von Science und zwei psychologischen Fachzeitschriften abgelehnt, bevor er in der Online-Publikation PLOS ONE erschien.[1][2]

In der Medizin wird die von John Ioannidis 2005 veröffentlichte Publikation Why Most Published Research Findings Are False als Ursprung der in diesem Fachbereich stattfindenden Diskussion um die Replikationskrise gesehen.[2]

Reproduzierbarkeit der Untersuchungsergebnisse durch andere Forscher ist eine fundamentale Anforderung an wissenschaftliche Forschungsarbeiten, insbesondere in den Naturwissenschaften. Auch in anderen empirischen Wissenschaften wie der Psychologie und der Medizin sollten wichtige Ergebnisse durch unabhängige und qualifizierte Untersucher kontrolliert werden. Damit ist die Erwartung verbunden, dass wissenschaftliche Forschung sich in ihrem Verlauf selbst kontrolliert und sich schrittweise auf der Grundlage der replizierten Befunde weiterentwickelt.

Ausgangslage

Bearbeiten

Dass zahlreiche nicht-reproduzierbare Untersuchungsergebnisse publiziert wurden, ist in der Geschichte und Methodenlehre der Wissenschaften durchaus bekannt (vgl. Publikationsbias in der Medizin). Auch in der Vergangenheit gab es einzelne Stimmen,[5] die zu einer Replikation psychologischer Ergebnisse aufforderten. Bereits 1959 hatte der Statistiker Theodore Sterling bei seiner Analyse der Artikel in vier Psychologie-Zeitschriften festgestellt, dass fast alle Arbeiten positive Ergebnisse berichteten. Er sah hier einen Zusammenhang mit den Auswahlkriterien für eingereichte Manuskripte, welche die Publikation „positiver“ Ergebnisse begünstigen; eine erneute Analyse zeigte im Jahr 1995 eine unveränderte Sachlage.[6][7]

Die Frage der Reproduzierbarkeit wichtiger Befunde wird auf einigen Gebieten der Psychologie – wie auch in der Medizin – hauptsächlich in den gründlich referierenden Übersichten-Reviews zu kontroversen Themen oder in den auch statistisch zusammenfassenden Metaanalysen diskutiert (siehe evidenzbasierte Medizin). Demgegenüber sind in den Literaturbanken der Psychologie nur relativ wenige Publikationen über erfolgreiche und nicht erfolgreiche Replikationen psychologischer Experimente oder systematisch variierende Generalisierbarkeitsstudien verzeichnet. Gelegentlich äußert sich das in Fachkreisen durchaus vorhandene Problembewusstsein angesichts unerwarteter und wenig wahrscheinlicher Ergebnisse in dem ironisch-spöttischen Hinweis auf das Journal of Irreproducible Results, dessen Beiträge die Leser zum Lachen und dann zum Nachdenken bewegen sollen (Wissenschaftlicher Witz). Diesem 1955 gegründeten Magazin folgten 1995 die satirischen Annals of Improbable Research mit realen und fiktiven Experimenten zu oft absurden Themen.

In den Lehrbüchern der Methodenlehre der Psychologie werden die Strategien der Replikationsforschung eher beiläufig behandelt. Es mangelt noch an methodologischer Diskussion, an Konventionen und systematischen Ansätzen, und es gibt „Jede Menge Murks:“[8]

„Positive Ergebnisse in der Psychologie sind wie Gerüchte – leicht zu verbreiten, aber schwer zurückzunehmen. Sie prägen den Inhalt der meisten Fachzeitschriften, was kein Wunder ist, denn die Journale berichten mit Vorliebe über neue, spannende Studien. Versuche, diese zu reproduzieren, bleiben dagegen oft unveröffentlicht, insbesondere wenn sie scheitern.“

Ursachen der Replikationskrise

Bearbeiten

Welche Gründe hat dieser Mangel wissenschaftlicher Kontrolle? Sich mit Replikationen zu befassen, könnte als wenig kreativ gelten; entsprechende Publikationen würden dann kaum zum wissenschaftlichen Ansehen beitragen, so dass sie zumindest für jüngere Wissenschaftler weniger förderlich wären als die Publikation „neuer“ Befunde. Für diese Vermutung spricht die sehr reservierte Einstellung der Herausgeber vieler wissenschaftlicher Zeitschriften. In einer 1993 veröffentlichten Umfrage unter 79 Herausgebern von Social Science Journals lehnten 94 Prozent die Annahme von Manuskripten über Replikationsstudien ab, 54 Prozent der Gutachter meinten, dass sie eine neue Studie einer Replikationsstudie vorziehen.[9] Könnte darüber hinaus auch die Sorge mitspielen, dass zu viele publizierte Befunde nicht reproduzierbar sind? Im Hinblick auf das Reproducibility Project zitiert Siri Carpenter verschiedene Meinungen. So wird zwar diese „kühne Initiative“ anerkannt, jedoch zu bedenken gegeben, dass das Projekt, falls es nur wenige Experimente bestätigen würde, auf eine unfaire Anschuldigung der Psychologie hinauslaufen könne:[10]

„I think one would want to see a similar effort done in another area before one concluded that low replication rates are unique to psychology. It would really be a shame if a field that was engaging in a careful attempt at evaluating itself were somehow punished for that. It would discourage other fields from doing the same.“

Ein Senior der Psychologie habe von dem geplanten Reproducibilty Project abgeraten, weil die Psychologie unter Druck stehe und ein solches Projekt die Psychologie schlecht aussehen ließe.[11] Dagegen lobten andere Wissenschaftler die Initiative. Andere Disziplinen könnten von dieser Art der Selbst-Reflexion profitieren. Der Organisator des Projekts, Brian Nosek, erläuterte seinen Standpunkt:[12]

„We’re doing this because we love science. The goal is to align the values that science embodies – transparency, sharing, self-critique, reproducibility – with its practices.“

Fragwürdige Forschungsmethoden

Bearbeiten

In den USA und allmählich auch in Deutschland ist in allgemeinen Wissenschafts-Zeitschriften eine zunehmend kritische Einstellung gegenüber den üblichen Publikationsweisen und der mangelnden innerfachlichen Kontrolle zu erkennen. Das Interesse an Replikationsstudien wurde durch systematische Nachweise statistischer Mängel und durch extreme Fälle von Datenfälschung erhöht. Zunehmend wird die Forderung nach Qualitätskontrolle, beispielsweise nach Qualitätssicherung in der Psychologischen Diagnostik erhoben.

  • Ein neueres Beispiel für Betrug und Fälschung in der Wissenschaft gab der bekannte Sozialpsychologe Diederik Stapel, der mindestens 30 Publikationen mit erfundenen Daten verfasste. (Diese Fälschungen wurde allerdings nicht durch Replikationsversuche entdeckt, sondern aufgrund von Hinweisen aus seinem Arbeitskreis.) Außerdem bestehen aktuelle Vorwürfe gegen zwei weitere Sozialpsychologen: Dirk Smeesters und Jens Förster.
  • Die Anzahl der Rückrufe von nicht mehr vertrauenswürdigen wissenschaftlichen Veröffentlichungen in der Medizin, aber auch in den Sozialwissenschaften, ist zwar gering, hat jedoch deutlich zugenommen, wobei „Betrug“ der Hauptgrund war.[13] Die Rückrufquote scheint auch mit dem Impact-Faktor, d. h. dem Ansehen der Zeitschrift, zusammenzuhängen.[14]
  • In einer auf 2155 Antworten basierenden Umfrage zur Untersuchung der Forschungspraxis von Psychologen in den USA ergab sich: 43 Prozent räumten ein, unpassende Daten fortgelassen zu haben, 35 Prozent taten so, als ob das überraschende Ergebnis genau das war, was sie erwartet hätten, 2 Prozent räumten ein, bereits Daten frisiert zu haben.[15]
  • Die Untersucher haben einen Entscheidungsspielraum bei der Versuchsplanung: wie viele Personen, wie viele abhängige Variablen usw. Beispielsweise könnte die Chance, signifikante Ergebnisse zu erhalten, verdoppelt werden, wenn die Untersuchungsteilnehmer in zwei Altersgruppen oder wenn sie nach Geschlechtszugehörigkeit aufgegliedert werden. Außerdem können in paralleler Weise zusätzliche Prüfstatistiken berechnet werden. Ein Untersucher hat viele „Freiheitsgrade“ dieser Art und könnte versucht sein, durch solche, eventuell im Nachhinein getroffenen „flexiblen“ Entscheidungen die gewünschten „positiven“ Ergebnisse zu erreichen.[16] Im Extremfall werden die Hypothesen erst formuliert, wenn die Ergebnisse vorliegen.
  • In vielen Forschungsbereichen der Psychologie und der Medizin sind wegen des erheblichen Aufwandes Untersuchungen mit nur 20 bis 30 Personen üblich, beispielsweise in den Neurowissenschaften.[17][18] Oft wird übersehen, dass die statistischen Ergebnisse aufgrund der wenigen Daten einer Kleinstichprobe sogar in das Gegenteil verkehrt werden können, wenn der Autor bereits vor den Berechnungen einen auffälligen Wert, einen „Ausreißer“, berücksichtigt oder ausklammert.
  • Eine systematische Reanalyse klinischer Untersuchungen ergab, dass die Schlussfolgerungen zu den untersuchten Behandlungen bei 35 % der Publikationen substanziell von denjenigen der ursprünglichen Publikationen abweichen.[19] Wenn in den Folgestudien die Effektstärke deutlich abnimmt, wird von einem Decline-Effekt gesprochen.
  • Andere Autoren weisen auf die begrenzte Aussagekraft der statistischen Signifikanz eines Befundes hin und fordern, dass stets auch die Größenordnung des Effektes (Effektstärke) eines Untersuchungsergebnisses in geeigneten Kennwerten angegeben wird (Analyse der Power). Die Durchsicht von 1000 Publikationen ergab, gegen die theoretische Erwartung, dass die Effektstärke bei steigendem Stichprobenumfang abnimmt, d. h. ein spezieller Publikationsbias anzunehmen ist.[20]
  • Bei umfangreicher Überprüfung von Forschungsarbeiten in der Medizin stellte der Epidemiologe John Ioannidis sehr häufig Mängel fest.[21] Diese oft zitierte Studie wurde zwar in statistischer Hinsicht kritisiert,[22] doch wurde die Anzahl der falsch positiven Ergebnisse auf der Basis von 77 430 Artikeln in fünf wichtigen Zeitschriften der Medizin zwischen 2000 und 2010 immerhin auf 14 Prozent geschätzt, allerdings zeigte sich in diesem Zeitraum keine Zunahme dieser Tendenz.
  • In zahlreichen Publikationen der Psychologie gibt es Fehler der statistischen Analyse.[23] In 18 Prozent der geprüften 281 Beiträge gab es Mängel der statistischen Auswertung und in 15 Prozent mindestens einen Fehler zugunsten der Hypothese.
  • Da heute nahezu alle Forschungsergebnisse in der Psychologie und Medizin auf statistischen Analysen beruhen, d. h. die Wahrscheinlichkeit des beobachteten Resultats gegenüber der Zufallserwartung prüfen, müssen unter einer größeren Anzahl von publizierten Befunden einige zufällig positive und einige zufällig negative Befunde enthalten sein. Untersuchungen ergaben jedoch in vielen Wissenschaftsgebieten einen unglaubwürdig hohen Prozentsatz „positiver“ Resultate. Einige Untersucher werden angesichts eines negativen Ergebnisses, das ihren Erwartungen widerspricht, geneigt sein, diese Arbeit in der Schublade („File-Drawer-Problem“) zu belassen und vorzugsweise ihre signifikanten positiven Ergebnisse zu veröffentlichen. Eine Analyse von 4600 Studien aus verschiedenen Disziplinen ergab vor allem für die Fächer Psychologie und Psychiatrie einen relativ hohen Anteil positiver Ergebnisse.[24][25] Von diesen Untersuchungen bestätigten 91,5 Prozent die Untersuchungshypothese. Damit waren die Chancen positiver Ergebnisse 5-mal höher als beispielsweise in den Geowissenschaften. Fanelli meint, dass in den “weicheren” Wissenschaften weniger Hindernisse bestehen, die bewussten und die unbemerkten Tendenzen zugunsten eines positiven Ergebnisses selbstkritisch zu kontrollieren.[26]
  • Das gegenwärtige System wissenschaftlicher Publikationen in der Psychologie begünstigt die Veröffentlichung nicht-replizierbarer Ergebnisse.[27][28]

Wichtige Aspekte der methodologischen Diskussion sind in einer Aufsatzsammlung Special Section on Replicability in Psychological Science: A Crisis of Confidence? weiter ausgeführt.[29] In Verbindung mit einer Problemübersicht: Zur Reproduzierbarkeit psychologischer Forschung[30] hat Joachim Funke einen Blog zum Thema eingerichtet.

Das Reproducibility Project

Bearbeiten

Aufgabenstellung

Bearbeiten

Das von Brian Nosek und zahlreichen amerikanischen und auch einigen internationalen Mitarbeitern gegründete Reproducibility Project hat sich die Aufgabe gestellt:

„Do normative scientific practices and incentive structures produce a biased body of research evidence? The Reproducibility Project is a crowdsourced empirical effort to estimate the reproducibility of a sample of studies from scientific literature. The project is a large-scale, open collaboration currently involving more than 150 scientists from around the world.

The investigation is currently sampling from the 2008 issues of three prominent psychology journals - Journal of Personality and Social Psychology, Psychological Science, and Journal of Experimental Psychology: Learning, Memory, and Cognition. Individuals or teams of scientists follow a structured protocol for designing and conducting a close, high-powered replication of a key effect from the selected articles. We expect to learn about:

  • The overall rate of reproducibility in a sample of the published psychology literature
  • Obstacles that arise in conducting effective replications of original study procedures
  • Predictors of replication success, such as the journal in which the original finding was published, the citation impact of the original report, and the number of direct or conceptual replications that have been published elsewhere
  • Aspects of a procedure that are or are not critical to a successful direct replication, such as the setting, specific characteristics of the sample, or details of the materials.“

Das Reproducibilty Project wird innerhalb des Center for Open Science COS organisiert und finanziert. Diese non-profit-Einrichtung setzt sich das Ziel „to increase the openness, integrity, and reproducibility of scientific research.“ Für das Projekt wurden die ersten 30 Artikel des Jahrgangs 2008 der drei genannten Zeitschriften für eine möglichst genaue Replikation ausgewählt. In einer Anleitung sind wichtige Details und Kriterien festgelegt. Die Nachuntersucher sollen sich an die ursprünglichen Autoren wenden, um methodische Details zu erfahren.

In den USA ist dieses Projekt in den Wissenschaftsmagazinen sehr beachtet und als mutige Initiative, die fachinterne Bedenken zu überwinden hatte, begrüßt worden.[31][32][33][34] Von Psychologen wurden die Absicht des Projekts und das Konzept der Reproduzierbarkeit sehr unterschiedlich kommentiert.[35]

An dem Projekt beteiligten sich 270 Wissenschaftler aus 125 Institutionen, darunter 14 deutsche Institute. Der Ergebnisbericht basiert auf 100 Publikationen der drei amerikanischen Journals. Die Auswahl aus den insgesamt 488 Artikeln des Jahrgangs 2008 wird als zufallsähnlich („quasi-random“) bezeichnet. Es gab eine Anzahl von Eignungskriterien und ein stufenweises Verfahren, welche der Themen den potenziellen Projektmitarbeitern für den Replikationsversuch nach und nach angeboten wurden. Aufgenommen wurden jene 100 von 113 Replikationsversuchen, die rechtzeitig für den Ergebnisbericht fertiggestellt waren. Dieses eigentümliche Auswahlverfahren hat zur Folge, dass die Ergebnisse nicht auf die Gesamtheit der 488 Publikationen und noch viel weniger auf die experimentelle Psychologie insgesamt verallgemeinert werden können.

Ergebnisse

Bearbeiten

Die Zweituntersucher bemühten sich, das Experiment und dessen einzelne Bedingungen einschließlich der statistischen Auswertung möglichst genau nachzuformen; dabei wurden sie in der Regel durch die Erstuntersucher sowie durch die Projektleitung unterstützt. Nachdem jeweils die differenzierten statistischen Auswertungen abgeschlossen waren, beurteilten die Zweituntersucher, ob die Replikation gelang. In 39 % der Fälle wurde diese Frage bejaht. Die Mehrzahl der publizierten Forschungsergebnisse konnte also nicht bestätigt werden.

Der zusammenfassende Projektbericht und die ergänzenden Unterlagen[36] enthalten differenzierte statistische Analysen, in denen verschiedene Gesichtspunkte und Kriterien solcher Vergleiche berücksichtigt sind. Neben der statistischen Signifikanz (Überzufälligkeit) kann auch die Größe des experimentell herbeigeführten Unterschieds zwischen der Experimentalgruppe und der Kontrollgruppe (Effektstärke) herangezogen werden. Außerdem können die Erst- und Zweituntersuchungen statistisch zusammengefasst werden und die Korrelation beider Indizes mit Einflussgrößen (Moderatorvariablen) geprüft werden. Die Autorengruppe fasst das Reproducibility Project zusammen:

“We conducted replications of 100 experimental and correlational studies published in three psychology journals using high-powered designs and original materials when available. Replication effects were half the magnitude of original effects, representing a substantial decline. Ninety-seven percent of original studies had statistically significant results. Thirty-six percent of replications had statistically significant results; 47 % of original effect sizes were in the 95 % confidence interval of the replication effect size; 39 % of effects were subjectively rated to have replicated the original result; and if no bias in original results is assumed, combining original and replication results left 68 % with statistically significant effects.”

Kommentare und Kritik

Bearbeiten

Die Autorengruppe kommentiert rückblickend:

„We conducted this project because we care deeply about the health of our discipline and believe in its promise for accumulating knowledge about human behavior that can advance the quality of the human condition. Reproducibility is central to that aim. Accumulating evidence is the scientific community’s method of self-correction and is the best available option for achieving that ultimate goal: truth.“

„Wir unternahmen dieses Projekt, weil wir über den Zustand unserer Disziplin tief besorgt sind und an die Aussicht glauben, mit dem Wissen über das menschliche Verhalten die Qualität der Lebensbedingungen zu verbessern. Reproduzierbarkeit ist fundamental für dieses Ziel. Die Akkumulation von Nachweisen ist die Methode der Selbstkorrektur in der Wissenschaft und bleibt die beste verfügbare Option zum Erreichen des letzten Ziels: der Wahrheit.“

Bereits kurz nach der Veröffentlichung (28. August 2015) wurde das Hauptergebnis auch in deutschen Medien[37][38] kritisch kommentiert. Die enttäuschende Bilanz des Reproduzierbarkeits-Projekts bedeutet für die Psychologen und ihre Fachgesellschaften eine massive Herausforderung, die fundamentalen Forschungsstrategien zu überdenken und die Anforderungen an wissenschaftliche Publikationen zu reformieren. Andere Disziplinen sind angeregt, dem Vorbild dieser selbstkritischen Open Science Collaboration in der Psychologie zu folgen. Die geringe Reproduzierbarkeit ist dabei nicht nur wissenschaftlich problematisch: Verschiedene Studien belegen, dass geringe Reproduzierbarkeit auch das öffentliche Vertrauen in die Psychologie schädigt[39][40].

Die Deutsche Gesellschaft für Psychologie (DGPs) hat in einer Stellungnahme[41] die Ergebnisse eher positiv kommentiert, was wiederum Kritik[42] von einigen Fachvertretern hervorgerufen hat. Die Kritik richtet sich einerseits auf die zu positive Darstellung der Ergebnisse in der DGPs-Mitteilung, andererseits auf grundsätzliche Mängel der Studie.

Als Limitationen der Studie wird weiterhin angeführt, dass die ausgewählten Arbeiten überwiegend spezifische Themen und Subdisziplinen betreffen: d. h. Kognitionspsychologie, Priming (Psychologie), Auswirkung einer durch spezielle Instruktion beeinflussten Einstellung (Psychologie), Fragestellungen auf Basis einfacher, computer-gestützter Versuche. Die Themen sind also nicht repräsentativ für die gesamte Psychologie. Anspruchsvollere Untersuchungen hinsichtlich Forschungsaufwand, Methoden, Apparatur und Teilnehmern, d. h. nicht nur Studierende der Psychologie, sind in der Minderzahl. Das Projekt befasst sich mit Experimenten, während ein großer Anteil psychologischer Forschung nur aus quasiexperimentellen Untersuchungen (siehe Psychologisches Experiment), Veränderungsmessungen, Korrelationsanalysen und Kriterienvorhersagen besteht. Keineswegs berührt sind das Problem der Kontextabhängigkeit und die Frage nach der praktisch wichtigen, externen und ökologischen Validität, die nur unter Alltagsbedingungen im Feldexperiment und im Labor-Feld-Vergleich geprüft werden können.[43] Folglich sind, bei aller Anerkennung für das durch Größenordnung und Methodik herausragende Reproducibiliy-Project, dessen Befunde nicht einfach auf die Forschungsergebnisse der empirischen Psychologie zu verallgemeinern.

Zusätzlich wird angemerkt, dass es einen allgemeinen Maßstab, welcher Prozentsatz fehlgeschlagener Replikationsversuche als problematisch oder sehr problematisch gelten müsste, kaum geben könne. Nosek meint, dass vielleicht als Hauptergebnis nicht die bloße Anzahl der reproduzierbaren Untersuchungen wichtig sein könnte, sondern die Einsicht, welche Merkmale eine erfolgreich zu replizierende Untersuchung auszeichnen.[44] Der Projektbericht enthält zahlreiche methodische Überlegungen und Anregungen für künftige Untersuchungen der Reproduzierbarkeit wissenschaftlicher Arbeiten – auch in anderen Disziplinen.

Folgerungen

Bearbeiten

Empfehlungen

Bearbeiten

Eine Autorengruppe[45] nennt einige allgemeine methodische Prinzipien und verlangt, dass die Autoren ihre Forschung durchsichtiger machen: der Forschungsplan ist vor dem Untersuchungsbeginn zu dokumentieren und möglichst mit open access zu archivieren, das Forschungsmaterial und vor allem die Daten sind grundsätzlich verfügbar zu machen, wie es mit der Idee eines Internationalen Studienregisters erhofft wird. Die internetbasierte Kooperation bietet viele neue Wege. Empfehlungen werden auch an Herausgeber und Gutachter der Zeitschriften, an die akademischen Lehrer und an Institutionen und Geldgeber gerichtet. Wird die Prüfung der Reproduzierbarkeit einmal zum wissenschaftlichen Standard der Psychologie werden? Konkrete Maßnahmen und Einrichtungen wurden bisher kaum durch die Fachgesellschaften, sondern durch einzelne Initiativen geschaffen.

Genauere Publikationsrichtlinien

Bearbeiten

Das amerikanische Committee on Publication Ethics (COPE)[46] hat zusammen mit anderen Organisationen Principles of Transparency and Best Practice in Scholarly Publishing: revised and updated[47] entwickelt.

Brian Nosek und Mitglieder der Projektgruppe formulierten in einem begleitenden Aufsatz Richtlinien für Transparenz, Offenheit und Reproduzierbarkeit.[48] Die 8 Standards der Transparency and Openness Promotion (TOP) Guidelines sind jeweils in 3 mehr oder minder anspruchsvolle Ebenen gegliedert und sollen helfen, die fachliche Qualität eines Aufsatzes einzustufen und die Glaubwürdigkeit der wissenschaftlichen Literatur zu erhöhen.

Studienregister

Bearbeiten

Das System PsychFileDrawer[49] ermöglicht die Archivierung von erfolgreichen und erfolglosen Replikationen aus allen Bereichen der Psychologie verbunden mit einem Diskussionsforum. Eine Übersicht über bereits vorliegende Replikationsstudien im Zeitraum von 1989 bis 2013 führt 53 Replikationsversuche auf, die überwiegend scheiterten. Jeffrey Spies, Brian Nosek u. a. haben im Open Science Framework OSF eine Website geschaffen, wo leicht Informationen über Projekte, Versuchspläne (Studiendesigns) vor dem Untersuchungsbeginn, Studienmaterialien, in zitierbarer Weise dokumentiert und damit auch registriert werden können. Eines der Hilfsmittel ermöglicht Benutzern, denen ein Replikationsversuch misslang, nach ähnlichen Erfahrungen zu suchen.[50]

Open-Access-Daten

Bearbeiten

In der Open-Access-Bewegung wird gefordert, dass grundsätzlich zu einer wissenschaftlichen Publikation auch die zugehörigen Primärdaten zugänglich gemacht werden. Datensätze aus der Psychologie können in Deutschland auf freiwilliger Basis im Forschungsdatenzentrum für die Psychologie innerhalb des Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) archiviert werden. Diese Data Sharing-Plattform wurde speziell auf die psychologische Forschung ausgerichtet, doch wird diese besondere Möglichkeit gegenwärtig noch nicht sehr breit genutzt.

Die von der American Psychological Association für die von ihr herausgegebenen Zeitschriften zu jeder Publikation vorgesehene Archivierung der primären Daten ist noch nicht implementiert. Neben der juristisch schwierigen Frage nach dem Eigentum und den speziellen Nutzungsrechten an solchen Daten (Urheberrecht) gibt es auch organisatorische Probleme. Zumindest bei Forschungsprojekten, die aus öffentlichen Mitteln gefördert werden, müsste zu erreichen sein, dass nicht nur die Berichte, sondern auch die Daten öffentlich zugänglich sind. Diese Regelung sollte bereits bei der Antragstellung definiert und zugesichert werden.[51][52]

Im Journal of Open Psychology Data JOPD können Datensätze, die einen besonderen Wert für Reanalysen haben, archiviert werden.

Zeitschriften auch für negative Befunde

Bearbeiten

Dem Publikationsbias vorbeugen sollen neuartige Zeitschriften, in der sog. Null-Ergebnisse und im Sinne der Hypothese negative Replikationsversuche (Falsifikationen) veröffentlicht werden können. Das PsychFileDrawer. Archive of Replication Attempts in Experimental Psychology publiziert experimentalpsychologische Wiederholungsstudien unabhängig von ihrem Ausgang; es enthält darüber hinaus eine Liste von 20 Arbeiten, deren Replikation von den Besuchern dieser Website vorrangig gewünscht wird.

Inzwischen gibt es Zeitschriften für die Veröffentlichung nichtsignifikanter Befunde in der Medizin und in den Naturwissenschaften: das Journal of Unsolved Questions, das Journal of Articles in Support of the Null Hypothesis, das Journal of Contradicting Results in Science, das Journal of Negative Results in ecology and evolutionary biology, das Journal of Negative Results in Biomedicine und The All Results Journals.

Literatur

Bearbeiten
  • Alexander, Anita; Barnett-Cowan, Michael; Bartmess, Elizabeth; Bosco, Frank A.; Brandt, Mark; Carp, Joshua; Chandler, Jesse J.; Clay, Russ; Cleary, Hayley; Cohn, Michael; Costantini, Giulio; DeCoster, Jamie; Dunn, Elizabeth; Eggleston, Casey; Estel, Vivien; Farach, Frank J.; Feather, Jenelle; Fiedler, Susann; Field, James G.; Foster, Joshua D.; Frank, Michael; Frazier, Rebecca S.; Fuchs, Heather M.; Galak, Jeff; Galliani, Elisa Maria; Garcia, Sara; Giammanco, Elise M.; Gilbert, Elizabeth A.; Giner-Sorolla, Roger; Goellner, Lars; Goh, Jin X.; Goss, R. Justin; Graham, Jesse; Grange, James A.; Gray, Jeremy R.; Gripshover, Sarah; Hartshorne, Joshua; Hayes, Timothy B.; Jahn, Georg; Johnson, Kate; Johnston, William; Joy-Gaba, Jennifer A.; Lai, Calvin K.; Lakens, Daniel; Lane, Kristin; LeBel, Etienne P.; Lee, Minha; Lemm, Kristi; Mackinnon, Sean; May, Michael; Moore, Katherine; Motyl, Matt; Müller, Stephanie M.; Munafo, Marcus; Nosek, Brian A.; Olsson, Catherine; Paunesku, Dave; Perugini, Marco; Pitts, Michael; Ratliff, Kate; Renkewitz, Frank; Rutchick, Abraham M.; Sandstrom, Gillian; Saxe, Rebecca; Selterman, Dylan; Simpson, William; Smith, Colin Tucker; Spies, Jeffrey R.; Strohminger, Nina; Talhelm, Thomas; van't Veer, Anna; Vianello, Michelangelo: An open, large-scale, collaborative effort to estimate the reproducibility of psychological science. In: Perspectives on Psychological Science. Volume 7 (6), 2010, S. 657–660. (online)
  • Jens Asendorpf, Mark Connor, Filip de Fruyt, Jan de Houwer, Jaap J. A. Denissen, Klaus Fiedler, Susann Fiedler, David C. Funder, Reinhold Kliegl, Brian A. Nosek, Marco Perugini, Brent W. Roberts, Manfred Schmitt, Marcel A. G. Vanaken, Hannelore Weber, Jelte M. Wicherts: Recommendations for increasing replicaility in psychology. In: European Journal of Personality. Vol. 27, 2013, S. 108–119.(online)
  • Jürgen Bortz, Nicola Dörig: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. 4. Auflage. Springer, Heidelberg 2006, ISBN 3-540-33305-3.
  • Siri Carpenter: Psychology’s bold initiative. In an unusual attempt at scientific elf-examination, psychology researchers are scrutinizing their field’s reproducibility. In: Science, 335, 30 March 2012, S. 1558–1561. (online)
  • Estimating the reproducibility of psychological science. Open Science Collaboration, Science 349, (2015) doi:10.1126/science.aac4716
  • Fred N. Kerlinger, Howard B. Lee: Foundations of behavioral research. 3. Auflage. Fort Worth, Narcourt, 2000, ISBN 0-15-507897-6.
  • Brian A. Nosek, Jeffry R. Spies, Matt Motyl: Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. In: Perspectives on Psychological Science. Vol. 7, 2012, S. 615–631. (online)
  • Karl Schweizer: Eine Analyse der Konzepte, Bedingungen und Zielsetzungen von Replikationen. In: Archiv für Psychologie. 141, 1989, S. 85–97.
  • Stefan Schmidt: Shall we really do it again? The powerful concept of replication is neglected in the social sciences. In: Review of General Psychology. 2009, 13 (2), S. 90–100, doi:10.1037/a0015108
  • Ed Yong: Jede Menge Murks. Viele wissenschaftlichen Studien lassen sich nicht reproduzieren. Das wirft Fragen zum Forschungsbetrieb auf – und zur Veröffentlichungspraxis von Fachzeitschriften. In: Spektrum der Wissenschaft. Februar 2013, S. 58–63.
Bearbeiten

Einzelnachweise

Bearbeiten
  1. a b Harold Pashler, Eric–Jan Wagenmakers: Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence? In: Perspectives on Psychological Science. Band 7, Nr. 6, November 2012, ISSN 1745-6916, S. 528–530, doi:10.1177/1745691612465253.
  2. a b c Fiona Fidler, John Wilcox: Reproducibility of Scientific Results. In: The Stanford Encyclopedia of Philosophy. Winter 2018 Auflage. Metaphysics Research Lab, Stanford University, 2018 (stanford.edu [abgerufen am 23. März 2021]).
  3. Stuart J. Ritchie, Richard Wiseman, Christopher C. French: Failing the Future: Three Unsuccessful Attempts to Replicate Bem's ‘Retroactive Facilitation of Recall’ Effect. In: PLOS ONE. Band 7, Nr. 3, 14. März 2012, ISSN 1932-6203, S. e33423, doi:10.1371/journal.pone.0033423, PMID 22432019, PMC 3303812 (freier Volltext) – (plos.org [abgerufen am 28. März 2022]).
  4. Ed Yong: Jede Menge Murks. In: Spektrum der Wissenschaft. Februar 2013, S. 58–63.
  5. Nathaniel E. Smith: Replication Study: A neglected aspect of psychological research. In: American Psychologist. Vol. 25 (10), S. 970–975.
  6. Theodore D. Sterling: Publication decisions and their possible effects on inferences drawn from tests of significance – or vice versa. In: Journal of the American Statistical Association. Vol. 54 (285), 1959, S. 30–34.
  7. Theodore D. Sterling, Wilf F. Rosenbaum, James J. Weinkam: Publication decisions revisited: The effect of the outcome of statistical tests on the decision to publish and vice versa. In: The American Statistician. Vol. 49, 1995, S. 108–112.
  8. Ed Yong: Jede Menge Murks. In: Spektrum der Wissenschaft. Februar 2013, S. 58–63.
  9. James W. Neuliep, Rick Crandell: Editorial bias against replication research. In: Journal of Social Behavior and Personality. Vol. 8, 1993, S. 21–29.
  10. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1558–1561.
  11. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1559.
  12. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1559.
  13. Jürgen Margraf: Zur Lage der Psychologie. In: Psychologische Rundschau, 60 (1), 2015, 1–30.
  14. Ferric C. Fang, Arturo Casadevall: Retracted science and the retraction index. In: Infection and Immunity, 79(10), 2011, 3855–3859. doi:10.1128/IAI.05661-11.
  15. Leslie K. John, George Loewenstein, Drazen Prelec: Measuring the Prevalence of Questionable Research Practices with Incentives for Truth Telling. In: Psychological Science. Vol. 23, 2012, S. 524–532.
  16. Joseph Simmons, Leif D. Nelson, Uri Simonsohn: False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. In: Psychological Science. Vol. 22, 2011, S. 1359–1366.
  17. Katherine S. Button, John P. A. Ioannidis, Claire Mokrysz, Brian A. Nosek, Jonathan Flint, Emma S. J. Robinson, Marcus R. Munafo: Power failure: why small sample size undermines the reliability of neuroscience. In: Nature Reviews Neuroscience. Vol. 14, May 2013, S. 365–376.
  18. Michael Springer: Die (allzu) kleine Welt der Hirnforscher. Statistisch steht die Neurowissenschaft auf tönernen Füssen. Glosse. In: Spektrum der Wissenschaft. Mai 2013, S. 20.
  19. Z. N. Sohani, Z. N. Reanalysis of Randomized Clinical Trial Data. In: JAMA - The Journal of the Medical Association, 312 (10), 2014, 1024–1032.
  20. Anton Kühberger, Astrid Fritz, Scherndl, Thomas: Publication bias in psychology: a diagnosis based on the correlation between effect size and sample size. In: PloS one, 2014, 9 (9), e105825, ISSN 1932-6203.
  21. J. P. Ioannidis: Why most published research findings are false. In: PLoS medicine. Band 2, Nummer 8, August 2005, S. e124, doi:10.1371/journal.pmed.0020124, PMID 16060722, PMC 1182327 (freier Volltext).
  22. Leah R. Jager, Jeffrey T. Leek: An estimate of the science-wise false discovery rate and application to the top medical literature. In: Biostatistics. Vol. 15(1), Jan. 2014, PMID 24068246, S. 1–12.
  23. Marjan Bakker, Jelte M. Wicherts: The (mis)reporting of statistical results in psychology journals. In: Behavior Research Methods. Vol. 43 (3), 2011, S. 666–678.
  24. Daniele Fanelli: Negative results are disappearing from most disciplines and countries. In: Scientometrics. Vol. 90 (3), 2012), S. 891–904.
  25. John P. Ioannidis: Why most published research findings are false. In: PLoS Medicine. Vol. 2 (8), 2005, S. e124.
  26. Daniele Fanelli: Positive results receive more citations, but only in some disciplines. In: Scientometrics. Vol. 94 (2), 2013, S. 701–709.
  27. siehe u. a. Keith R. Laws: Negativland – a home for all findings in Psychology. (Memento des Originals vom 9. Januar 2014 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.biomedcentral.com In: BMC Psychology. 2013, 1 (2.
  28. Marjan Bakker, Annette van Dijk, Jelte M. Wicherts: The rules of the game called psychological science. In: Perspectives on Psychological Science. Vol. 7 (6), 2012, S. 543–554.
  29. Perspectives on Psychological Science, 7 (6), 2012; doi:10.1177/1745691612465253.
  30. http://f20.blog.uni-heidelberg.de/2012/11/18/zur-reproduzierbarkeit-psychologischer-forschung/
  31. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1558–1561.
  32. John Bohannon: Psychologists launch a bare-all research initiative. In: Science Magazine. 5. März 2013.
  33. Ed Yong: Replication studies: Bad copy. In the wake of high-profile controversies, psychologists are facing up to problems with replication. In: Nature. 16. Mai 2012.
  34. Sarah Estes: The myth of self-correcting science. In: The Atlantic. 20. Dez 2012.
  35. Open Peer Commentary. In: European Journal of Personality. Vol. 27, 2013, S. 120–144.
  36. Estimating the reproducibility of psychological science. In: Science. 349, 2015, S. aac4716, doi:10.1126/science.aac4716.
  37. faz.net/aktuell/wissen/mensch-gene/die-meisten-psycho-studien-sind-zweifelhaft
  38. spiegel.de/wissenschaft/mensch/psychologie-ergebnisse-hunderter-studien-nicht-wiederholbar
  39. Farid Anvari, Daniël Lakens: The replicability crisis and public trust in psychological science. In: Comprehensive Results in Social Psychology. Band 0, Nr. 0, 19. November 2019, ISSN 2374-3603, S. 1–21, doi:10.1080/23743603.2019.1684822.
  40. Tobias Wingen, Jana B. Berkessel, Birte Englich: No Replication, No Trust? How Low Replicability Influences Trust in Psychology. In: Social Psychological and Personality Science. 24. Oktober 2019, ISSN 1948-5506, S. 194855061987741, doi:10.1177/1948550619877412.
  41. Replikationen von Studien sichern Qualität in der Wissenschaft und bringen die Forschung voran. Website der Deutschen Gesellschaft für Psychologie. Abgerufen am 7. September 2015.
  42. Diskussionsforum: Qualitätssicherung in der Forschung. Website der Deutschen Gesellschaft für Psychologie. Abgerufen am 7. September 2015.
  43. Jochen Fahrenberg, Michael Myrtek, Kurt Pawlik, Meinrad Perrez: Ambulantes Assessment – Verhalten im Alltagskontext erfassen. Eine verhaltenswissenschaftliche Herausforderung an die Psychologie. In: Psychologische Rundschau, Band 58, 2007, S. 12–23.
  44. Siri Carpenter: Psychology’s bold initiative. In: Science. 2012, S. 1561.
  45. Jens Asendorpf u. a.: Recommendations for increasing replicaility in psychology. In: European Journal of Personality. Vol. 27, 2013, S. 108–119.
  46. publicationethics.org/
  47. publicationethics.org/news/principles-transparency-and-best-practice-scholarly-publishing-revised-and-updated
  48. B. A. Nosek, et al.: SCIENTIFIC STANDARDS. Promoting an open research culture. In: Science. Band 348, Nummer 6242, Juni 2015, S. 1422–1425, doi:10.1126/science.aab2374, PMID 26113702, PMC 4550299 (freier Volltext).
  49. psychfiledrawer.org
  50. psychfiledrawer.org/private_networking.php.
  51. Jochen Fahrenberg: Open Access – nur Texte oder auch Primärdaten? Working Paper Series des Rates für Sozial- und Wirtschaftsdaten (RatSWD), hrsg. von G. G. Wagner, gefördert vom Ministerium für Bildung und Forschung. Nr. 200, Juni 2012, S. 1–30.
  52. open-access.net/informationen-zu-open-access/open-access-bei-forschungsdaten