Falscherkennungsrate

Die Falscherkennungsrate (englisch False Discovery Rate, kurz FDR) findet Anwendung bei der Bewältigung multipler Testprobleme. Die FDR ist ein Gütekriterium, welches die Richtigkeit aller akzeptierten Hypothesen misst und als Zielgröße eine Abwägung zwischen möglichst wenig „falschen Entdeckungen“, aber dennoch möglichst vielen richtigen Treffern ermöglicht.

Der Begriff wurde erstmals 1995 von Yoav Benjamini und Yosi Hochberg definiert.^[1]

Hintergrund

Grundsätzlich ist festzuhalten, dass die Prüfung mehrerer Hypothesen mit einer erhöhten Wahrscheinlichkeit für die Kumulierung von Alphafehler (Fehler 1. Art) einhergeht. Dies bedeutet, dass trotz der tatsächlichen Richtigkeit einer Nullhypothese bei multiplen Tests gelegentlich fälschlicherweise eine Ablehnung erfolgt, was als „Falsch-Alarm“ bezeichnet wird. Infolgedessen erfordert die Signifikanzprüfung bei mehreren Tests ein strengeres und somit niedrigeres Signifikanzniveau im Vergleich zu einem einzelnen Hypothesentest.

Um dieser Problematik zu begegnen, wird häufig die Bonferroni-Korrektur angewandt. Diese konservative Methode verwendet für sämtliche Hypothesen ein einheitlich niedriges Signifikanzniveau, was die Wahrscheinlichkeit eines „Falsch-Alarms“ verringert. Dennoch ist zu berücksichtigen, dass diese Korrektur so konservativ ist, dass auch die Ablehnung der Nullhypothese erschwert wird, was potenziell die Entdeckung signifikanter Ergebnisse beeinträchtigen kann.

Eine alternative Vorgehensweise bietet die Benjamini-Hochberg-Prozedur. Diese Methode kontrolliert die Präzision anstatt des Erinnerns der Nullhypothese im Gegensatz zur Bonferroni-Korrektur. Dadurch erzielt sie eine höhere statistische Power im Vergleich zur Bonferroni-Korrektur.

Definition

Die Falscherkennungsrate eines Testverfahrens wird als das erwartete Verhältnis der fälschlicherweise abgelehnten Nullhypothesen zu den insgesamt abgelehnten Nullhypothesen definiert. Mit anderen Worten wird die FDR als der Anteil der falsch positiven Erkennungen ausgedrückt:

$Q:=FDR=E\left[{\frac {FP}{FP+TP}}\right]=1-{\text{Precision}}$

wobei $E$ der Erwartungswert ist, $FP$ die Zahl der falsch positiven Erkennungen und $TP$ die Zahl der richtig positiven Erkennungen.

Benjamini-Hochberg-Prozedur

Die Benjamini-Hochberg-Prozedur (BH-Prozedur) ist ein Verfahren, das bei der multiplen Testung von Nullhypothesen angewandt wird, um die Falscherkennungsrate (FDR) auf einem akzeptablen Niveau zu halten. Die FDR repräsentiert das Verhältnis der Anzahl der fälschlicherweise abgelehnten Nullhypothesen zur Gesamtzahl der abgelehnten Nullhypothesen.

Die BH-Prozedur beginnt mit der Sortierung der p-Werte (Signifikanzniveaus) in aufsteigender Reihenfolge. Sei 𝑝𝑖 der 𝑖-te p-Wert und 𝑚 die Gesamtzahl der getesteten Hypothesen. Dann wird die Prozedur wie folgt durchgeführt:

Die p-Werte werden sortiert: 𝑝(1) ≤ 𝑝(2) ≤ … ≤ 𝑝(𝑚).
Ein kritischer Schwellenwert 𝑞 wird berechnet, um die FDR zu kontrollieren. Dieser Schwellenwert ist definiert als: 𝑞 = 𝑘/𝑚𝑄, wobei 𝑘 die aktuelle Position in der sortierten Liste der p-Werte ist und 𝑄 die gewünschte maximale FDR ist.
Die BH-Prozedur lehnt die Nullhypothesen ab, für die gilt: 𝑝𝑖 ≤ 𝑞.

Indem die FDR-Bedingung 𝑝𝑖 > 𝑖/𝑚𝑄 für abgelehnte Hypothesen erfüllt wird, stellt die BH-Prozedur sicher, dass das Verhältnis von falsch positiven Erkennungen zu den insgesamt abgelehnten Nullhypothesen unter der Schranke 𝑄 bleibt. Mit anderen Worten wird nur eine begrenzte Anzahl von Hypothesen abgelehnt, um eine akzeptable FDR zu gewährleisten.

Die Benjamini-Hochberg-Prozedur bietet somit eine Methode, um das Dilemma der multiplen Testung zu bewältigen, bei dem die Wahrscheinlichkeit von falsch positiven Ergebnissen steigt. Durch die Anpassung der Schwellenwerte für die p-Werte basierend auf der Gesamtanzahl der getesteten Hypothesen und der gewünschten FDR ermöglicht die BH-Prozedur eine bessere Kontrolle über die Rate der falsch positiven Erkennungen und trägt dazu bei, verlässliche statistische Schlussfolgerungen aus komplexen Datensätzen zu ziehen.

Die Benjamini-Hochberg-Prozedur wurde auf eine Menge von aufsteigend angeordneten p-Werten angewendet, wobei m=20 und das Kontrollniveau der Falscherkennungsrate (FDR) Q=0.05 ist. Die p-Werte, die zu den abgelehnten Nullhypothesen gehören, sind rot markiert. Die blaue Linie ist durch y=mQk beschrieben, wobei k die auf der x-Achse aufgetragenen Indizes der Sortierung sind.

Storey-Tibshirani-Prozedur

Schematische Darstellung der Storey-Tibshirani-Prozedur zur Korrektur für multiples Testen. Das Histogramm zeigt die Verteilung der p-Werte beim multiplen Testen. Die y-Achse repräsentiert die Häufigkeit der p-Werte. Der Grenzwert für die p-Werte wird so gewählt, dass die Falscherkennungsrate (FDR) erfüllt ist.

Die Storey-Tibshirani-Prozedur ist ein weiteres leistungsfähiges Verfahren zur Kontrolle der Falscherkennungsrate (FDR) bei multiplen Testungen. Sie ermöglicht eine präzisere Steuerung der FDR, indem sie q-Werte verwendet, die eine analoge Rolle wie p-Werte spielen, aber speziell auf die FDR-Steuerung abgestimmt sind.

Die Prozedur ist nach John D. Storey und Robert Tibshirani benannt, die sie in einer wegweisenden Veröffentlichung im Jahr 2003 eingeführt haben. Die Storey-Tibshirani-Prozedur stellt eine Weiterentwicklung der Benjamini-Hochberg-Prozedur dar und bietet eine zusätzliche Dimension der Kontrolle über die FDR.

Die Prozedur beruht auf der Annahme, dass die Verteilung der p-Werte unter der Nullhypothese gleichmäßig ist, während sie unter der Alternativhypothese eine Überlagerung von Null- und Nicht-Null-Verteilungen aufweist. Die q-Werte werden verwendet, um die FDR für eine gegebene Menge von abgelehnten Nullhypothesen zu berechnen.

Die Berechnung der q-Werte erfolgt in mehreren Schritten:

Die p-Werte werden sortiert: 𝑝(1) ≤ 𝑝(2) ≤ … ≤ 𝑝(𝑚).
Die Prozedur berechnet den empirischen Anteil der tatsächlichen Nullhypothesen unter den abgelehnten Hypothesen, auch bekannt als π0. Dieser Wert ist ein wichtiger Parameter für die Berechnung der q-Werte.
Die q-Werte werden berechnet, indem die p-Werte mit der π0 geschätzt und an die Anzahl der abgelehnten Hypothesen angepasst werden. Die Formel zur Berechnung des q-Werts lautet: 𝑞(𝑖) = 𝑝(𝑖) × 𝑚/𝑖 × π0.

Indem die q-Werte basierend auf der geschätzten π0 und der Anzahl der abgelehnten Hypothesen berechnet werden, ermöglicht die Storey-Tibshirani-Prozedur eine genauere Steuerung der FDR im Vergleich zur reinen Verwendung von p-Werten. Sie bietet eine flexiblere Methode, um die Anzahl der falsch positiven Erkennungen in einem multiplen Testverfahren zu regulieren und so die statistische Zuverlässigkeit der Ergebnisse zu verbessern.

Die Verwendung von q-Werten in der Storey-Tibshirani-Prozedur unterstreicht die fortschreitende Entwicklung statistischer Methoden zur Bewältigung der Herausforderungen bei der Analyse großer Datensätze. Durch die präzise Kontrolle der Falscherkennungsrate stellt diese Prozedur eine wertvolle Ergänzung zu den Werkzeugen dar, die Forscher zur Verfügung haben, um belastbare Schlussfolgerungen aus komplexen Daten zu ziehen.

Siehe auch

Beurteilung eines binären Klassifikators

Weblinks

False-Discovery-Rate

Einzelnachweise

↑ Benjamini, Yoav; Hochberg, Yosef: "Controlling the false discovery rate: a practical and powerful approach to multiple testing" In: Journal of the Royal Statistical Society, Series B Nr. 57, 1995, S. 289–300.

[1] Benjamini, Yoav; Hochberg, Yosef: "Controlling the false discovery rate: a practical and powerful approach to multiple testing" In: Journal of the Royal Statistical Society, Series B Nr. 57, 1995, S. 289–300.

[1]