Testtheorie (Statistik)

Die Testtheorie ist neben der Schätztheorie ein zentrales Teilgebiet der mathematischen Statistik und beschäftigt sich mit der Konstruktion und Untersuchung von statistischen Tests. Solche Tests versuchen, aufgrund vorliegender Daten Fragen wie

  • Wirkt ein neues Medikament wirklich besser als das ältere, gut untersuchte Präparat?
  • Ist der Klimawandel anthropogen verursacht oder nicht?
  • Wird sich der Bau einer Fabrik an einem neuen Standort innerhalb von zehn Jahren rechnen oder nicht?

zu beantworten. Dabei spielt einerseits die Modellierung und Konstruktion eines Tests eine Rolle, andererseits auch die Frage, welchen Qualitätsansprüchen ein Test genügen sollte und ob ein solcher Test überhaupt existiert.

Für die folgenden Ausführungen beachte man, dass in den Testsituationen eine Asymmetrie zwischen den zu treffenden Entscheidungen für oder gegen eine Hypothese vorliegt. Im Falle des genannten Medikamententests hätte eine Entscheidung für das neue Medikament, obwohl dieses schlechter als ein bereits vorhandenes ist, wesentlich dramatischere Folgen (schwere Schädigungen von Patienten, hohe Kosten für mögliche Entschädigungsansprüche, vergeblicher Kostenaufwand für die Neueinführung, Imageverlust, …) als eine umgekehrte Fehlentscheidung (verpasste Marktchance). Diese Asymmetrie spiegelt sich in der Modellierung wider, ein Fehler der ersten Art sollte möglichst vermieden werden, das heißt dessen Wahrscheinlichkeit sollte beschränkt sein. Das motiviert die folgenden Begriffsbildungen.

GrundbegriffeBearbeiten

Nullhypothese und AlternativeBearbeiten

Gegeben ist ein (nicht notwendigerweise parametrisches) statistisches Modell  . Dabei formalisiert   die Werte, welche die Daten annehmen können,   ist eine σ-Algebra, die beschreibt, welchen Teilmengen von   eine Wahrscheinlichkeit zugeordnet wird.   ist eine Familie von Wahrscheinlichkeitsmaßen. Die Indexmenge   wird dann disjunkt in zwei Mengen   und   zerlegt. Dabei bedeutet

  •   die Nullhypothese und steht für die Menge aller günstigen Testfälle
  •   die Alternativhypothese oder kurz Alternative und vereint alle ungünstigen Testfälle.

Die zentrale Frage der Testtheorie lautet nun: Angenommen, es liegt irgendeine unbekannte Wahrscheinlichkeitsverteilung   mit   vor und Daten   sind gegeben. Wie kann man eine möglichst gute Aussage darüber treffen, ob   ist oder   ist?

Zu beachten ist, dass sich die Rolle der Nullhypothese und die der Alternative auch umkehren kann, wenn sich die Fragestellung ändert.

Statistischer TestBearbeiten

Der statistische Test formalisiert die zu treffende Entscheidung. Dabei wird 0="Annahme der Nullhypothese" und 1="Annahme der Alternative" gesetzt. Werte zwischen 0 und 1 entsprechen dann der Wahrscheinlichkeit, sich für die Alternative zu entscheiden. Mathematisch ist ein Test eine messbare Funktion

 

die bei Vorliegen der Daten   eine Entscheidung   liefert. Man spricht dann auch von einem Test von   gegen  . Die Menge

 

heißt der Ablehnungsbereich des Tests und enthält alle Daten, bei deren Vorliegen man sich für die Alternative entscheidet.

Ein Test heißt ein nichtrandomisierter Test, wenn  . Ansonsten heißt der Test ein randomisierter Test. Nichtrandomisierte Tests liefern also immer eine eindeutige Entscheidung.

Fehler 1. und 2. ArtBearbeiten

Ist ein   gegeben, so kann man auf zwei verschiedene Arten einen Fehler begehen. Als Fehler 1. Art bezeichnet man die Entscheidung für  , obwohl   ist. Mit Rückgriff auf die Notation der bedingten Wahrscheinlichkeit ist dann

 

die Wahrscheinlichkeit für einen Fehler 1. Art. Analog spricht man von einem Fehler 2. Art, wenn man sich für   entscheidet, aber   ist. Die Wahrscheinlichkeit für einen Fehler 2. Art ist somit

 

Gütefunktion, Niveau und TrennschärfeBearbeiten

Für einen vorliegenden Test heißt die Funktion

 

die Gütefunktion des Tests. Dabei bezeichnet   den Erwartungswert bezüglich des Wahrscheinlichkeitsmaßes  .

Ist ein   gegeben, so dass

 ,

so nennt man   das Niveau des Tests. Gilt sogar

 ,

so heißt   das effektive Niveau des Tests. Das effektive Niveau des Tests ist somit eine obere Schranke für einen Fehler 1. Art.

Für ein   heißt   die Trennschärfe des Tests an der Stelle  . Sie entspricht der Wahrscheinlichkeit, einen Fehler 2. Art nicht zu machen, wenn der Parameter   vorliegt.

Optimalitätsbegriffe für TestsBearbeiten

Für Tests lassen sich verschiedene Optimalitätsbegriffe formulieren, die sich in ihrer Stärke unterscheiden. Je stärker der Optimalitätsbegriff, umso stärker die Voraussetzungen, unter denen ein optimaler Test existiert. Neben Optimalitätsbegriffen formuliert man oft auch Reduktionsprinzipien (siehe unten), um optimale Tests nur innerhalb kleinerer Mengen von Tests suchen zu müssen.

Gleichmäßig beste TestsBearbeiten

Ein gleichmäßig bester Test ist ein Test, dessen Trennschärfe immer größer als die aller anderen Tests zu einem vorgegebenen Niveau. Somit ist die Wahrscheinlichkeit für einen Fehler 2. Art bei gleichmäßig besten Tests immer kleiner als für einen beliebigen weiteren Test.

Zentrale Existenzaussage für gleichmäßig beste Tests ist das Neyman-Pearson-Lemma. Es besagt, dass der Neyman-Pearson-Test ein gleichmäßig bester Test ist. Dieses Resultat kann unter geeigneten Voraussetzungen (z. B. bei monotonen Dichtequotienten) auf allgemeinere Testprobleme ausgeweitet werden.

Maximin-TestsBearbeiten

Maximin-Tests sind Tests, bei denen die Worst-Case-Wahrscheinlichkeit für einen Fehler 2. Art kleiner ist als bei allen anderen Tests zu einem vorgegebenen Niveau. Großer Vorteil von Maximin-Tests ist, dass sie unter weitaus allgemeineren Voraussetzungen existieren als gleichmäßig beste Tests.

Strenge TestsBearbeiten

Strenge Tests sind Tests, bei denen die maximale Abweichung der Trennschärfe von der Trennschärfe des lokal besten Tests (bzw. der envelope power function) kleiner ist als bei allen anderen Tests zum vorgegebenen Niveau. Wie auch Maximin-Tests existieren strenge Tests bereits unter schwachen Voraussetzungen.

ReduktionsprinzipienBearbeiten

Als Reduktionsprinzipien bezeichnet man Vorgehensweisen, die es erlauben, in kleinere Klassen von Tests nach optimalen Elementen zu suchen. Ein wichtiges Reduktionsprinzip ist die Einschränkung auf unverfälschte Tests. Dies sind diejenigen Tests zu einem vorgegebenen Niveau, bei denen die Trennschärfe des Tests immer über dem Niveau liegt. Somit sind unverfälschte Tests immer besser als der „naive“ Test, der eine rein zufällige Entscheidung auslost. Ein wichtiges Hilfsmittel zum Auffinden von gleichmäßig besten unverfälschten Tests sind die ähnlichen Tests. Bei diesen nimmt die Gütefunktion auf dem Übergang von Nullhypothese zu Alternative genau den Wert des Niveaus an.

Testtheorie als EntscheidungsproblemBearbeiten

Viele Optimalitäts- und Reduktionsprinzipien der Testtheorie lassen sich im Rahmen der Entscheidungstheorie in ein statistisches Entscheidungsproblem einordnen und miteinander vergleichen.

Grundlage des statistischen Entscheidungsproblems ist wie in der Testtheorie ein statistisches Modell   sowie ein Entscheidungsraum, der in der Testtheorie stets   ist. Entscheidungsfunktionen sind dann genau die statistischen Tests, wobei die randomisierten Tests den randomisierten Entscheidungsfunktionen entsprechen, die nichtrandomisierten Tests entsprechend den nichtrandomisierten Entscheidungsfunktionen.

Typische Wahl für die Verlustfunktion ist die Neyman-Pearson-Verlustfunktion, die bei gleicher Gewichtung für den Fehler 1. und 2. Wahl die Risikofunktion

 

für einen statistischen Test   liefert. Hierbei bezeichnen   bzw.   die Wahrscheinlichkeit für einen Fehler 1. bzw. 2. Art, wenn   vorliegt.

Schränkt man die Menge der Tests nun auf die Menge der Tests zum Niveau   ein und verwendet obige Risikofunktion, so sind

LiteraturBearbeiten