Benutzer:VincentBosch/Baustelle:Variablenselektion

Die Variablenselektion (auch Variablenauswahl) befasst sich mit dem Finden einer sinnvollen Teilmenge der Variablen eines multivariaten Datensatzes.

Ausgangslage

Bearbeiten

Man betrachtet einen Datensatz mit   Beobachtungen. Für jede Beobachtung ist eine Zielvariable   und   verschiedene erklärende Variablen erfasst. (Grundsätzlich können auch mehrere Zielvariablen existieren, dieser Umstand ist aber hier unbedeutend und wird daher im Folgenden nicht weiter behandelt.)

Die Werte der Zielvariable für alle Beobachtungen können als Vektor   der Länge   aufgefasst werden. Die Werte der erklärenden Variablen   können zu einer Matrix   der Dimension   aufgefasst werden.

Man möchte den Zusammenhang zwischen   und   durch ein statistisches Modell darstellen. Gründe dafür sind vor allem:

  • Interpretation: Man möchte aus den Daten lernen, nämlich vor allem über die Art und

Stärke des Zusammenhangs von   und  .

  • Prognose: Man möchte Modelle finden, die es erlauben unbekannte  -Werte

aufgrund von bekannten  -Werte möglichst gut abzuschätzen.

Falls man dafür nicht alle   erklärenden Variablen verwenden möchte oder kann, führt man Variablenselektion durch. (Es gibt Methoden, wie z. B. Ridge-Regression oder Hauptkomponentenanalyse, die keiner Variablenselektion bedürfen. Gründe, diese trotzdem durchzuführen sind z. B. die bessere Interpretierbarkeit oder wenn man zukünftig nicht mehr alle   Variablen erheben möchte.)


Eigenschaften der Problemstellung

Bearbeiten

Um verschiedene Modelle vergleichen zu können, muss die Qualität eines Modells gemessen werden. Zu diesem Zweck dienen die verschiedenen Gütekriterien (Informationskriterien), die aber ihrerseits auch wieder nach verschiedenen Gesichtspunkten kritisch zu beurteilen sind. Die unterschiedlichen Gütemaße führen nämlich zu durchaus stark abweichenden Ergebnissen, und es hängt vom Zweck der Variablenselektion ab, welche Kriterien günstig sind.

Bei   erkärenden Variablen gibt es   mögliche Modelle. Bei kleinen Datensätzen kann man alle Möglichkeiten durchprobieren, bei großen Datensätze ist das, selbst wenn ein Branch-and-Bound-Algorithmus verwendet wird, unmöglich.

Gibt man die Größe der zu betrachtenden Modelle vor, und bezeichnet diese mit   ( ), so gibt es noch immer   mögliche Modelle. Bei großen Datensätzen ist das meistens noch immer zu viel um alle Möglichkeiten durchzurechnen.

Im Allgemeinen gibt es viele verschiedene, im Sinne des Gütekriteriums ähnlich gute Modelle (lokale Optima). Das ist für die Interpretation unangenehm. Außerdem neigen die meisten Heuristiken dazu, in lokalen Optima hängen zu bleiben, das heißt bessere Lösungen werden nicht gefunden wenn sie von der lokalen Optimallösung zu weit entfernt (zu verschieden) sind.


Methoden

Bearbeiten

Eine bekannte Methode ist die schrittweise Variablenauswahl (stepwise selection). Es existieren im Wesentlichen zwei Varianten:

Bei der schrittweisen Vorwärtsselektion (step forward) wird, beginnend mit dem leeren Modell, bei jedem Schritt genau die Variable dazugenommen, die nach dem verwendeten Gütekriterium zur größten Verbesserung führt. Wenn keine bzw. keine wesentliche Verbesserung mehr erreicht werden kann, ist der Algorithmus beendet.

Bei der Rückwärtselimination (step backward) wird, beginnend mit dem vollen Modell, bei jedem Schritt eine Variable entfernt, so dass das Gütekriterium optimiert wird. Analog zur Vorwärtsselektion ist der Vorgang beendet wenn keine bzw. keine wesentliche Verbesserung mehr erreicht werden kann,.

Dabei ist das leere Modell das Modell, das überhaupt keine der erklärenden Variablen enthält. Das volle Modell enthält alle erklärenden Variablen.


Beispiel

Bearbeiten