Diskriminanzfunktion

Eine Diskriminanzfunktion oder Trennfunktion ist eine Funktion, die bei der Diskriminanzanalyse jeder Beobachtung einen Scorewert zuordnet. Aus dem Scorewert wird die Gruppenzugehörigkeit jeder Beobachtung und die Grenzen zwischen den Gruppen bestimmt. Bei bekannter Gruppenzugehörigkeit der Beobachtungen werden also die Merkmalsvariablen bei minimalen Informationsverlust zu einer einzigen Diskriminanzvariablen zusammengefasst.

Die Fisher’sche Diskriminanzfunktion ist die bekannteste Diskriminanzfunktion, die das Fisher’sche Kriterium realisiert. Sie wurde 1936 von R. A. Fisher entwickelt und beschreibt eine Metrik, die die Güte der Trennbarkeit zweier Klassen in einem Merkmalsraum misst und wurde 1936 von ihm in The use of multiple measurements in taxonomic problems veröffentlicht.

Einleitung

Gegeben seien $N$ d-dimensionale Merkmalsvektoren $\mathbf {x}$ , von denen $n_{1}$ der Klasse $C_{1}$ und $n_{2}$ der Klasse $C_{2}$ angehören. Eine Diskriminanzfunktion beschreibt nun die Gleichung einer Hyperebene, die die Klassen optimal voneinander trennt. Davon gibt es, je nach Trennbarkeit der Klassen, lineare und nicht-lineare, was im folgenden Bild in zwei Dimensionen erläutert ist.

Beispiel

Gute (blau) und schlechte (rot) Kreditnehmer einer Bank.

Die Grafik rechts zeigt gute (blau) und schlechte (rot) Kreditkunden einer Bank. Auf der x-Achse ist das Einkommen und auf der y-Achse die Kreditsumme der Kunden (in Tausend EUR) dargestellt. Die Diskriminanzfunktion ergibt sich zu

d=-0{,}256-0{,}048{\text{ Einkommen}}+0{,}007{\text{ Kreditsumme}}

.

Die parallelen schwarzen Linien von links unten nach rechts oben ergeben sich für $d=-3,-2,\ldots ,3$ .

Die Werte der Diskriminanzfunktion für jede Beobachtung sind unterhalb des Datenpunktes angegeben. Man sieht, dass die schlechten Kunden hohe Werte in der Diskriminanzfunktion haben während gute Kunden niedrige Werte erhalten. So könnte eine daraus abgeleitete Regel für neue Kunden sein:

d={\begin{cases}\leq 0&\Rightarrow {\text{ guter Kunde}}\\>0&\Rightarrow {\text{ schlechter Kunde}}\end{cases}}

Lineare Diskriminanzfunktion

Wie das einleitende Beispiel zeigt, suchen wir eine Richtung in den Daten, so dass die Gruppen bestmöglich voneinander getrennt werden. In der Grafik ist diese Richtung mit der gestrichelten Linie gekennzeichnet. Die gestrichelte und die schwarze Linie, die sich im schwarzen Punkt kreuzen bilden ein neues gedrehtes Koordinatensystem für die Daten.

Solche Drehungen werden mit Linearkombinationen der Merkmalsvariablen beschrieben. Die kanonische lineare Diskriminanzfunktion für $p$ Merkmalsvariablen ist daher gegeben durch:

D=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\dots +\beta _{p}X_{p}

mit $D$ der Diskriminanzvariable, $X_{j}$ 's die Merkmalsvariablen und $\beta _{j}$ die Diskriminanzkoeffizienten. Ähnlich zur multiplen linearen Regression werden die Diskriminanzkoeffizienten berechnet; jedoch wird nicht ein quadratischer Fehler für $D$ , sondern bzgl. eines Diskriminanzmaßes optimiert.

Gute (blau) und schlechte (rot) Kreditnehmer und projizierte Datenpunkte (hellblau und hellrot) auf der gestrichelten Linie.

Für jede mögliche Richtung werden die Datenpunkte (rote und blaue Punkte) auf die gestrichelte Linie projiziert (hellblaue und hellrote Punkte). Dann werden die Gruppenmittelpunkte (für die hellroten und hellblauen Punkte) und das Gesamtmittel (schwarzer Punkt) bestimmt.

Zum einen wird nun der Abstand jedes hellroten bzw. hellblauen Punktes zu seinem Gruppenmittelpunkt bestimmt und diese quadrierten Abstände aufsummiert zu $D_{\text{within}}$ (Intravarianz, engl. within scatter). Je kleiner $D_{\text{within}}$ ist, desto näher liegen die projizierten Punkte an ihren Gruppenmittelpunkten.

Zum anderen wird für jeden hellroten und hellblauen Punkt der Abstand zwischen dem zugehörigen Gruppenmittelpunkt und dem Gesamtmittelpunkt und quadrierten Abstände aufsummiert zu $D_{\text{between}}$ (Intervarianz, engl. between scatter). Je größer $D_{\text{between}}$ ist, desto weiter liegen die Gruppenmittelwerte auseinander.

Daher wird die Richtung in den Daten so gewählt, dass

\lambda ={\frac {D_{\text{between}}}{D_{\text{within}}}}

maximal ist. Je größer $\lambda$ ist, desto deutlicher sind die Gruppen voneinander getrennt.

Fisher’sches Kriterium

Das Berechnen der optimal trennenden Hyperebene ist in zwei Dimensionen noch relativ einfach, wird jedoch in mehreren Dimensionen schnell zu einem komplexeren Problem. Daher bedient sich Fisher eines Tricks, der zunächst die Dimension reduziert und danach die Diskriminanzfunktion berechnet. Dazu werden die Daten in eine einzige Dimension projiziert, wobei die Projektionsrichtung von entscheidender Bedeutung ist.

Die Klassen sind viel besser voneinander getrennt, wenn die Merkmalsvektoren in Richtung $w_{2}$ projiziert sind, als in Richtung $w_{1}$ .

Um diese Tatsache formal zu schreiben, werden ein paar Definitionen benötigt.

Bezeichne $\mathbf {m} ^{(i)}$ den Mittelwert der Klasse $C_{i}$ und $\mathbf {m}$ den Mittelwert des gesamten Merkmalsraumes.

S_{W}=\sum _{\mathbf {x} \in C_{1}}{(\mathbf {x} -\mathbf {m} ^{(1)})(\mathbf {x} -\mathbf {m} ^{(1)})^{T}}+\sum _{\mathbf {x} \in C_{2}}{(\mathbf {x} -\mathbf {m} ^{(2)})(\mathbf {x} -\mathbf {m} ^{(2)})^{T}}

heißt Intravarianz (englisch: within scatter) und misst die Varianz innerhalb der Klassen, während die Intervarianz (englisch: between scatter)

S_{B}=(\mathbf {m} ^{(1)}-\mathbf {m} )(\mathbf {m} ^{(1)}-\mathbf {m} )^{T}+(\mathbf {m} ^{(2)}-\mathbf {m} )(\mathbf {m} ^{(2)}-\mathbf {m} )^{T}

die Varianz zwischen den Klassen beschreibt. Die geeignetste Projektionsrichtung ist dann offensichtlich diejenige, die die Intravarianz der einzelnen Klassen minimiert, während die Intervarianz zwischen den Klassen maximiert wird.

Diese Idee wird mit dem Fisher’schen Kriterium anhand des Rayleigh-Quotienten mathematisch formuliert:

J(w)={\frac {|w^{T}S_{B}w|}{|w^{T}S_{W}w|}}

Mit diesem Kriterium wird die Güte der Trennbarkeit der Klassen im Merkmalsraum gemessen. Damit gilt dann, dass die Projektionsrichtung $w$ genau dann optimal ist (im Sinne der Trennbarkeit der Klassen), wenn $J(w)$ maximal ist.

Die Erläuterungen lassen bereits erkennen, dass das Fisher’sche Kriterium nicht nur zu einer Diskriminanzfunktion, sondern auch zu einem Optimierungsverfahren für Merkmalsräume erweitert werden kann. Bei letzterem wäre ein Projektionsverfahren denkbar, das einen hochdimensionalen Merkmalsraum ähnlich der Hauptkomponentenanalyse in eine niedere Dimension projiziert und dabei gleichzeitig die Klassen optimal voneinander trennt.

Fisher’sche Diskriminanzfunktion

Eine Diskriminanzfunktion ordnet Objekte den jeweiligen Klassen zu. Mit dem Fisher’schen Kriterium kann bereits die optimale Projektionsrichtung, genauer gesagt der Normalenvektor der optimal trennenden Hyperebene, bestimmt werden. Es muss dann nur noch für jedes Objekt getestet werden, auf welcher Seite der Hyperebene es liegt.

Dazu wird das jeweilige Objekt zunächst auf die optimale Projektionsrichtung projiziert. Danach wird der Abstand zum Ursprung gegen einen vorher bestimmten Schwellwert $w_{0}$ getestet. Die Fisher’sche Diskriminanzfunktion ist demnach von folgender Form:

f(\mathbf {x} )=\mathbf {w} ^{T}\mathbf {x} -w_{0}

Ein neues Objekt $y$ wird nun je nach Ergebnis von $f(y)$ entweder $C_{1}$ oder $C_{2}$ zugewiesen. Bei $f(y)=0$ ist anwendungsabhängig zu entscheiden, ob $y$ überhaupt einer der beiden Klassen zuzuordnen ist.

Anzahl von Diskriminanzfunktionen

Zur Trennung von $K$ Klassen lassen sich maximal $K-1$ Diskriminanzfunktionen bilden, die orthogonal (d. h. rechtwinklig bzw. unkorreliert) sind. Die Anzahl der Diskriminanzfunktionen kann auch nicht größer werden als die Anzahl $p$ der Merkmalsvariablen, die zur Trennung der Klassen bzw. Gruppen verwendet werden:^[1]

M=\min(K-1,p)

.

Standardisierte Diskriminanzkoeffizienten

Wie bei der linearen Regression kann man auch mit Hilfe von Merkmalsvariablen, welche den größten Einfluss auf die Diskriminanzvariable haben, die standardisierten Diskriminanzkoeffizienten $\beta _{i}^{*}$ des Ziels herauszufinden. Dafür werden die Merkmalsvariablen $X_{i}$ standardisiert:

Z_{i}={\frac {X_{i}-{\bar {x_{i}}}}{s_{i}}}

mit ${\bar {x}}_{i}$ das arithmetische Mittel und $s_{i}$ die Standardabweichung. Danach werden die Koeffizienten neu berechnet:

D=\beta _{0}^{*}+\beta _{1}Z_{1}+\beta _{2}^{*}Z_{2}+\dots +\beta _{p}^{*}Z_{p}

und es gilt

\beta _{i}^{*}=\beta _{i}s_{i}

.

Variable	Koeffizient	Stand. Koeffizient
Einkommen	0,048	1,038
Kreditsumme	−0,007	−1,107

Wäre jetzt einer der standardisierten Koeffizienten aus dem Beispiel nahe Null, dann könnte man die Diskriminanzfunktion vereinfachen, wenn man diese Merkmalsvariable weglässt bei nur geringfügig geringerer Diskriminationskraft.

Beispiel

Ein einfacher Quader-Klassifikator soll anhand des Alters $x$ einer Person bestimmen, ob es sich um einen Teenager handelt oder nicht. Die Diskriminanzfunktion ist

g(x)={\begin{cases}1&{\text{wenn }}13\leq x\leq 19\\-1&{\text{sonst}}\end{cases}}

Da der Merkmalsraum eindimensional ist (nur das Alter wird zur Klassifikation herangezogen), sind die Trennflächen-Punkte bei $x=13$ und $x=19$ . In diesem Fall muss vereinbart werden, dass die Trennflächen mit zur Klasse „Teenager“ gehören.

Einzelnachweise

↑ Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2008). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Springer: Berlin, S. 200. ISBN 978-3-540-85044-1

Literatur

R. Kraft: Diskriminanzanalyse. (PDF; 99 kB) Technische Universität München-Weihenstephan, 8. Juni 2000, abgerufen am 24. Oktober 2012.
Christopher M. Bishop, Neural Networks for Pattern Recognition, Oxford University Press, 1995.
Richard O. Duda and Peter E. Hart, Pattern Classification and Scene Analysis, Wiley-Interscience Publication, 1974.
Keinosuke Fukunaga, Introduction to Statistical Pattern Recognition, Academic Press, 1990.

[1] Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2008). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Springer: Berlin, S. 200. ISBN 978-3-540-85044-1

[1]