Das Quantenreaktionsgleichgewicht, auch Quantal-Response-Gleichgewicht genannt (englisch Quantal Response Equilibrium, kurz: QRE), ist ein Begriff aus der Spieltheorie. Es beschreibt in nicht-kooperativen Spielen eine Kombination von Strategien: Jeder Spieler wählt eine Strategie, von der aus es für keinen Spieler sinnvoll ist, von seiner gewählten Strategie abzuweichen, obwohl diese nicht wissen, ob es sich um die beste der Strategien handelt, und Fehler machen. Die Strategien der Spieler sind demnach im besten Fall gegenseitig beste Antworten. Wenn die Spieler vollständig rational spielen, konvergiert das Quantenreaktionsgleichgewicht zum Nash-Gleichgewicht. Das Quantenreaktionsgleichgewicht ist ein statistisches Lösungskonzept der Spieltheorie. Definition und Existenzbeweis des Quantenreaktionsgleichgewichts gehen auf das 1995 veröffentlichte Paper Quantal Response Equilibria for Normal Form Games der Ökonomen Richard McKelvey und Thomas Palfrey zurück. Das Quantenreaktionsgleichgewicht findet unter anderem eine zentrale Bedeutung in wirtschaftswissenschaftlichen Bereichen wie der Ökonometrie und der statistischen Betrachtung inkonsistenter Spieler, zum Beispiel bei Wahlen oder dem Traveler’s Dilemma (Reisenden-Dilemma). Das Quantenreaktionsgleichgewicht ist nur für Spiele mit diskreten Strategien definiert.
Grundidee
BearbeitenSpieler entscheiden sich für eine Strategie von der sie nicht wissen, ob es sich um die beste aller Strategien handelt und sie machen Fehler bei der Auswahl. Sie wählen aus einem diskreten Strategienraum und stellen Vermutungen über die Wahl der Strategie des Gegenspielers an. Diese Vermutung oder Belief bewahrheitet sich in Erwartung. Im Gleichgewicht stimmen die Vermutungen über die Wahl der Strategie des Gegenspielers und die Fehler in der Auswahl sind minimal, sodass sich die Auszahlung jedes Spielers maximiert und gewährleistet, dass Fehler keine Auswirkungen auf die Strategienwahl eines Spielers haben. Bei perfekt rational handelnden Individuen decken sich statistische Vorhersagen mit der theoretischen Gleichgewichtswahl, da niemand Anreiz hat von seiner Gleichgewichtswahl abzuweichen.
Das Konzept des Quantenreaktionsgleichgewichts unterscheidet sich insofern von anderen theoretischen Gleichgewichtsvorhersagen, als dass es sich um eine statistische Prognose einer Gleichgewichtswahl aus diskreten Strategien handelt. Durch die Modellierung eines Fehlerterms kann jegliches Verhalten von Spielern vorhergesagt werden, welche Tatsache die Güte eines Gleichgewichtskonzepts einschränkt.[1] Grundsätzlich können Aussagen des Quantenreaktionsgleichgewichts als deskriptive Gleichgewichtsvorhersage interpretiert werden.
Aufbau des Quantenreaktionsgleichgewicht in Normalform
BearbeitenVerbale Darstellung
BearbeitenDie strikte Annahme der perfekten Rationalität der Spieler, modelliert durch die deterministische Natur einer strategischen Spielumgebung, soll durch die Hinzunahme eines stochastischen Ausdrucks erweitert werden. Als Folge ist mögliche Inkonsistenz der Spieler möglich.[2] In dieser Spielumgebung lassen sich Lösungen des Gleichgewichts, wie in deterministischen Spielumgebungen nur noch in Wahrscheinlichkeiten ausdrücken, da das Gleichgewicht vom stochastischen Teil und einer Wahrscheinlichkeit der deterministischen Wahl abhängt und somit immer dann ökonomisch relevant ist, wenn der Nutzen eines Spielers von der Realisierung der Zufallsvariable bestimmt wird.
Die erwartete Auszahlung eines Spielers aus unterschiedlichen Strategien hängt von den Beliefs der Spieler über die Wahl der Strategie anderer Spieler ab. Beliefs determinieren erwartete Auszahlungen, welche wiederum Auswahlmöglichkeiten und QR-Funktionen generieren. Im Gleichgewicht passen diese Beliefs zu den Gleichgewichtsauswahlmöglichkeiten.[2]
Spieler machen „infinitesimal“[3] Fehler. Diese Änderung erlaubt es Abweichungen von perfekt rational erwarteten Spielverhalten zu beobachten und mithilfe von logistischer Regression formal zu beschreiben, welche Tatsache signifikant unterschiedliche Ergebnisse zu Nash-Gleichgewichtsvorhersagen haben kann, jedoch mit steigender Wahrscheinlichkeit beziehungsweise Wissen über die Realisierung der Zufallsvariable gegen das Nash-Gleichgewicht konvergiert.[4]
Das Quantenreaktionsgleichgewicht nimmt im Vergleich zum Nash-Gleichgewicht einen Unsicherheitsfaktor hinzu und macht es somit resistenter und allgemeingültiger als das deterministische Modell, da das Verhalten von „noisy players“[2] modelliert werden kann. Tatsächlich aber handelt es sich beim Quantenreaktionsgleichgewicht um eine Verallgemeinerung des Nash-Gleichgewichts (NGGW), die zu diesem mit sinkendem beziehungsweise mit steigender Rationalität konvergiert und sich der Beste-Antwort-Funktion annähert.[5]
Dies liefert einen nützlichen theoretischen Rahmen für die Beobachtung komparativ statischer Effekte von Parameterveränderungen. Es führt nicht zwingend zu Abweichungen von den Nash-Vorhersagen[5].
- Spieler wählen nicht die beste Antwort mit Wahrscheinlichkeit 1 (wie im Nash-Gleichgewicht)
- Spieler wählen Antworten mit höherer erwarteter Auszahlung gewichtet mit höherer Wahrscheinlichkeit – bessere Antworten als beste Antworten
- Spieler haben rationale Erwartungen und nutzen wahre erwartete Fehler, wenn sie Strategien anderer Spieler interpretieren.[6]
In dieser Modellierung haben Spieler eine freie Auswahl nach einem Gut (hier: Strategie) und entscheiden unter stochastischem Einfluss. Sie kennen die Auswahlwahrscheinlichkeit p und schätzen diese Wahrscheinlichkeit mit steigender Erfahrung „besser“. Der deterministische Teil einer Strategienwahl des Spielers ist durch beobachtbare Attribute geprägt und der stochastische Teil unterliegt unbeobachtbaren Einflüssen.
Die Präferenz der Spieler besteht darin eine Strategie zu wählen, die eine höhere erwartete Auszahlung generiert als andere, obwohl nicht gegeben ist, dass es sich um die beste aller Strategien handelt, da Auszahlungen nur noch in Erwartungswerten existieren.[7] Eine Annahme im Modell besteht darin, dass die Spieler ihre erwarteten Auszahlungen korrekt schätzen. Das bedeutet, dass Spieler seine Schätzung der Auszahlung aus Strategie a im Erwartungswert auch erhält unter Berücksichtigung der stochastischen Gleichgewichtswahl der anderen Spieler. Die hinzugenommene stochastische Variable im Einfluss auf die diskrete Wahl ist endogen im Modell[8].
Im Unterschied zum Nash-Gleichgewicht jedoch liefert das Quantenreaktionsgleichgewicht die Möglichkeit statt deterministischen Aussagen, statistische Prognosen zu treffen. Die Güte dieser statistischen Aussagen hängt signifikant von der Präzision der Beliefs der Spieler über die erwarteten Auszahlungen der unterschiedlichen Strategien ab. Erfahrungen der Spieler und Lernfähigkeit spielen eine besondere Rolle, da diese Faktoren Einfluss auf die Fähigkeit präziser Einschätzungen erwarteter Auszahlungen aus bestimmten Strategien haben. Dieses Phänomen kann auch durch den Effekt steigender Beobachtungen in der Ökonometrie erklärt werden.[9]
Formale Darstellung
BearbeitenAnnahmen
BearbeitenDie Normalform eines Spiels mit den folgenden Elementen lautet:
- ;Spieler:
- Es existieren Spieler, wobei
- ;Im Strategieraum:
- existiert für jeden Spieler eine Strategie
- bestehend aus reinen Strategien.
- ;Auszahlungsfunktion
- Für jeden Spieler gibt es eine Auszahlungsfunktion , wo
- ;Wahrscheinlichkeit
- und , wo
- und für alle
- Zur Vollständigkeit sei erwähnt, dass sich alle p in einem Raum von Wahrscheinlichkeiten befinden, in dem gilt :
- Alle Anderen , wobei und , sodass
- also
- ;Wahrscheinlichkeit Spieler wählt Strategie
- Daher repräsentiert die Notation die Strategie, wo i die Strategie wählt und alle anderen Spieler deren Ausprägung von p adaptieren.
- ;Nutzenfunktion
- Wobei den deterministischen Teil und den stochastischen Teil des Modells darstellt.
- Weiterhin kann als weißes Rauschen beschrieben werden und mit folgenden Annahmen versehen werden:
- Sowohl die Verteilungsfunktion als auch die Dichtefunktion sind unbekannt. Der Erwartungswert existiert und ist null.
- Im Logit-Modell jedoch ist der stochastische Teil der Nutzenfunktion extremwertverteilt, welche Annahme zu nützlichen Effekten führt. Der extremwertverteilte Fehlerterm kann als Spieler 's Fehler-Vektor definiert werden.
Die Nutzenfunktion der Spieler
BearbeitenAbweichungen von optimalen Entscheidungen sind negativ korreliert mit verbundenen Kosten. In anderen Worten machen Spieler sehr ungern Fehler mit hohen Kosten. Formal bildet die Nutzenfunktion einen Vektor mit einem deterministischen Teil und einem stochastischen Teil mit oben genannten Annahmen. Erwartete Auszahlungen
oder genauer
wiederum sind determiniert von Beliefs über die Aktionen anderer Spieler und bilden den deterministischen Teil der Nutzenfunktion. Die Auszahlungen der Spieler werden mit der Wahrscheinlichkeit, dass die Strategie gespielt wird, gewichtet.
Nash-Gleichgewichte in reinen Strategien existieren unter oben genannten Annahmen nur noch in Erwartungswerten und mit Fehlerterm. Die Auszahlungen können durch den Vektor
wo,
verständlicher gemacht werden.
Der Spieler wählt Strategie j, wenn und maximal wird. Zudem kommt der Fehlerterm , sodass für jedes u für jeden Spieler eine {ij}-Antwort-Menge R existiert:
Eine Menge mit gegebenen p gibt die Region der Fehler an, die Spieler zu Strategie j führt:
was der Wahrscheinlichkeit, dass Spieler Strategie j gegeben wählt und dem Quantenreaktionsgleichgewicht entspricht.[10]
Es entsteht eine mit Wahrscheinlichkeit gewichtete Auszahlung aller Strategien unter Berücksichtigung der Ausprägung des Residuums. Es existiert eine zufällige Beste-Antwort-Funktion für alle Spiele in Normalform und somit auch ein Quantenreaktionsgleichgewicht. Die Gleichgewichts-Wahlmöglichkeiten bilden das Quantenreaktionsgleichgewicht. Im Gleichgewicht sind die Beliefs der Spieler richtig. Eine Modellierung ist durch das Logit-Gleichgewicht möglich, da unbeobachtete Störterme Abweichungen des Nutzens der Spieler zur Folge haben und als Ziel der Modellierung so klein wie möglich gehalten werden sollen.
Logit-Quantenreaktionsgleichgewicht
BearbeitenDie gängigste Angabe eines Quantenreaktionsgleichgewichts (QRE) ist das Logit-Quantenreaktionsgleichgewicht (englisch Logit Quantal Response Equilibrium, kurz: LQRE):
Kerngedanke der Logit-Modellierung der Wahl der Strategie von Spielern bildet ein diskretes Entscheidungsmodell.[11] Somit ist es möglich Aussagen bezüglich der Auswahl von alternativen Strategie der Spieler zu treffen. Spieler wählt aus dem Strategienraum ohne Berücksichtigung der Zeit , da es sich um ein einmaliges Spiel handelt. Der Spieler präferiert Strategie vor , wenn gilt:
Unter Logit-Modellen versteht man eine Form der binären Auswahlprobleme, in der der stochastische Teil der Nutzenfunktion aus unabhängig und identisch verteilten Störtermen, die einer Extremwertverteilung folgen . Nach dem Fisher-Tippett Theorem (später Fisher-Tippett Gnedenko Theorem) nähern sich diese einer Extremwertverteilung an[12].
Die Verteilungsfunktion (Über-Extremwertverteilung) erfüllt diese Annahmen und ist eine Klasse der Extremwertverteilung. Die Verteilungsfunktion (Graphik 1) zeigt an, wie wahrscheinlich ein Ergebnis ist, das höchstens der auf der x-Achse stehender Wert beobachtet wird. Die Realisierungen (Graphik 3,4) dieser Verteilung zeigen die Beobachtungen im Zeitverlauf. Unter Standard ist hier die Gumbel-Verteilung (0,1) definiert und (mu,beta) gibt eine anders skalierte Ausprägung der Realisierungen an. Der Flächeninhalt unter der Dichtefunktion (Graphik 2) bis zu einer Realisierung korrespondiert zur Wahrscheinlichkeit, zu der höchstens dieser Wert eintritt.
Daher sind stochastische Störterme als Maximum der Zufallszahlen zu verstehen. Die Form des Logit-Modells erlaubt Schätzungen mithilfe der Maximum-Likelihood-Methode über die Wahl der Spieler zu schätzen. Durch extremverteilte stochastische Störterme ergibt sich die Auswahlwahrscheinlichkeit[13]:
kann in diesem Fall als Rationalitätsparameter identifiziert werden und gibt an, wie rational die Spieler entscheiden. Ein Spieler mit entscheidet perfekt rational und alle Vorhersagen konvergieren zum Nash-Gleichgewicht.
Problematisch allerdings ist die Annahme der unabhängig und identisch verteilten Störterme. Die resultierende Korrelation von 0 zwischen den Störtermen hat ein Verhältnis der Auswahlwahrscheinlichkeiten zur Folge.
Für die Alternativen gilt das Verhältnis[13]:
Die Konstanz dieses Verhältnisses widerspricht der Unabhängigkeit von irrelevanten Alternativen (englisch Independence of irrelevant alternatives, kurz: IIA).
Anwendungen
BearbeitenDas Quantenreaktionsgleichgewicht findet in Spielen mit diskreten Strategien Anwendung. Im Traveler’s Dilemma kann das Quantenreaktionsgleichgewicht beobachtete Daten des Verhaltens der Spieler erklären. Wobei es möglich ist, bei bestimmter Wahl des Rationalitätsparameters, jegliches Verhalten von Spielern zu modellieren[1].
(-1,1) | (1,-1) | |
(-1,1) | (1,-1) |
Spielermenge
Strategienmenge
Strategienmenge Spieler 1
Strategiemenge Spieler 2
Nullsummenspiel mit diskreten Strategien
Zeilenspielers erwartete Auszahlungsfunktion aus Strategie ( ) ist eine Funktion der Auswahlwahrscheinlichkeit von Spaltenspielers Strategie ( ), welche durch Erwartungswerte gebildet werden kann:
Analog dazu bildet sich Zeilenspielers erwartete Auszahlungsfunktion aus Strategie B aus der Auswahlwahrscheinlichkeit von Spaltenspieler seiner Strategie R :
Falls Spaltenspieler lieber R spielt ( ) ist Zeilenspielers beste Antwort Strategie T.
Spaltenspielers erwartete Auszahlungen können analog errechnet werden.
Die QR-Funktion glättet die unstetige errechnete Beste-Antwort-Funktion und repräsentiert monotone und stochastische Wahl als eine Funktion von Auszahlungen[14]. In der Graphik schneiden sich QR-Funktion und Beste-Antwort-Funktion im Nash-Gleichgewicht. Bei einem anderen Rationalitätsparameter verschiebt sich die QR-Funktion und es kommt zu anderen statistischen Vorhersagen bezüglich eines Gleichgewichts. Die QR-Funktion des Gegenspielers errechnet sich analog.
Aufbau des Quantenreaktionsgleichgewichts in Extensivform
BearbeitenVerbale Darstellung
BearbeitenIn extensiver Form des Spiels wird der Faktor Zeit in das Modell mit aufgenommen und es entsteht eine Art Stufenspiel. Im deterministischen Modell können auch im unendlich oft wiederholten Stufenspiel Aussagen über ein zeitresistentes Gleichgewicht getroffen werden, da ein Nash-Gleichgewicht immer ein Gleichgewicht bleiben muss. Der stochastische Einfluss und der Störterm jedoch verhindern diese Fähigkeit durch die Abhängigkeit des Gleichgewichts von den Realisierungen verschiedener Zufallsvariablen. Es können lediglich Erwartungswerte angegeben werden, die letztendlich keine sicheren Vorhersagen treffen können. Das Gesetz der großen Zahlen bewirkt, dass mit steigenden Beobachtungen konsistentere Aussagen über Gleichgewichte getroffen werden können. McKelvey und Palfrey definieren für das dynamische Spiel ein Agenten-Quantenreaktionsgleichgewicht (englisch Agent Quantal Response Equilibrium, kurz: AQRE), welches mithilfe von Teilspielperfektheit ermittelt werden kann. In diesem Spiel determiniert jeder Spieler seine erwartete Auszahlung mithilfe einer Modellierung der Zukunft als einen eigenen Spieler mit Kenntnis über die Wahrscheinlichkeitsverteilung über die Strategien.[15]
Weblinks
Bearbeiten- McKelvey, Palfrey 1995: URL http://www.dklevine.com/archive/refs4510.pdf
- McKelvey, Palfrey 1998: URL http://fisher.osu.edu/~schroeder.9/AMIS900/McKelvey1998.pdf
- Becker, Carter, Naeve 2005: URL https://www.uni-hohenheim.de/RePEc/hoh/papers/252.pdf
- Goeree, Holt, Palfrey : URL http://people.hss.caltech.edu/~jkg/QRE%20Palgrave.pdf
- Economics 209B , Behavioral / Experimental Game Theory: URL http://eml.berkeley.edu/~kariv/209B_QRE.pdf
Literatur
Bearbeiten- McFadden, D., 1973. Conditional logit analysis of qualitative choice behavior
- Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of the largest or smallest member of a sample. In: Mathematical Proceedings of the Cambridge Philosophical Society. Vol. 24. Cambridge Univ. Press
- Train, K. E., 2009. Discrete Choice Methods with Simulation
Einzelnachweise
Bearbeiten- ↑ a b Becker et al.: Experts Playing the Traveler’s Dilemma, Hohenheimer Diskussionsbeiträge, Nr. 252/2005, S. 13
- ↑ a b c Goeree, Holt, Palfrey: Quantal Response Equilibrium, Division of the Humanities and Social Sciences, S. 1.
- ↑ McKelvey, Palfrey: Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, Zeile 2, 1995
- ↑ McKelvey, Palfrey: Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 6–8, 1995
- ↑ a b Goeree, Holt, Palfrey: Quantal Response Equilibrium, Division of the Humanities and Social Sciences, S. 2.
- ↑ Economics 209B , Behavioral / Experimental Game Theory: Lecture 4: Quantal Response Equilibrium (QRE), Spring 2008
- ↑ McKelvey, Palfrey: Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 10, „better actions are more likely to be chosen than worse actions“, 1995
- ↑ McKelvey, Palfrey: Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, 1995
- ↑ McKelvey, Palfrey: Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 8 ff., 1995
- ↑ McKelvey, Palfrey: Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 10, 1995
- ↑ Train, K. E : Discrete Choice Methods with Simulation, Cambridge University Press, 2009
- ↑ Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of the largest or smallest member of a sample. In: Mathematical Proceedings of the Cambridge Philosophical Society. Vol. 24. Cambridge Univ. Press, pp. 180–190
- ↑ a b McFadden, D., 1973. Conditional logit analysis of qualitative choice behavior.
- ↑ Goeree, Holt, Palfrey: Quantal Response Equilibrium, Division of the Humanities and Social Sciences, A Motivating Example: Generalized Matching Pennies, S. 1 ff.
- ↑ McKelvey, Richard; Palfrey, Thomas (1998), „Quantal Response Equilibria for Extensive Form Games“, Experimental Economics Vol. 1, Seite 9–41