Diskussion:Q-Lernen

Letzter Kommentar: vor 1 Jahr von Christian Gawron in Abschnitt Kontext zur Wertefunktion Q

Kontext zur Wertefunktion Q Bearbeiten

Der Artikel setzt eine ganze Menge Vorwissen voraus und holt den Leser nicht wirklich ab.

  • Was ist die Wertefunktion? Der Begriff wird nicht erklärt und es wird auch kein Link angegeben.
  • Was ist   eigentlich? Die Erklärung fehlt.
  • Die Lernrate   und der Diskontierungsfaktor   werden nicht erklärt.
  • Einige Punkte sind ungenau. Zwar wird Q-Lernen in der Regel mit einer Epsilon-Greedy-Strategie kombiniert, aber ist das zwingend? Falls ja, würde mich dazu eine Quelle interessieren.

--Christian Gawron (Diskussion) 10:33, 24. Nov. 2022 (CET)Beantworten