Markov Decision Process - Verständnisproblem



  • Hallo,

    ich beschäftige mich gerade mit partial observable MDPs und sehe wahrscheinlich den Wald vor lauter Bäumen nicht mehr... Ich zitiere mal aus

    http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node33.html

    Es gibt zwei endliche Mengen S, der möglichen Zustände und A der möglichen Aktionen.

    Dann gibt es Übergangswahrscheinlichkeiten PssaP_{ss'}^{a}, die besagen, wie Wahrscheinlich es ist, dass wenn ich im Zustand s Aktion a ausführe in Zustand s' zu kommen.

    Oder anders gesagt zusammen mit der Markov-Bedingung ist Pssa=Pr(st+1=ss_t=s,a_t=a)P_{ss'}^{a} = Pr(s_{t+1} = s' | s\_t = s, a\_t = a)

    Und dann noch der Teil, denn ich nicht verstehe, nämlich erwartete Rewards

    Rssa=E(rt+1s_t=s,a_t=a,st+1=s)R_{ss'}^{a} = E(r_{t+1} | s\_t = s, a\_t = a, s_{t+1} = s')

    Ich verstehe nicht, welche Form die Zufallsvariable rt+1r_{t+1} hat und warum man nicht einfach eine Funktion R: S \times S \times \A \leftarrow \mathbb{R} definiert. Kann vll. jemand ein Beispiel machen?



  • Was ist denn mit den Formeln passiert?


  • Mod

    mazal schrieb:

    Was ist denn mit den Formeln passiert?

    Die Latex-Tags funktionieren seit einer Weile nicht so richtig 😞 . Nichtsdestotrotz sind die Tags nur wie \begin{document} ... \end{document}, du müsstest also schon noch eine Matheumgebung innerhalb der Tags aufmachen, wenn du mit den Tags Mathematik setzen möchtest. Aber wie gesagt: Kann gut sein, dass es trotzdem nicht funktioniert.



  • deleted


Anmelden zum Antworten