Key points are not available for this paper at this time.
Dies ist eine Studie über endliche Zustandsdiskrete-Zeit-abgezinste Markovsche Entscheidungsprozesse, bei denen die Zustände probabilistisch beobachtet werden. Ein Modell dieses Prozesses wird formuliert, und ein impliziter Enumerationsalgorithmus wird vorgestellt, der die gesamte erwartete abgezinste Belohnung basierend auf dem Anfangszustand optimiert. Mehrere numerische Beispiele werden präsentiert.
Satia et al. (Sat,) haben diese Frage untersucht.