Key points are not available for this paper at this time.
Wir präsentieren eine Reformulierung des Problems der stochastischen optimalen Steuerung in Bezug auf die Minimierung der KL-Divergenz, die nicht nur eine vereinigende Perspektive auf frühere Ansätze in diesem Bereich bietet, sondern auch zeigt, dass das Formalismus zu neuartigen praktischen Ansätzen für das Steuerungsproblem führen kann. Insbesondere führt eine natürliche Relaxation der dualen Formulierung zu exakten iterativen Lösungen für das stochastische optimale Steuerungsproblem mit endlichen und unendlichen Horizonten, während die direkte Anwendung von Bayes'schen Inferenzmethoden Fälle von risikosensibler Steuerung hervorbringt. Darüber hinaus untersuchen wir entsprechende Formulierungen im Kontext des Reinforcement Learnings und präsentieren modellfreie Algorithmen für Probleme mit sowohl diskreten als auch kontinuierlichen Zustands- und Aktionsräumen. Die Bewertung der vorgeschlagenen Methoden an den Standard-Benchmarks Gridworld und Cart-Pole bestätigt die theoretischen Erkenntnisse und zeigt, dass die vorgeschlagenen Methoden aktuelle Ansätze verbessern.
Rawlik et al. (Mon,) haben diese Frage untersucht.