Key points are not available for this paper at this time.
Eine häufige Klasse von Problemen im Bereich des Verstärkungslernens (RL) in nichtstationären Umgebungen steht im Zusammenhang mit Problemen, bei denen das Umweltmodell unter einer endlichen Menge möglicher unterschiedlicher Modelle verändert wird. In bestimmten Problemen ist die Vorhersage von abrupten Modelländerungen möglich. Die Verwendung von gewichteten Mischungsrichtlinien (WMP) ist ein neuerer Ansatz, um solche Vorhersagen proaktiv vor dem Eintritt der Änderung zu nutzen, um die insgesamt angesammelten Belohnungen zu erhöhen. Bei dem in der Literatur vorgestellten WMP-Ansatz wird angenommen, dass die optimalen Richtlinien aller einzelnen Umweltmodelle bekannt sind, was zu einer hohen Stichprobenkomplexität führt, da ausreichende Trainingsproben erforderlich sind, um individuelle optimale Richtlinien zu erreichen und dann WMP genutzt werden darf. Zudem sind neue Daten für das Training erforderlich. In dieser Arbeit wird die Möglichkeit untersucht, WMP vor dem Erreichen der optimalen individuellen Richtlinien zu verwenden und mit dem Training von WMP zu beginnen, während die individuellen Richtlinien noch trainiert werden. Im kart-pole prädiktiven Referenzverfolgungsproblem als numerisches Experiment wird gezeigt, dass die Verfügbarkeit optimaler individueller Richtlinien nicht erforderlich ist, um WMP zu verwenden, und eine gewisse Leistungsverbesserung der individuellen Richtlinien ausreicht, um mit der Verwendung von WMP zu beginnen. Die Nutzung von WMP vor dem Erreichen exakter optimaler Richtlinien führt zu einer signifikanten Verbesserung der Stichprobenkomplexität.
Pourshamsaei et al. (Thu,) haben diese Frage untersucht.