Key points are not available for this paper at this time.
Viele reale Probleme beinhalten die Optimierung mehrerer, möglicherweise widersprüchlicher Ziele. Multi-Objective Verstärkungslernen (MORL) ist eine Verallgemeinerung des standardmäßigen Verstärkungslernens, bei der das skalare Belohnungssignal auf mehrere Rückmeldesignale erweitert wird, im Wesentlichen eines für jedes Ziel. MORL ist der Prozess des Lernens von Politiken, die mehrere Kriterien gleichzeitig optimieren. In diesem Papier präsentieren wir einen neuartigen Algorithmus für zeitliches Differenzlernen, der die Pareto-Dominanzrelation in einen Ansatz des Verstärkungslernens integriert. Dieser Algorithmus ist ein Multi-Policy-Algorithmus, der in einem einzigen Durchlauf eine Menge von Pareto-dominierenden Politiken lernt. Wir nennen diesen Algorithmus Pareto Q-Learning und er ist anwendbar in episodischen Umgebungen mit deterministischen sowie stochastischen Übergangsfunktionen. Ein entscheidender Aspekt des Pareto Q-Learnings ist der Aktualisierungsmechanismus, der Mengen von Q-Vektoren bootstrapped. Einer unserer Hauptbeiträge in diesem Papier ist ein Mechanismus, der den erwarteten unmittelbaren Belohnungsvektor von der Menge der erwarteten zukünftigen diskontierten Belohnungsvektoren trennt. Diese Zerlegung ermöglicht es uns, die Mengen zu aktualisieren und die gelernten Politiken konsistent über den Zustandsraum auszunutzen. Um das Gleichgewicht zwischen Exploration und Ausnutzung zu wahren.
Moffaert et al. (Wed,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: