Key points are not available for this paper at this time.
Das Dilemma von Exploration und Exploitation ist seit langem ein entscheidendes Problem im Bereich des Reinforcement Learnings. In diesem Papier schlagen wir einen neuen Ansatz vor, um automatisch ein Gleichgewicht zwischen diesen beiden herzustellen. Unsere Methode basiert auf dem Soft Actor-Critic (SAC) Algorithmus, der eine "Entropietemperatur" verwendet, die die ursprüngliche Aufgabenbelohnung und die Politikentropie ausbalanciert und somit den Kompromiss zwischen Exploitation und Exploration steuert. Es wird empirisch gezeigt, dass SAC sehr empfindlich auf diesen Hyperparameter reagiert, und die nachfolgende Arbeit (SAC-v2), die eine konstruierte Optimierung für die automatische Anpassung verwendet, hat einige Einschränkungen. Der Kern unserer Methode, nämlich Meta-SAC, besteht darin, Metagradienten zusammen mit einem neuartigen Meta-Ziel zu verwenden, um die Entropietemperatur in SAC automatisch zu optimieren. Wir zeigen, dass Meta-SAC bei mehreren der Mujoco-Benchmarking-Aufgaben vielversprechende Leistungen erzielt und SAC-v2 in einer der herausforderndsten Aufgaben, humanoid-v2, um über 10 % übertrifft.
Wang et al. (Fri,) haben diese Frage untersucht.