Key points are not available for this paper at this time.
Algorithmen des tiefen Verstärkungslernens (RL) parametrieren typischerweise die Politik als tiefes Netzwerk, das entweder eine deterministische oder eine stochastische Aktion, die als Gaußsche Verteilung modelliert wird, ausgibt und somit das Lernen auf einen einzigen Verhaltensmodus beschränkt. Inzwischen sind Diffusionsmodelle als leistungsstarkes Framework für multimodales Lernen hervorgetreten. Die Verwendung von Diffusionspolitiken im Online-RL wird jedoch durch die Unmöglichkeit der Annäherung an die Politik-Wahrscheinlichkeit sowie das gierige Ziel von RL-Methoden, das die Politik leicht auf einen einzigen Modus verzerren kann, behindert. Dieses Papier präsentiert Deep Diffusion Policy Gradient (DDiffPG), einen neuartigen Actor-Critic-Algorithmus, der von Grund auf multimodale Politiken lernt, die als Diffusionsmodelle parametrisiert sind, während vielseitige Verhaltensweisen entdeckt und aufrechterhalten werden. DDiffPG erforscht und entdeckt mehrere Modi durch handelsübliche unbeaufsichtigte Clusterung in Kombination mit neuheitsbasierter intrinsischer Motivation. DDiffPG bildet eine multimodale Trainingsgruppe und nutzt modusspezifisches Q-Learning, um die inhärente Gier des RL-Ziels zu mildern und die Verbesserung der Diffusionspolitik über alle Modi hinweg sicherzustellen. Unser Ansatz ermöglicht es zudem, die Politik an modusspezifische Einbettungen zu koppeln, um die gelernten Modi explizit zu steuern. Empirische Studien bestätigen die Fähigkeit von DDiffPG, multimodale Verhaltensweisen in komplexen, hochdimensionalen kontinuierlichen Steuerungsaufgaben mit spärlichen Belohnungen zu meistern und zeigen auch einen proof-of-concept dynamisches Online-Neuplanning beim Navigieren durch Labyrinthe mit unbekannten Hindernissen.
Li et al. (Sun,) haben diese Frage untersucht.