September 9, 2015Open Access

Kontinuierliche Steuerung mit tiefem Verstärkungslernen

Key Points

Key points are not available for this paper at this time.

Abstract

Wir passen die Ideen, die dem Erfolg des Deep Q-Learning zugrunde liegen, an den kontinuierlichen Aktionsbereich an. Wir präsentieren einen aktor-kritischen, modellfreien Algorithmus, der auf dem deterministischen Policy-Gradienten basiert und über kontinuierliche Aktionsräume arbeiten kann. Mit demselben Lernalgorithmus, Netzwerkarchitektur und Hyper-Parametern löst unser Algorithmus robust mehr als 20 simulierte Physikaufgaben, einschließlich klassischer Probleme wie Cartpole Swing-Up, geschickte Manipulation, beinbasierte Fortbewegung und Autofahren. Unser Algorithmus ist in der Lage, Politiken zu finden, deren Leistung wettbewerbsfähig ist mit denen, die von einem Planungsalgorithmus mit vollem Zugriff auf die Dynamik des Bereichs und dessen Ableitungen gefunden werden. Weiterhin demonstrieren wir, dass der Algorithmus für viele der Aufgaben Politiken end-to-end lernen kann: direkt aus Rohpixel-Eingaben.

KI fragen

Bookmark

View Full Paper