Key points are not available for this paper at this time.
Wir passen die Ideen, die dem Erfolg des Deep Q-Learning zugrunde liegen, an den kontinuierlichen Aktionsbereich an. Wir präsentieren einen aktor-kritischen, modellfreien Algorithmus, der auf dem deterministischen Policy-Gradienten basiert und über kontinuierliche Aktionsräume arbeiten kann. Mit demselben Lernalgorithmus, Netzwerkarchitektur und Hyper-Parametern löst unser Algorithmus robust mehr als 20 simulierte Physikaufgaben, einschließlich klassischer Probleme wie Cartpole Swing-Up, geschickte Manipulation, beinbasierte Fortbewegung und Autofahren. Unser Algorithmus ist in der Lage, Politiken zu finden, deren Leistung wettbewerbsfähig ist mit denen, die von einem Planungsalgorithmus mit vollem Zugriff auf die Dynamik des Bereichs und dessen Ableitungen gefunden werden. Weiterhin demonstrieren wir, dass der Algorithmus für viele der Aufgaben Politiken end-to-end lernen kann: direkt aus Rohpixel-Eingaben.
Lillicrap et al. (Mittwoch) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: