Ändere nicht den Algorithmus, ändere die Daten: Explorative Daten für Offline-Verstärkungslernen

Key Points

Key points are not available for this paper at this time.

Abstract

Der jüngste Fortschritt im Bereich des Deep Learning basierte auf dem Zugang zu großen und vielfältigen Datensätzen. Ein solcher datengetriebener Fortschritt war im Offline-Verstärkungslernen (RL) weniger offensichtlich, da Offline-RL-Daten in der Regel gesammelt werden, um spezifische Zielaufgaben zu optimieren, was die Vielfalt der Daten einschränkt. In dieser Arbeit schlagen wir explorative Daten für Offline-RL (ExORL) vor, einen datenzentrierten Ansatz für Offline-RL. ExORL generiert zunächst Daten durch unbeaufsichtigte, belohnungsfreie Erkundung und etikettiert dann diese Daten mit einer nachgelagerten Belohnung, bevor eine Strategie mit Offline-RL trainiert wird. Wir finden, dass explorative Daten es Vanilla-Off-Policy-RL-Algorithmen ermöglichen, ohne spezifische Offline-Modifikationen, State-of-the-Art-Offline-RL-Algorithmen bei nachgelagerten Aufgaben zu übertreffen oder gleichzuziehen. Unsere Ergebnisse deuten darauf hin, dass die Datengenerierung ebenso wichtig ist wie algorithmische Fortschritte im Offline-RL und daher von der Gemeinschaft sorgfältig berücksichtigt werden muss. Code und Daten finden Sie unter https://github.com/denisyarats/exorl.

Bookmark

View Full Paper

Bookmark

View Full Paper

Ändere nicht den Algorithmus, ändere die Daten: Explorative Daten für Offline-Verstärkungslernen

Key Points

Abstract

Cite This Study