Key points are not available for this paper at this time.
Der jüngste Fortschritt im Bereich des Deep Learning basierte auf dem Zugang zu großen und vielfältigen Datensätzen. Ein solcher datengetriebener Fortschritt war im Offline-Verstärkungslernen (RL) weniger offensichtlich, da Offline-RL-Daten in der Regel gesammelt werden, um spezifische Zielaufgaben zu optimieren, was die Vielfalt der Daten einschränkt. In dieser Arbeit schlagen wir explorative Daten für Offline-RL (ExORL) vor, einen datenzentrierten Ansatz für Offline-RL. ExORL generiert zunächst Daten durch unbeaufsichtigte, belohnungsfreie Erkundung und etikettiert dann diese Daten mit einer nachgelagerten Belohnung, bevor eine Strategie mit Offline-RL trainiert wird. Wir finden, dass explorative Daten es Vanilla-Off-Policy-RL-Algorithmen ermöglichen, ohne spezifische Offline-Modifikationen, State-of-the-Art-Offline-RL-Algorithmen bei nachgelagerten Aufgaben zu übertreffen oder gleichzuziehen. Unsere Ergebnisse deuten darauf hin, dass die Datengenerierung ebenso wichtig ist wie algorithmische Fortschritte im Offline-RL und daher von der Gemeinschaft sorgfältig berücksichtigt werden muss. Code und Daten finden Sie unter https://github.com/denisyarats/exorl.
Yarats et al. (Mon,) haben diese Frage untersucht.