March 24, 2024Open Access

Über OOD-Zustandsaktionen hinaus: Unterstütztes domänenübergreifendes Offline-Verstärkungslernen

Key Points

Key points are not available for this paper at this time.

Abstract

Offline-Verstärkungslernen (RL) zielt darauf ab, eine Politik unter Verwendung nur vorab gesammelter und fixierter Daten zu erlernen. Obwohl es die zeitaufwändigen Online-Interaktionen im RL vermeidet, stellt es Herausforderungen für OOD-Zustandsaktionen (out-of-distribution) dar und leidet oft unter Datenineffizienz beim Training. Trotz zahlreicher Bemühungen, OOD-Zustandsaktionen anzugehen, erhält letzteres (Datenineffizienz) im Offline-RL wenig Aufmerksamkeit. Um dies zu adressieren, schlägt dieses Papier das domänenübergreifende Offline-RL vor, das davon ausgeht, dass Offline-Daten zusätzliche Quelldomänendaten aus unterschiedlichen Übergangsdynamiken (Umgebungen) integrieren und erwartet, dass dies zur Offline-Dateneffizienz beiträgt. Dazu identifizieren wir eine neue Herausforderung der OOD-Übergangsdynamiken, über das häufige Problem der OOD-Zustandsaktionen hinaus, beim Einsatz domänenübergreifender Offlinedaten. Dann schlagen wir unsere Methode BOSA vor, die zwei unterstützte Zielsetzungen einsetzt, um die oben genannten OOD-Probleme zu lösen. Durch umfangreiche Experimente im domänenübergreifenden Offline-RL-Setting zeigen wir, dass BOSA die Offline-Dateneffizienz erheblich verbessern kann: Mit nur 10 % der Ziel-Daten konnte BOSA 74,4 % der SOTA Offline-RL-Leistung erreichen, die 100 % der Ziel-Daten verwendet. Darüber hinaus zeigen wir auch, dass BOSA mühelos in modellbasiertes Offline-RL und Datenaugmentierungstechniken (verwendet zur Generierung von Quelldomänendaten) integriert werden kann, was natürlich die potenzielle Dynamikanpassung zwischen Ziel-Daten und neu generierten Quelldomänendaten vermeidet.

Über OOD-Zustandsaktionen hinaus: Unterstütztes domänenübergreifendes Offline-Verstärkungslernen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider