Key points are not available for this paper at this time.
Offline-Verstärkungslernen (RL) zielt darauf ab, eine Politik unter Verwendung nur vorab gesammelter und fixierter Daten zu erlernen. Obwohl es die zeitaufwändigen Online-Interaktionen im RL vermeidet, stellt es Herausforderungen für OOD-Zustandsaktionen (out-of-distribution) dar und leidet oft unter Datenineffizienz beim Training. Trotz zahlreicher Bemühungen, OOD-Zustandsaktionen anzugehen, erhält letzteres (Datenineffizienz) im Offline-RL wenig Aufmerksamkeit. Um dies zu adressieren, schlägt dieses Papier das domänenübergreifende Offline-RL vor, das davon ausgeht, dass Offline-Daten zusätzliche Quelldomänendaten aus unterschiedlichen Übergangsdynamiken (Umgebungen) integrieren und erwartet, dass dies zur Offline-Dateneffizienz beiträgt. Dazu identifizieren wir eine neue Herausforderung der OOD-Übergangsdynamiken, über das häufige Problem der OOD-Zustandsaktionen hinaus, beim Einsatz domänenübergreifender Offlinedaten. Dann schlagen wir unsere Methode BOSA vor, die zwei unterstützte Zielsetzungen einsetzt, um die oben genannten OOD-Probleme zu lösen. Durch umfangreiche Experimente im domänenübergreifenden Offline-RL-Setting zeigen wir, dass BOSA die Offline-Dateneffizienz erheblich verbessern kann: Mit nur 10 % der Ziel-Daten konnte BOSA 74,4 % der SOTA Offline-RL-Leistung erreichen, die 100 % der Ziel-Daten verwendet. Darüber hinaus zeigen wir auch, dass BOSA mühelos in modellbasiertes Offline-RL und Datenaugmentierungstechniken (verwendet zur Generierung von Quelldomänendaten) integriert werden kann, was natürlich die potenzielle Dynamikanpassung zwischen Ziel-Daten und neu generierten Quelldomänendaten vermeidet.
Liu et al. (Sun,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: