L'apprentissage par renforcement (RL) hors ligne basé sur un modèle construit des modèles d'environnement à partir de jeux de données hors ligne pour effectuer une optimisation de politique conservative. Les approches existantes se concentrent sur l'apprentissage des transitions d'état à travers des modèles d'ensemble, déployant des estimations conservatrices pour atténuer les erreurs d'extrapolation. Cependant, les données statiques rendent difficile le développement d'une politique robuste, et les agents hors ligne ne peuvent pas accéder à l'environnement pour recueillir de nouvelles données. Pour relever ces défis, nous introduisons l'apprentissage par renforcement hors ligne basé sur un modèle avec augmentation de données adversariales (MORAL). Dans MORAL, nous remplaçons le déploiement à horizon fixe en utilisant l'augmentation de données adversariales pour exécuter un échantillonnage alternatif avec des modèles d'ensemble afin d'enrichir les données d'entraînement. Plus précisément, ce processus adversarial sélectionne dynamiquement des modèles d'ensemble contre la politique pour un échantillonnage biaisé, atténuant l'estimation optimiste des modèles fixes, élargissant ainsi de manière robuste les données d'entraînement pour l'optimisation de la politique. De plus, un facteur différentiel (DF) est intégré dans le processus adversarial pour la régularisation, garantissant la minimisation des erreurs dans les extrapolations. Cette optimisation augmentée par des données s'adapte à diverses tâches hors ligne sans ajustement de l'horizon de déploiement, montrant une applicabilité remarquable. D'importantes expériences sur le benchmark D4RL montrent que MORAL surpasse d'autres méthodes de RL hors ligne basées sur des modèles en termes d'apprentissage de politique et d'efficacité d'échantillonnage.
Cao et al. (Mer,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: