February 24, 2024Open Access

Apprentissage simultané de politiques et de contraintes de sécurité inconnues en apprentissage par renforcement

Key Points

Key points are not available for this paper at this time.

Abstract

L'apprentissage par renforcement (RL) a révolutionné la prise de décision dans une large gamme de domaines au cours des dernières décennies. Cependant, le déploiement de politiques RL dans des scénarios du monde réel présente le défi crucial d'assurer la sécurité. Les approches traditionnelles de RL sûr se sont principalement concentrées sur l'incorporation de contraintes de sécurité prédéfinies dans le processus d'apprentissage des politiques. Cependant, cette dépendance à des contraintes de sécurité prédéfinies pose des limites dans des contextes réels dynamiques et imprévisibles où de telles contraintes peuvent ne pas être disponibles ou suffisamment adaptables. Pour combler cette lacune, nous proposons une approche novatrice qui apprend simultanément une politique de contrôle RL sûre et identifie les paramètres de contraintes de sécurité inconnus d'un environnement donné. En nous basant sur une spécification de sécurité en logique temporelle paramétrique (pSTL) et un petit ensemble de données étiquetées initial, nous formulons le problème comme une tâche d'optimisation bilatérale, intégrant de manière complexe l'optimisation de politiques contraintes, en utilisant une variante lagrangienne de l'algorithme de gradient déterministe profond à retard twin (TD3), avec l'optimisation bayésienne pour optimiser les paramètres de la spécification de sécurité pSTL donnée. À travers des expérimentations dans des études de cas complètes, nous validons l'efficacité de cette approche face à différentes formes de contraintes environnementales, produisant systématiquement des politiques RL sûres avec des rendements élevés. De plus, nos résultats indiquent un apprentissage réussi des paramètres de contraintes de sécurité STL, exhibant un haut degré de conformité avec les véritables contraintes de sécurité environnementales. La performance de notre modèle reflète étroitement celle d'un scénario idéal possédant une connaissance préalable complète des contraintes de sécurité, démontrant sa capacité à identifier avec précision les contraintes de sécurité environnementales et à apprendre des politiques sûres qui respectent ces contraintes.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper