Key points are not available for this paper at this time.
L'utilisation extensive des réseaux de politiques en apprentissage par renforcement profond (DRL) dans diverses tâches de contrôle continu a soulevé des questions concernant la dégradation des performances dans des espaces d'état vastes où la norme de l'état d'entrée est supérieure à celle de l'environnement d'entraînement. Cet article vise à découvrir les facteurs sous-jacents contribuant à cette détérioration des performances lors du traitement des espaces d'état élargis, en utilisant une technique d'analyse novatrice appelée division de l'état. Contrairement aux approches antérieures qui utilisent la division de l'état uniquement comme un outil explicatif post-hoc, notre méthodologie plonge dans les caractéristiques intrinsèques des réseaux de politiques DRL. Plus particulièrement, nous démontrons que l'expansion de l'espace d'état induit la fonction d'activation à exhiber une saturabilité, ce qui entraîne la transformation de la limite de division de l'état d'une forme non linéaire à une forme linéaire. Notre analyse se concentre sur le paradigme du système double intégrateur, révélant que ce passage progressif vers la linéarité confère un comportement de contrôle rappelant le contrôle bang-bang. Toutefois, la linéarité intrinsèque de la limite de division empêche l'atteinte d'un contrôle bang-bang idéal, introduisant ainsi des dépassements inévitables. Nos investigations expérimentales, utilisant divers algorithmes d'apprentissage par renforcement, établissent que ce phénomène de performance découle des attributs intrinsèques du réseau de politiques DRL, restant cohérent à travers divers algorithmes d'optimisation.
Zhang et al. (Sun) ont étudié cette question.