Key points are not available for this paper at this time.
L'efficacité de l'exploration représente un défi significatif dans les tâches d'apprentissage par renforcement conditionné par des objectifs (GCRL), en particulier celles avec de longs horizons et des récompenses rares. Une limitation principale de l'efficacité de l'exploration est l'incapacité de l'agent à tirer parti des modèles structurels de l'environnement. Dans cette étude, nous présentons un nouveau cadre, GEASD, conçu pour capturer ces modèles à travers une distribution de compétences adaptative durant le processus d'apprentissage. Cette distribution optimise l'entropie locale des objectifs atteints dans un horizon contextuel, améliorant les comportements de diffusion des objectifs et facilitant une exploration approfondie dans des états contenant des modèles structurels familiers. Nos expériences révèlent des améliorations marquées de l'efficacité de l'exploration en utilisant la distribution de compétences adaptative par rapport à une distribution uniforme de compétences. De plus, la distribution de compétences apprise démontre des capacités de généralisation robustes, atteignant des progrès substantiels en exploration dans des tâches inconnues contenant des structures locales similaires.
Wu et al. (Fri,) ont étudié cette question.