Key points are not available for this paper at this time.
Les modèles du monde constituent une approche prometteuse pour former des agents d'apprentissage par renforcement de manière sûre et économe en échantillons. Les modèles du monde récents fonctionnent principalement sur des séquences de variables latentes discrètes pour modéliser la dynamique de l'environnement. Cependant, cette compression en une représentation discrète compacte peut ignorer les détails visuels importants pour l'apprentissage par renforcement. Parallèlement, les modèles de diffusion sont devenus une approche dominante pour la génération d'images, remettant en question des méthodes bien établies modélisant des latentes discrètes. Motivés par ce changement de paradigme, nous introduisons DIAMOND (DIffusion As a Model Of eNvironment Dreams), un agent d'apprentissage par renforcement formé dans un modèle de monde de diffusion. Nous analysons les choix de conception clés nécessaires pour rendre la diffusion adaptée à la modélisation du monde et démontrons comment l'amélioration des détails visuels peut conduire à une meilleure performance de l'agent. DIAMOND atteint un score normalisé humain moyen de 1,46 sur le benchmark compétitif Atari 100k ; un nouveau meilleur score pour des agents entièrement formés dans un modèle du monde. Pour encourager les futures recherches sur la diffusion pour la modélisation du monde, nous publions notre code, nos agents et des modèles de monde jouables sur https://github.com/eloialonso/diamond.
Alonso et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: