Key points are not available for this paper at this time.
L'apprentissage par imitation hors ligne (IL) avec des démonstrations imparfaites a suscité une attention croissante en raison de la rareté des données d'experts dans de nombreux domaines du monde réel. Un problème fondamental dans ce scénario est comment extraire des comportements positifs à partir de données bruyantes. En général, les méthodes actuelles pour résoudre ce problème sélectionnent des données sur la base de la similitude état-action par rapport aux démonstrations d'experts données, négligeant des informations précieuses dans des états-actions divers (potentiellement abondants) qui s'écartent de celles des experts. Dans cet article, nous introduisons une méthode de sélection de données simple mais efficace qui identifie les comportements positifs en fonction de leurs états résultants - un critère plus informatif permettant une utilisation explicite des informations dynamiques et une extraction efficace à la fois des comportements d'experts et des comportements divers bénéfiques. De plus, nous concevons un algorithme léger de clonage de comportement capable d'exploiter correctement les données des experts et celles sélectionnées. Dans les expériences, nous évaluons notre méthode sur une série de benchmarks IL hors ligne complexes et de haute dimension, y compris des tâches de contrôle continu et basées sur la vision. Les résultats montrent que notre méthode atteint des performances de pointe, surpassant les méthodes existantes sur 20/21 benchmarks, généralement de 2 à 5 fois, tout en maintenant un temps d'exécution comparable à celui du clonage de comportement (BC).
Yue et al. (ven,) ont étudié cette question.