Key points are not available for this paper at this time.
Das Lernen durch Demonstration verspricht, Robotern zu ermöglichen, aus der Erfahrung von Experten vielfältige Aktionen zu lernen. Im Gegensatz zum Lernen aus Beobachtungs-Aktions-Paaren lernen Menschen, flexibler und effizienter zu imitieren: sie lernen Verhaltensweisen einfach durch "Beobachten". In diesem Artikel schlagen wir eine Imitations-Lernpipeline "Beobachten-und-Handeln" vor, die einem Roboter die Fähigkeit verleiht, vielfältige Manipulationen aus visuellen Demonstrationen zu erlernen. Konkret adressieren wir dieses Problem, indem wir es intuitiv in zwei Teilaufgaben unterteilen: 1) das Verständnis des Demonstrationsvideos und 2) das Lernen der demonstrierten Manipulationen. Zuerst wird ein Captioning-Modul basierend auf visuellen Änderungen vorgestellt, um die Demonstration zu verstehen, indem das Demonstrationsvideo in einen Befehlsatz übersetzt wird. Danach wird ein Manipulationsmodul, das die demonstrierten Manipulationen erlernt, auf einem Instanzsegmentierungsmodell und einem Vorhersagemodell für Manipulationsaffordanzen aufgebaut, um den Captioning-Befehl auszuführen. Wir valideren die Überlegenheit der beiden Module gegenüber bestehenden Methoden durch umfassende Experimente und demonstrieren das gesamte robotische Imitationssystem, das auf den beiden Modulen basiert, in verschiedenen Szenarien unter Verwendung eines echten Roboterarms. Ein ergänzendes Video ist verfügbar unter https://vsislab.github.io/watch-and-act/.
Yang et al. (Do.) haben diese Frage untersucht.