Key points are not available for this paper at this time.
Der Ansatz des inversen Verstärkungslernens im Imitationslernen ist ein zweischneidiges Schwert. Einerseits kann er das Lernen aus einer geringeren Anzahl von Experten-Demonstrationen mit mehr Robustheit gegenüber Fehlerakkumulationen als Verhaltenskopieransätzen ermöglichen. Andererseits erfordert er, dass der Lernende wiederholt ein rechenintensives Verstärkungslernproblem (RL) löst. Oft wird ein Großteil dieser Berechnung verschwendet, indem nach Politiken gesucht wird, die sehr unähnlich zur Politik des Experten sind. In dieser Arbeit schlagen wir vor, hybrides RL zu verwenden – das Training auf einer Mischung aus Online- und Expertendaten – um unnötige Erkundungen zu reduzieren. Intuitiv konzentriert sich die Expertendaten auf gute Zustände während des Trainings, was die Menge der erforderlichen Erkundung zur Berechnung einer starken Politik verringert. Bemerkenswerterweise benötigt ein solcher Ansatz nicht die Fähigkeit, den Lernenden auf beliebige Zustände in der Umgebung zurückzusetzen, eine Anforderung früherer Arbeiten im effizienten inversen RL. Formell leiten wir eine Reduktion vom inversen RL zu einem expertenselbständigen RL (statt zu global optimalem RL) ab, die es uns ermöglicht, die Interaktion während der innere Politiksuchschleife drastisch zu reduzieren, während wir die Vorteile des IRL-Ansatzes beibehalten. Dies ermöglicht es uns, sowohl modellfreie als auch modellbasierte hybride inverse RL-Algorithmen mit starken Leistungsversprechen bei der Politik abzuleiten. Empirisch stellen wir fest, dass unsere Ansätze signifikant ressourcenschonender sind als das Standard-inverse RL und mehrere andere Vergleichsverfahren in einer Reihe von kontinuierlichen Kontrollaufgaben.
Ren et al. (Di,) haben diese Frage untersucht.