Apprendre des politiques qui se généralisent à travers plusieurs tâches est un sujet de recherche important et difficile dans l'apprentissage par renforcement et la robotique. Former des politiques individuelles pour chaque tâche potentielle est souvent impratique, surtout pour les variations de tâches continues, nécessitant des approches plus fondées pour partager et transférer des connaissances entre des tâches similaires. Nous présentons une approche novatrice pour apprendre une politique de rétroaction non linéaire qui se généralise à travers plusieurs tâches. L'idée clé est de définir une politique paramétrée comme une fonction à la fois de l'état et de la tâche, ce qui permet d'apprendre une seule politique qui se généralise à travers plusieurs tâches connues et inconnues. Des applications de notre approche novatrice à l'apprentissage par renforcement et à l'imitation dans des expériences avec des robots réels sont présentées.
Deisenroth et al. (Thu,) ont étudié cette question.