Key points are not available for this paper at this time.
Résumé Apprendre par démonstration, ou apprentissage par imitation, est le processus d'apprentissage à agir dans un environnement à partir d'exemples fournis par un enseignant. L'apprentissage par renforcement inverse (IRL) est une forme spécifique d'apprentissage par démonstration qui tente d'estimer la fonction de récompense d'un processus de décision de Markov à partir d'exemples fournis par l'enseignant. La fonction de récompense est souvent considérée comme la description la plus succincte d'une tâche. Dans des applications simples, la fonction de récompense peut être connue ou facilement dérivée des propriétés du système et codée en dur dans le processus d'apprentissage. Cependant, dans des applications complexes, cela peut ne pas être possible, et il peut être plus facile d'apprendre la fonction de récompense en observant les actions de l'enseignant. Cet article fournit un aperçu complet de la littérature sur l'IRL. Cette enquête décrit les différences entre l'IRL et deux méthodes similaires - l'apprentissage par apprentissage et le contrôle optimal inverse. De plus, cette enquête organise la littérature IRL en fonction de la méthode principale, décrit les applications des algorithmes IRL et fournit des domaines de recherche future.
Adams et al. (Mardi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: