December 5, 2019Open Access

Aprendizaje por Refuerzo Invertido: No Predigas Recompensas -- Solo Mapea las Recompensas a Acciones

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Transformamos el aprendizaje por refuerzo (RL) en una forma de aprendizaje supervisado (SL) al invertir el RL tradicional, llamando a esto RL Invertido (UDRL). RL predice recompensas, mientras que UDRL utiliza las recompensas como definidoras de tarea, junto con representaciones de horizontes temporales y otros datos históricos y futuros deseados que se pueden calcular. UDRL aprende a interpretar estas observaciones como comandos, mapeándolos a acciones (o acción) a través de SL sobre experiencias pasadas (posiblemente accidentales). UDRL busca lograr altas recompensas u otros objetivos, mediante comandos de entrada como: ¡obtén muchas recompensas en un tiempo máximo determinado! Un artículo separado 63 sobre experimentos con UDRL muestra que incluso una versión piloto de UDRL puede superar algoritmos de referencia tradicionales en ciertos problemas desafiantes de RL. También puede conceptualizar una estrategia 60 para enseñar un robot a los humanos. Primero, graba en video a humanos imitando los comportamientos actuales del robot, permite que el robot aprenda a través de SL a mapear los videos (como comandos de entrada) a comportamientos, luego deja que generalice e imite videos de humanos ejecutando comportamientos desconocidos. Este concepto de Imitar-Imitador puede explicar en realidad cómo la evolución biológica ha resultado en padres que imitan el balbuceo de los bebés.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo