May 28, 2024Open Access

ADR-BC: Clonación de Comportamiento Ponderada por Densidad Adversaria

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Típicamente, los métodos tradicionales de Aprendizaje por Imitación (IL) primero modelan una recompensa o función Q y luego utilizan esta función moldeada dentro de un marco de aprendizaje por refuerzo (RL) para optimizar la política empírica. Sin embargo, si la recompensa/Q moldeada no representa adecuadamente la recompensa/Q de la verdad del terreno, actualizar la política dentro de un marco RL de múltiples pasos puede resultar en un sesgo acumulativo, impactando aún más el aprendizaje de la política. Aunque utilizar la clonación de comportamiento (BC) para aprender una política imitando directamente algunas demostraciones de manera de actualización de un solo paso puede evitar el sesgo acumulativo, la BC tiende a imitar de manera codiciosa las acciones demostradas, limitando su capacidad para generalizar a pares de acciones de estado no vistos. Para abordar estos desafíos, proponemos ADR-BC, que tiene como objetivo mejorar la clonación de comportamiento a través de un soporte de acción basado en densidad aumentada, optimizando la política con este soporte aumentado. Específicamente, el objetivo de ADR-BC comparte significados físicos similares que igualar la distribución del experto mientras se divergencia la distribución subóptima. Por lo tanto, ADR-BC puede lograr una coincidencia de distribución de expertos más robusta. Mientras tanto, como un marco de clonación de comportamiento de un solo paso, ADR-BC evita el sesgo acumulativo asociado con los marcos RL de múltiples pasos. Para validar el rendimiento de ADR-BC, realizamos experimentos exhaustivos. Específicamente, ADR-BC muestra una mejora del 10.5% sobre el estado del arte anterior (SOTA) de la línea base IL generalizada, CEIL, en todas las tareas en el dominio Gym-Mujoco. Además, logra una mejora del 89.5% sobre el Aprendizaje Q Implícito (IQL) utilizando recompensas reales en todas las tareas en los dominios Adroit y Kitchen. Por otro lado, realizamos ablaciones extensas para demostrar todavía más la efectividad de ADR-BC.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo