Los puntos clave no están disponibles para este artículo en este momento.
En el aprendizaje por refuerzo multiagente cooperativo (MARL), los agentes colaboran para alcanzar objetivos comunes, como derrotar enemigos y anotar un gol. Sin embargo, aprender caminos para alcanzar objetivos hacia un objetivo semántico requiere una cantidad considerable de tiempo en tareas complejas y el modelo entrenado a menudo no logra encontrar tales caminos. Para abordar esto, presentamos LAtent Goal-guided Multi-Agent reinforcement learning (LAGMA), que genera una trayectoria de alcance de objetivo en el espacio latente y proporciona un incentivo intrínseco guiado por el objetivo latente para las transiciones hacia esta trayectoria de referencia. LAGMA consiste en tres componentes principales: (a) espacio latente cuantizado construido a través de un VQ-VAE modificado para una utilización eficiente de muestras, (b) generación de trayectoria de alcance de objetivo a través de un libro de códigos VQ extendido, y (c) generación de recompensa intrínseca guiada por el objetivo latente para fomentar transiciones hacia el camino de alcance de objetivo muestreado. El método propuesto se evalúa con StarCraft II tanto en configuraciones de recompensa densa como escasa y con Google Research Football. Los resultados empíricos muestran una mejora del rendimiento en comparación con los baselines de última generación.
Na et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: