Los puntos clave no están disponibles para este artículo en este momento.
Los escenarios de confrontación de vehículos aéreos no tripulados (UAV) juegan un papel crucial en el estudio de la selección de comportamiento de los agentes y la planificación de decisiones. Los algoritmos de aprendizaje por refuerzo multi-agente (MARL) sirven como un método universalmente efectivo que guía a los agentes hacia las estrategias de acción apropiadas. Determinan las acciones subsecuentes basándose en el estado de los agentes y la información ambiental que los agentes reciben. Sin embargo, los entornos tradicionales de MARL a menudo resultan en un agente de una parte que supera consistentemente al otro debido a estrategias superiores, o ambos agentes alcanzan un punto muerto estratégico sin más mejoras. Para resolver este problema, proponemos un algoritmo de gradiente de política determinista semiestático basado en MARL. Este algoritmo emplea un enfoque de entrenamiento centralizado y ejecución descentralizada, ajustando dinámicamente la intensidad de entrenamiento basándose en las fortalezas y debilidades comparativas de las estrategias de ambos agentes. Los resultados experimentales muestran que durante el proceso de entrenamiento, la estrategia del equipo ganador impulsa continuamente la estrategia del equipo perdedor a actualizarse, y la relación entre el equipo ganador y el equipo perdedor sigue cambiando, logrando así una mejora mutua de las estrategias de ambos equipos. El algoritmo de aprendizaje por refuerzo semiestático mejora la conversión de la relación de ganancia-pérdida en un 8% y reduce el tiempo de entrenamiento en un 40% en comparación con el algoritmo tradicional de aprendizaje por refuerzo.
Deng et al. (Thu,) estudiaron esta cuestión.