Los puntos clave no están disponibles para este artículo en este momento.
La confrontación de múltiples vehículos aéreos no tripulados (multi-UAV) se está convirtiendo en un modo de combate cada vez más importante en el combate aéreo inteligente. La confrontación depende en gran medida de la colaboración inteligente y la toma de decisiones en tiempo real de los UAV. Así, se ha propuesto en este artículo un algoritmo de gradiente de política determinista profunda multi-agente (DP-MADDPG) basado en un replay de experiencia descompuesto y priorizado (PER) para las decisiones de movimiento y ataque de los UAV. Específicamente, la confrontación se formula como un juego de Markov parcialmente observable. Para resolver el problema, se propone el algoritmo DP-MADDPG integrando los mecanismos descompuestos y PER en el MADDPG tradicional. Para superar los desafíos técnicos de la convergencia a un óptimo local y a una política dominante única, se aplica el mecanismo descompuesto para modificar el marco del MADDPG con redes críticas duales locales y globales. Además, para mejorar la tasa de convergencia del proceso de entrenamiento del MADDPG, se utiliza el mecanismo PER para optimizar la eficiencia de muestreo del buffer de replay de experiencia. Se han llevado a cabo simulaciones basadas en la plataforma Multi-agent Combat Arena (MaCA), en la que los algoritmos MADDPG tradicionales y de aprendizaje independiente DDPG (ILDDPG) son puntos de referencia. Los resultados de las simulaciones indican que el DP-MADDPG propuesto mejora la tasa de convergencia y el valor de recompensa convergente. Durante las confrontaciones contra las partes azules potenciadas por la regla de prioridad de distancia vanilla y por el ILDDPG inteligente, la parte roja potenciadora del DP-MADDPG puede mejorar la tasa de victorias al 96% y 80.5%, respectivamente.
Yang et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: