Die Sparseität der Team-Belohnungen hindert erheblich das Lernen optimaler Team-Politiken im kooperativen Multiagenten-Verstärkungslernen (MARL). Während es eine gängige Lösung ist, spärliche Team-Belohnungen mit individuellen Belohnungen zu augmentieren, stehen bestehende Methoden vor drei kritischen Herausforderungen: 1) Inkonsistenz zwischen der gelernten Politik und der optimalen Team-Politik aufgrund der Änderung der Belohnungsfunktion; 2) Unvereinbarkeit mit verschiedenen individuellen Belohnungseinstellungen; und 3) suboptimales Gleichgewicht zwischen der individuellen und teamorientierten Belohnungsoptimierung. Um diese Herausforderungen anzugehen, schlagen wir CLOT vor, einen neuartigen Ansatz zur Optimierung von Multiagenten-Politiken mit Konsistenzbeschränkungen, der individuelle Belohnungen in einer belohnungseinstellungsunabhängigen Weise nutzt. Genauer gesagt präsentieren wir zunächst ein eingeschränktes Politikoptimierungsproblem, das durch eine Konsistenzbeschränkung zwischen den Team-Renditen der gelernten Politik und denen der optimalen Team-Politik formuliert ist. Dann entwickeln wir ein Lagrange-Dual-basiertes iteratives Politikoptimierungsverfahren zur Lösung des formulierten Problems und leiten genaue Optimierungsziele für das Training der Politik ab. Im Verlauf dieses Prozesses wird ein dynamischer Aktualisierungsmechanismus für Lagrange-Multiplikatoren vorgeschlagen, um das Gleichgewicht zwischen individueller und teamorientierter Belohnungsoptimierung automatisch zu steuern. Umfassende experimentelle Bewertungen in den StarCraft II Multiagent Challenge (SMAC), dem multiagenten Partikelumfeld (MPE) und den Google-Fußballumgebungen (GRF) zeigen, dass unser Ansatz effektiv alle drei identifizierten Herausforderungen angeht und die Leistung in kooperativen Multiagentenszenarien mit spärlichen Team-Belohnungen erheblich verbessert.
Zhang et al. (Thu,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: