What question did this study set out to answer?

March 6, 2026

Neubewertung der Nutzung individueller Belohnungen im Multiagenten-Verstärkungslernen mit spärlichen Team-Belohnungen

Key Points

Ziel dieser Forschung ist es, das Lernen optimaler Team-Politiken im kooperativen Multiagenten-Verstärkungslernen mit spärlichen Team-Belohnungen zu verbessern.
Entwicklung von CLOT, einem Ansatz zur Politikoptimierung mit Konsistenzbeschränkungen
Formulierung eines eingeschränkten Politikoptimierungsproblems
Einführung eines Lagrange-Dual-basierten iterativen Politikoptimierungsverfahrens
Implementierung eines dynamischen Aktualisierungsmechanismus für Lagrange-Multiplikatoren
CLOT adressiert effektiv Inkonsistenzen zwischen gelernten und optimalen Team-Politiken
Bessere Leistung in verschiedenen Umgebungen wie SMAC und MPE erreicht
Erfolgreiches Management des Gleichgewichts zwischen individuellen und Team-Belohnungen während der Optimierung

Abstract

Die Sparseität der Team-Belohnungen hindert erheblich das Lernen optimaler Team-Politiken im kooperativen Multiagenten-Verstärkungslernen (MARL). Während es eine gängige Lösung ist, spärliche Team-Belohnungen mit individuellen Belohnungen zu augmentieren, stehen bestehende Methoden vor drei kritischen Herausforderungen: 1) Inkonsistenz zwischen der gelernten Politik und der optimalen Team-Politik aufgrund der Änderung der Belohnungsfunktion; 2) Unvereinbarkeit mit verschiedenen individuellen Belohnungseinstellungen; und 3) suboptimales Gleichgewicht zwischen der individuellen und teamorientierten Belohnungsoptimierung. Um diese Herausforderungen anzugehen, schlagen wir CLOT vor, einen neuartigen Ansatz zur Optimierung von Multiagenten-Politiken mit Konsistenzbeschränkungen, der individuelle Belohnungen in einer belohnungseinstellungsunabhängigen Weise nutzt. Genauer gesagt präsentieren wir zunächst ein eingeschränktes Politikoptimierungsproblem, das durch eine Konsistenzbeschränkung zwischen den Team-Renditen der gelernten Politik und denen der optimalen Team-Politik formuliert ist. Dann entwickeln wir ein Lagrange-Dual-basiertes iteratives Politikoptimierungsverfahren zur Lösung des formulierten Problems und leiten genaue Optimierungsziele für das Training der Politik ab. Im Verlauf dieses Prozesses wird ein dynamischer Aktualisierungsmechanismus für Lagrange-Multiplikatoren vorgeschlagen, um das Gleichgewicht zwischen individueller und teamorientierter Belohnungsoptimierung automatisch zu steuern. Umfassende experimentelle Bewertungen in den StarCraft II Multiagent Challenge (SMAC), dem multiagenten Partikelumfeld (MPE) und den Google-Fußballumgebungen (GRF) zeigen, dass unser Ansatz effektiv alle drei identifizierten Herausforderungen angeht und die Leistung in kooperativen Multiagentenszenarien mit spärlichen Team-Belohnungen erheblich verbessert.

KI fragen

Bookmark