Key points are not available for this paper at this time.
Das zentralisierte Training mit dezentralisierter Ausführung (CTDE) hat sich als weit verbreitetes Paradigma im Multi-Agenten-Verstärkungslernen etabliert, das die Nutzung globaler Informationen zur Verbesserung einer gemeinsamen Q-Funktion oder eines zentralisierten Kritikers betont. Im Gegensatz dazu untersucht unsere Untersuchung, wie globale Informationen genutzt werden können, um die individuellen Q-Funktionen oder einzelnen Akteure direkt zu verbessern. Auffallend ist, dass wir herausfinden, dass die universelle Anwendung identischer globaler Informationen auf alle Agenten für optimale Leistungen unzureichend ist. Daher befürworten wir die Anpassung globaler Informationen, die auf jeden Agenten zugeschnitten sind, um agenten-personalisierte globale Informationen zu schaffen, die die Gesamtleistung verbessern. Darüber hinaus führen wir ein neuartiges Paradigma ein, das als Personalisierte Schulung mit destillierter Ausführung (PTDE) bezeichnet wird, bei dem agenten-personalisierte globale Informationen in die lokalen Informationen des Agenten destilliert werden. Diese destillierten Informationen werden dann während der dezentralisierten Ausführung verwendet, was zu minimalen Leistungsabweichungen führt. PTDE kann nahtlos in modernste Algorithmen integriert werden, was zu bemerkenswerten Leistungsverbesserungen in verschiedenen Benchmarks führt, einschließlich des SMAC-Benchmarks, des Google Research Football (GRF)-Benchmarks und der Learning to Rank (LTR)-Aufgabe.
Chen et al. (Fri,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: