Key points are not available for this paper at this time.
Das Verhalten von Multi-Agenten-Lernen in wettbewerbsorientierten Netzwerkspielen wird oft im Kontext von Nullsummenspielen untersucht, in denen Konvergenzgarantien erzielt werden können. Außerhalb dieser Klasse ist bekannt, dass das Verhalten des Lernens komplexe Verhaltensweisen zeigt und Konvergenz nicht immer garantiert werden kann. Dennoch muss zur Entwicklung eines vollständigen Bildes des Verhaltens des Multi-Agenten-Lernens in wettbewerbsorientierten Einstellungen die Nullsummenannahme aufgehoben werden. Motiviert durch dies untersuchen wir die Q-Lern-Dynamik, ein beliebtes Modell für Exploration und Ausbeutung im Multi-Agenten-Lernen, in wettbewerbsorientierten Netzwerkspielen. Wir bestimmen, wie der Grad des Wettbewerbs, die Explorationsrate und die Netzwerkverbindung die Konvergenz des Q-Lernens beeinflussen. Um generische Wettbewerbs- spiele zu untersuchen, parametrisieren wir Netzwerkspiele in Bezug auf die Korrelationen zwischen den Auszahlungen der Agenten und untersuchen das durchschnittliche Verhalten der Q-Lern-Dynamik über alle Spiele, die aus einer Auswahl dieses Parameters gezogen wurden. Dieser statistische Ansatz legt Parameter fest, für die die Q-Lern-Dynamik zu einem stabilen Fixpunkt konvergiert. Anders als in früheren Arbeiten stellen wir fest, dass die Stabilität des Q-Lernens ausschließlich von der Netzwerkverbindung und nicht von der Gesamtanzahl der Agenten abhängt. Unsere Experimente bestätigen diese Ergebnisse und zeigen, dass unter bestimmten Netzwerkstrukturen die Gesamtanzahl der Agenten erhöht werden kann, ohne die Wahrscheinlichkeit instabiler oder chaotischer Verhaltensweisen zu erhöhen.
Hussain et al. (Sun,) haben diese Frage untersucht.