Key points are not available for this paper at this time.
Unruhige Mehrarmige Banditen (RMAB) spielen eine zentrale Rolle bei der Modellierung sequenzieller Entscheidungsfindungsprobleme unter einer unmittelbaren Aktivierungsbeschränkung, nach der höchstens B Arme in jeder Entscheidungsperiode aktiviert werden können. Jeder unruhige Arm ist mit einem Zustand ausgestattet, der unabhängig nach einem Markov-Entscheidungsprozess evolviert, unabhängig davon, ob er aktiviert wird oder nicht. In diesem Papier betrachten wir die Aufgabe des Lernens in episodischen RMAB mit unbekannten Übergangsfunktionen und adversarialen Belohnungen, die sich in Episoden beliebig ändern können. Darüber hinaus betrachten wir eine herausfordernde, aber natürliche Banditen-Feedback-Einstellung, bei der nur die adversarialen Belohnungen der aktivierten Arme dem Entscheidungsträger (DM) offenbart werden. Das Ziel des DM ist es, die Gesamtheit seiner adversarialen Belohnungen während des Lernprozesses zu maximieren, während die unmittelbare Aktivierungsbeschränkung in jeder Entscheidungsperiode eingehalten werden muss. Wir entwickeln einen neuartigen Algorithmus für verstärkendes Lernen mit zwei Schlüsselkomponenten: einem neuartigen biased adversarialen Belohnungsschätzer zur Bewältigung von Banditenfeedback und unbekannten Übergängen sowie einer niederen Komplexitätsindexpolitik zur Einhaltung der unmittelbaren Aktivierungsbeschränkung. Wir zeigen eine O (HT) Bedingung für das Bedauern unseres Algorithmus, wobei T die Anzahl der Episoden und H die Episodenlänge ist. Soweit wir wissen, ist dies der erste Algorithmus, der O (T) Bedauern für adversariale RMAB in unseren betrachteten herausfordernden Einstellungen garantiert.
Xiong et al. (Wed,) haben diese Frage untersucht.