January 1, 1990

Ein Online-Algorithmus für dynamisches verstärkendes Lernen und Planung in reaktiven Umgebungen

Key Points

Key points are not available for this paper at this time.

Abstract

Ein Online-Lernalgorithmus für verstärkendes Lernen mit kontinuierlich laufenden rekurrenten Netzen in nichtstationären reaktiven Umgebungen wird beschrieben. Verschiedene Arten von Verstärkung werden als spezielle Arten von Eingaben für einen Agenten betrachtet, der in der Umgebung lebt. Das einzige Ziel des Agenten ist es, die Menge der über die Zeit erhaltenen Verstärkung zu maximieren. Überwachtes Lernen für rekurrente Netze dient dazu, ein differenzierbares Modell der Umweltdynamik zu konstruieren, das ein Modell der zukünftigen Verstärkung einschließt. Dieses Modell wird verwendet, um zielgerichtetes Verhalten in Echtzeit zu lernen. Die Möglichkeit, das System zur Planung zukünftiger Aktionssequenzen zu nutzen, wird untersucht, und dieser Ansatz wird mit Ansätzen verglichen, die auf zeitlichen Differenzmethoden basieren. Eine Verbindung zum Metalearning (lernen, wie man lernt) wird angemerkt.

Bookmark

Ein Online-Algorithmus für dynamisches verstärkendes Lernen und Planung in reaktiven Umgebungen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider