Key points are not available for this paper at this time.
Ein Online-Lernalgorithmus für verstärkendes Lernen mit kontinuierlich laufenden rekurrenten Netzen in nichtstationären reaktiven Umgebungen wird beschrieben. Verschiedene Arten von Verstärkung werden als spezielle Arten von Eingaben für einen Agenten betrachtet, der in der Umgebung lebt. Das einzige Ziel des Agenten ist es, die Menge der über die Zeit erhaltenen Verstärkung zu maximieren. Überwachtes Lernen für rekurrente Netze dient dazu, ein differenzierbares Modell der Umweltdynamik zu konstruieren, das ein Modell der zukünftigen Verstärkung einschließt. Dieses Modell wird verwendet, um zielgerichtetes Verhalten in Echtzeit zu lernen. Die Möglichkeit, das System zur Planung zukünftiger Aktionssequenzen zu nutzen, wird untersucht, und dieser Ansatz wird mit Ansätzen verglichen, die auf zeitlichen Differenzmethoden basieren. Eine Verbindung zum Metalearning (lernen, wie man lernt) wird angemerkt.
Jürgen Schmidhuber (Mon.) hat diese Frage untersucht.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: