Key points are not available for this paper at this time.
Wir überprüfen die Psychologie und Neurowissenschaften des verstärkenden Lernens (RL), das in den letzten zwei Jahrzehnten bedeutende Fortschritte gemacht hat, ermöglicht durch die umfassende experimentelle Untersuchung einfacher Lern- und Entscheidungsaufgaben. Eine Herausforderung bei der Untersuchung von RL ist jedoch rechnerischer Natur: Die Einfachheit dieser Aufgaben ignoriert wichtige Aspekte des verstärkenden Lernens in der realen Welt: (a) Zustandsräume sind hochdimensional, kontinuierlich und teilweise beobachtbar; das impliziert, dass (b) die Daten relativ spärlich sind und zudem genau die gleiche Situation möglicherweise nie zweimal erlebt wird; außerdem hängen (c) Belohnungen von den langfristigen Konsequenzen von Handlungen in einer Weise ab, die die klassischen Annahmen, die RL handhabbar machen, verletzen. Eine scheinbar distincte Herausforderung besteht darin, dass die Theorien des RL kognitiv weitgehend prozedurales und semantisches Gedächtnis einbezogen haben, wie das Wissen über Aktionswerte oder Weltmodelle, das allmählich aus vielen Erfahrungen extrahiert wird, Entscheidungen antreiben kann. Dieser Fokus auf das semantische Gedächtnis lässt viele Aspekte des Gedächtnisses aus, wie das episodische Gedächtnis, das mit den Spuren individueller Ereignisse verbunden ist. Wir schlagen vor, dass diese beiden Herausforderungen miteinander verbunden sind. Die rechnerische Herausforderung kann zum Teil bewältigt werden, indem RL-Systeme mit episodischem Gedächtnis ausgestattet werden, das es ihnen ermöglicht, (a) Werte über komplexe Zustandsräume effizient zu approximieren, (b) mit sehr wenig Daten zu lernen und (c) langfristige Abhängigkeiten zwischen Handlungen und Belohnungen zu überbrücken. Wir überprüfen die rechnerische Theorie, die diesem Vorschlag zugrunde liegt, und die empirischen Belege, die ihn unterstützen. Unser Vorschlag legt nahe, dass die allgegenwärtigen und vielfältigen Rollen des Gedächtnisses im RL als Teil eines integrierten Lernsystems funktionieren können.
Gershman et al. (Tue,) haben diese Frage untersucht.