What type of study is this?

This is a Quantitative Study study.

synapse

⌘+K

synapse

⌘+K

October 5, 2025Open Access

Analyse endlicher Stichproben des linearen zeitlichen Differenzlernens mit beliebigen Merkmalen

Key Points

Etablierung von Konvergenzraten für lineares TD(λ) mit beliebigen Merkmalen, ohne den Algorithmus zu modifizieren.
Die Ergebnisse zeigen L²-Konvergenzraten sowohl in diskontierten als auch in durchschnittlichen Belohnungseinstellungen für verstärktes Lernen.
Entwicklung einer Methode zur stochastischen Approximation, die die Nicht-Eindeutigkeit der Lösungen durch beliebige Merkmale adressiert.
Hervorhebung der Bedeutung der Konvergenz zu einer Lösungsmenge anstelle eines einzelnen Punktes, was die praktische Anwendung verbessert.

Abstract

Lineares TD (λ) ist einer der grundlegendsten Algorithmen des verstärkenden Lernens zur Bewertung von Politiken. Zuvor wurden Konvergenzraten typischerweise unter der Annahme unabhängig linearer Merkmale etabliert, was in vielen praktischen Szenarien nicht zutrifft. Dieses Papier etabliert stattdessen die ersten L²-Konvergenzraten für lineares TD (λ), das unter beliebigen Merkmalen arbeitet, ohne algorithmische Modifikationen oder zusätzliche Annahmen zu treffen. Unsere Ergebnisse gelten sowohl für die diskontierten als auch für die durchschnittlichen Belohnungseinstellungen. Um der möglichen Nicht-Eindeutigkeit der Lösungen, die aus beliebigen Merkmalen resultieren, Rechnung zu tragen, entwickeln wir ein neuartiges stochastisches Approximationsergebnis mit Konvergenzraten zur Lösungsmenge anstelle eines einzelnen Punktes.

Analyse endlicher Stichproben des linearen zeitlichen Differenzlernens mit beliebigen Merkmalen

Key Points

Abstract

Cite This Study