Lineares TD (λ) ist einer der grundlegendsten Algorithmen des verstärkenden Lernens zur Bewertung von Politiken. Zuvor wurden Konvergenzraten typischerweise unter der Annahme unabhängig linearer Merkmale etabliert, was in vielen praktischen Szenarien nicht zutrifft. Dieses Papier etabliert stattdessen die ersten L²-Konvergenzraten für lineares TD (λ), das unter beliebigen Merkmalen arbeitet, ohne algorithmische Modifikationen oder zusätzliche Annahmen zu treffen. Unsere Ergebnisse gelten sowohl für die diskontierten als auch für die durchschnittlichen Belohnungseinstellungen. Um der möglichen Nicht-Eindeutigkeit der Lösungen, die aus beliebigen Merkmalen resultieren, Rechnung zu tragen, entwickeln wir ein neuartiges stochastisches Approximationsergebnis mit Konvergenzraten zur Lösungsmenge anstelle eines einzelnen Punktes.
Xie et al. (Tue,) haben diese Frage untersucht.