What type of study is this?

This is a Experimental Study study.

October 8, 2025Open Access

Anpassung des Offline-Verstärkungslernens mit Online-Verzögerungen

Key Points

DT-CORL verbessert die Aktionsauswahl erheblich trotz Online-Verzögerungen und steigert die Gesamtleistung.
Experimente zeigen, dass DT-CORL proben-effizienter ist und Methoden zur Historienanreicherung auf D4RL-Benchmarks übertrifft.
Die Einführung eines transformatorbasierten Glaubensvorhersagers ermöglicht effektives Lernen ohne Exposition gegenüber verzögerten Beobachtungen.
Diese Forschung verringert die Sim-to-Real-Latenzlücke und macht Offline-RL in realen Szenarien anwendbarer.

Abstract

Der Offline-zu-Online-Einsatz von Verstärkungslern-Agenten (RL) muss zwei Lücken überbrücken: (1) die Sim-to-Real-Lücke, bei der reale Systeme Latenz und andere Unvollkommenheiten aufweisen, die in der Simulation nicht vorhanden sind, und (2) die Interaktionslücke, bei der offline trainierte Politiken während der Online-Ausführung aus der Verteilung fallen, weil das Sammeln neuer Interaktionsdaten kostspielig oder riskant ist. Agenten müssen daher von statischen, verzögerungsfreien Datensätzen auf dynamische, verzögerungsanfällige Umgebungen generalisieren. Standardmäßiges Offline-RL lernt aus verzögerungsfreien Protokollen, muss jedoch unter Verzögerungen agieren, die die Markov-Annahme brechen und die Leistung beeinträchtigen. Wir führen DT-CORL (Delay-Transformer belief policy Constrained Offline RL) ein, ein Offline-RL-Framework, das dafür ausgelegt ist, mit verzögerten Dynamiken bei der Bereitstellung umzugehen. DT-CORL (i) erzeugt verzögerungsrobuste Aktionen mit einem transformatorbasierten Glaubensvorhersager, auch wenn es während des Trainings niemals verzögerte Beobachtungen sieht, und (ii) ist deutlich proben-effizienter als naive History-Augmentation-Baselines. Experimente zu D4RL-Benchmarks mit verschiedenen Verzögerungseinstellungen zeigen, dass DT-CORL sowohl History-Augmentation- als auch einfache glaubensbasierte Methoden durchgehend übertrifft und die Sim-to-Real-Latenzlücke verringert, während die Dateneffizienz erhalten bleibt.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper