Der Offline-zu-Online-Einsatz von Verstärkungslern-Agenten (RL) muss zwei Lücken überbrücken: (1) die Sim-to-Real-Lücke, bei der reale Systeme Latenz und andere Unvollkommenheiten aufweisen, die in der Simulation nicht vorhanden sind, und (2) die Interaktionslücke, bei der offline trainierte Politiken während der Online-Ausführung aus der Verteilung fallen, weil das Sammeln neuer Interaktionsdaten kostspielig oder riskant ist. Agenten müssen daher von statischen, verzögerungsfreien Datensätzen auf dynamische, verzögerungsanfällige Umgebungen generalisieren. Standardmäßiges Offline-RL lernt aus verzögerungsfreien Protokollen, muss jedoch unter Verzögerungen agieren, die die Markov-Annahme brechen und die Leistung beeinträchtigen. Wir führen DT-CORL (Delay-Transformer belief policy Constrained Offline RL) ein, ein Offline-RL-Framework, das dafür ausgelegt ist, mit verzögerten Dynamiken bei der Bereitstellung umzugehen. DT-CORL (i) erzeugt verzögerungsrobuste Aktionen mit einem transformatorbasierten Glaubensvorhersager, auch wenn es während des Trainings niemals verzögerte Beobachtungen sieht, und (ii) ist deutlich proben-effizienter als naive History-Augmentation-Baselines. Experimente zu D4RL-Benchmarks mit verschiedenen Verzögerungseinstellungen zeigen, dass DT-CORL sowohl History-Augmentation- als auch einfache glaubensbasierte Methoden durchgehend übertrifft und die Sim-to-Real-Latenzlücke verringert, während die Dateneffizienz erhalten bleibt.
Zhan et al. (Freitag) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: