Key points are not available for this paper at this time.
Die Gestaltung effektiver Belohnungsfunktionen ist entscheidend für das Training von Reinforcement Learning (RL)-Algorithmen. Diese Gestaltung ist jedoch nicht trivial, selbst für Fachexperten, aufgrund der subjektiven Natur bestimmter Aufgaben, die schwer explizit zu quantifizieren sind. In jüngsten Arbeiten wurden große Sprachmodelle (LLMs) zur Generierung von Belohnungen aus natürlichen Sprachaufgabenbeschreibungen verwendet, indem ihre umfangreiche Anweisungstuning und ihr gesundes Menschenverstandverständnis des menschlichen Verhaltens genutzt werden. In dieser Arbeit stellen wir die Hypothese auf, dass LLMs, geleitet durch menschliches Feedback, zur Formulierung menschlich-ausgerichteter Belohnungsfunktionen verwendet werden können. Speziell untersuchen wir dies im herausfordernden Kontext des autonomen Fahrens (AD), in dem Vorstellungen von "gutem" Fahren stillschweigend und schwer zu quantifizieren sind. Zu diesem Zweck führen wir REvolve ein, ein evolutionäres Framework, das LLMs für die Belohnungsgestaltung im AD nutzt. REvolve erstellt und verfeinert Belohnungsfunktionen, indem menschliches Feedback genutzt wird, um den Evolutionsprozess zu steuern, und somit implizites menschliches Wissen in explizite Belohnungsfunktionen für das Training von (tiefen) RL-Agenten übersetzt. Wir zeigen, dass Agenten, die mit auf REvolve gestalteten Belohnungen trainiert wurden, eng mit den menschlichen Fahrstandards übereinstimmen und damit andere Stand der Technik-Baselines übertreffen.
Hazra et al. (Mon,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: