Key points are not available for this paper at this time.
Dieses Papier untersucht die Auswirkungen verschiedener Formen der Regularisierung im Kontext der Ausrichtung von Sprachmodellen durch Self-Play. Während sowohl das Reinforcement Learning aus menschlichem Feedback (RLHF) als auch die direkte Präferenzoptimierung (DPO) kostspielige menschlich annotierte paarweise Präferenzen sammeln müssen, ersetzt der Ansatz des Self-Play-Fine-Tunings (SPIN) die abgelehnten Antworten durch Daten, die aus der vorherigen Iteration generiert wurden. Der SPIN-Ansatz weist jedoch ein Performance-Instabilitätsproblem in der Lernphase auf, das gemildert werden kann, indem man gegen eine Mischung der beiden vorherigen Iterationen spielt. In ähnlicher Weise schlagen wir in dieser Arbeit vor, dieses Problem aus zwei Perspektiven anzugehen: erstens, indem wir eine zusätzliche Kullback-Leibler (KL) Regularisierung einführen, um in der Nähe der Referenzpolitik zu bleiben; zweitens, indem wir die Idee des fiktiven Spiels verwenden, die die Gegnerpolitik über alle vorherigen Iterationen glättet. Insbesondere zeigen wir, dass der auf KL basierende Regularisierer letztlich darin besteht, die vorherige Politik durch ihre geometrische Mischung mit der Basispolitik innerhalb der SPIN-Verlustfunktion zu ersetzen. Schließlich diskutieren wir empirische Ergebnisse auf MT-Bench sowie auf der Hugging Face Open LLM Leaderboard.
Alami et al. (Thu,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: