April 4, 2024Open Access

Untersuchung der Regularisierung von Self-Play-Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Dieses Papier untersucht die Auswirkungen verschiedener Formen der Regularisierung im Kontext der Ausrichtung von Sprachmodellen durch Self-Play. Während sowohl das Reinforcement Learning aus menschlichem Feedback (RLHF) als auch die direkte Präferenzoptimierung (DPO) kostspielige menschlich annotierte paarweise Präferenzen sammeln müssen, ersetzt der Ansatz des Self-Play-Fine-Tunings (SPIN) die abgelehnten Antworten durch Daten, die aus der vorherigen Iteration generiert wurden. Der SPIN-Ansatz weist jedoch ein Performance-Instabilitätsproblem in der Lernphase auf, das gemildert werden kann, indem man gegen eine Mischung der beiden vorherigen Iterationen spielt. In ähnlicher Weise schlagen wir in dieser Arbeit vor, dieses Problem aus zwei Perspektiven anzugehen: erstens, indem wir eine zusätzliche Kullback-Leibler (KL) Regularisierung einführen, um in der Nähe der Referenzpolitik zu bleiben; zweitens, indem wir die Idee des fiktiven Spiels verwenden, die die Gegnerpolitik über alle vorherigen Iterationen glättet. Insbesondere zeigen wir, dass der auf KL basierende Regularisierer letztlich darin besteht, die vorherige Politik durch ihre geometrische Mischung mit der Basispolitik innerhalb der SPIN-Verlustfunktion zu ersetzen. Schließlich diskutieren wir empirische Ergebnisse auf MT-Bench sowie auf der Hugging Face Open LLM Leaderboard.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper