Key points are not available for this paper at this time.
Ein LLM wird auf Billionen von Tokens vortrainiert, kann jedoch weiterhin unerwünschte Antworten generieren. Um dieses Problem zu lösen, werden Ausrichtungstechniken wie RLHF, DPO und KTO vorgeschlagen. Diese Ausrichtungstechniken haben jedoch ihre Einschränkungen. Zum Beispiel erfordert RLHF, dass das Belohnungsmodell und die Politik separat trainiert werden, was komplex, zeitaufwendig, speicherintensiv und während der Trainingsprozesse instabil ist. DPO schlägt eine Zuordnung zwischen einer optimalen Politik und einer Belohnung vor, was den Trainingsprozess von RLHF erheblich vereinfacht. Es kann jedoch nicht alle Vorteile eines Belohnungsmodells ausschöpfen und ist auf paarweise Präferenzdaten beschränkt. In diesem Papier schlagen wir die UNified Alignment (UNA) vor, die RLHF/PPO, DPO und KTO vereint. Zunächst beweisen wir mathematisch, dass unter Berücksichtigung des klassischen RLHF-Ziels die optimale Politik durch eine verallgemeinerte implizite Belohnungsfunktion induziert wird. Mit dieser neuartigen Zuordnung zwischen einem Belohnungsmodell und einer optimalen Politik kann UNA 1. RLHF/PPO, DPO und KTO in ein überwachtes Lernen zur Minimierung des Unterschieds zwischen einer impliziten und einer expliziten Belohnung vereinheitlichen; 2. RLHF/PPO übertreffen und gleichzeitig den Prozess des RL-Finetunings vereinfachen, stabilisieren, beschleunigen und die Speicherbelastung reduzieren; 3. verschiedene Rückmeldetypen wie paarweise, binäre und skalare Rückmeldungen berücksichtigen. Die nachgelagerten Experimente zeigen, dass UNA DPO, KTO und RLHF übertrifft.
Wang et al. (Tue,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: