April 22, 2024Open Access

Präferenz-Fine-Tuning von LLMs Sollte Suboptimale, On-Policy Daten Nutzen

Key Points

Key points are not available for this paper at this time.

Abstract

Das Lernen aus Präferenzlabels spielt eine entscheidende Rolle beim Fine-Tuning von großen Sprachmodellen. Es gibt mehrere distincte Ansätze für das Präferenz-Fine-Tuning, darunter überwachtes Lernen, On-Policy-Verstärkungslernen (RL) und kontrastives Lernen. Verschiedene Methoden bringen unterschiedliche Implementierungs-Trade-offs und Leistungsunterschiede mit sich, und bestehende empirische Ergebnisse zeigen unterschiedliche Schlussfolgerungen. Einige Ergebnisse zeigen, dass Online-RL ziemlich wichtig ist, um gute Fine-Tuning-Ergebnisse zu erzielen, während andere (offline) kontrastive oder sogar rein überwachte Methoden als ausreichend erachten. Dies wirft die natürliche Frage auf: Welche Art von Ansätzen sind wichtig für das Fine-Tuning mit Präferenzen und warum? In diesem Papier beantworten wir diese Frage durch eine rigorose Analyse einer Reihe von Fine-Tuning-Techniken an didaktischen und vollwertigen LLM-Problemen. Unser Hauptbefund ist, dass im Allgemeinen Ansätze, die On-Policy-Sampling verwenden oder versuchen, die Likelihood auf bestimmten Antworten zu reduzieren (d.h. einen "negativen Gradienten" verwenden), besser abschneiden als Offline- und Maximum-Likelihood-Ziele. Wir konzeptionalisieren unsere Erkenntnisse und vereinheitlichen Methoden, die On-Policy-Sampling oder negative Gradienten verwenden, unter dem Begriff der modussuchenden Ziele für kategoriale Verteilungen. Modussuchende Ziele sind in der Lage, die Wahrscheinlichkeitsmasse in spezifischen Kategorien einer kategorialen Verteilung schneller zu verändern als bei Maximum Likelihood, wodurch sie in der Lage sind, Massen effektiver zwischen den Kategorien zu verschieben. Unsere Analyse liefert umsetzbare Erkenntnisse für das Präferenz-Fine-Tuning von LLMs und informiert darüber, wie Daten für maximale Verbesserungen gesammelt werden sollten.

Präferenz-Fine-Tuning von LLMs Sollte Suboptimale, On-Policy Daten Nutzen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider