Key points are not available for this paper at this time.
Die Vergrößerung von Sprachmodellen führt nicht automatisch dazu, dass sie besser darin werden, die Absichten eines Benutzers zu befolgen. Große Sprachmodelle können beispielsweise Ausgaben erzeugen, die unwahr, toxisch oder einfach nicht hilfreich sind. Mit anderen Worten, diese Modelle sind nicht auf ihre Benutzer ausgerichtet. In dieser Arbeit zeigen wir einen Ansatz, um Sprachmodelle an die Benutzerabsicht über eine Vielzahl von Aufgaben anzupassen, indem wir sie mit menschlichem Feedback feinabstimmen. Ausgehend von einer Reihe von von Bewertern verfassten Aufforderungen und Aufforderungen, die über die OpenAI-API eingereicht werden, sammeln wir einen Datensatz von Demonstrationen der gewünschten Modellverhalten, den wir verwenden, um GPT-3 mithilfe von überwachten Lernen feinabzustimmen. Anschließend sammeln wir einen Datensatz von Ranglisten der Modelloutputs, die wir verwenden, um dieses überwachte Modell mithilfe von verstärkendem Lernen aus menschlichem Feedback weiter anzupassen. Die resultierenden Modelle nennen wir InstructGPT. In menschlichen Bewertungen unserer Aufforderungsverteilung werden die Ausgaben des 1,3 Milliarden Parameter InstructGPT Modells den Ausgaben des 175 Milliarden GPT-3 bevorzugt, obwohl es 100x weniger Parameter hat. Darüber hinaus zeigen InstructGPT-Modelle Verbesserungen in der Wahrhaftigkeit und Reduzierungen bei der Erzeugung toxischer Ausgaben, während sie minimale Leistungsregressionen auf öffentlichen NLP-Datensätzen aufweisen. Auch wenn InstructGPT immer noch einfache Fehler macht, zeigen unsere Ergebnisse, dass die Feinabstimmung mit menschlichem Feedback ein vielversprechender Weg ist, um Sprachmodelle an menschliche Absichten anzupassen.
Ouyang et al. (Fri,) untersuchten diese Frage.