Da große Sprachmodelle (LLMs) weiterhin fortschreiten und in immer mehr Bereichen Anwendung finden, wird die Sicherheit von LLMs zunehmend kritisch. Um Sicherheitsbedenken zu adressieren, haben kürzliche Studien vorgeschlagen, Sicherheitsbeschränkungen in das Reinforcement Learning mit menschlichem Feedback (RLHF) zu integrieren. Diese Ansätze neigen jedoch dazu, komplex zu sein, da sie komplizierte Verfahren im RLHF sowie zusätzliche Schritte erfordern, die durch die Sicherheitsbeschränkungen notwendig sind. Inspiriert von der direkten Präferenzoptimierung (DPO) führen wir einen neuen Algorithmus namens SafeDPO ein, der darauf ausgelegt ist, das Sicherheitsausrichtungsziel in einer einzigen Phase des politisch Lernens direkt zu optimieren, ohne eine Entspannung zu erfordern. SafeDPO führt nur einen zusätzlichen Hyperparameter ein, um die Sicherheit weiter zu erhöhen, und erfordert nur geringfügige Modifikationen an der standardmäßigen DPO. Dadurch entfällt die Notwendigkeit, separate Belohnungs- und Kostenmodelle anzupassen oder während des Feintunings vom Sprachmodell zu sampeln, während dennoch die Sicherheit von LLMs verbessert wird. Schließlich zeigen wir, dass SafeDPO im Vergleich zu den besten Algorithmen zur Sicherheitsausrichtung eine wettbewerbsfähige Leistung erzielt, sowohl in Bezug auf die Angleichung an menschliche Präferenzen als auch auf die Verbesserung der Sicherheit.
Kim et al. (Mon,) untersuchten diese Frage.