What type of study is this?

This is a Experimental Study study.

September 30, 2025Open Access

SafeDPO: Ein einfacher Ansatz zur direkten Präferenzoptimierung mit verbesserter Sicherheit

Key Points

SafeDPO erzielt wettbewerbsfähige Leistungen, während es die Sicherheitsausrichtung in LLMs direkt optimiert.
Die Methode erfordert nur einen zusätzlichen Hyperparameter, was sie einfacher macht als traditionelle Ansätze.
SafeDPO beseitigt die Notwendigkeit, separate Belohnungs- und Kostenmodelle während des Feintunings anzupassen.
Der innovative Ansatz verbessert die Sicherheit, ohne den Prozess der direkten Präferenzoptimierung zu komplizieren.

Abstract

Da große Sprachmodelle (LLMs) weiterhin fortschreiten und in immer mehr Bereichen Anwendung finden, wird die Sicherheit von LLMs zunehmend kritisch. Um Sicherheitsbedenken zu adressieren, haben kürzliche Studien vorgeschlagen, Sicherheitsbeschränkungen in das Reinforcement Learning mit menschlichem Feedback (RLHF) zu integrieren. Diese Ansätze neigen jedoch dazu, komplex zu sein, da sie komplizierte Verfahren im RLHF sowie zusätzliche Schritte erfordern, die durch die Sicherheitsbeschränkungen notwendig sind. Inspiriert von der direkten Präferenzoptimierung (DPO) führen wir einen neuen Algorithmus namens SafeDPO ein, der darauf ausgelegt ist, das Sicherheitsausrichtungsziel in einer einzigen Phase des politisch Lernens direkt zu optimieren, ohne eine Entspannung zu erfordern. SafeDPO führt nur einen zusätzlichen Hyperparameter ein, um die Sicherheit weiter zu erhöhen, und erfordert nur geringfügige Modifikationen an der standardmäßigen DPO. Dadurch entfällt die Notwendigkeit, separate Belohnungs- und Kostenmodelle anzupassen oder während des Feintunings vom Sprachmodell zu sampeln, während dennoch die Sicherheit von LLMs verbessert wird. Schließlich zeigen wir, dass SafeDPO im Vergleich zu den besten Algorithmen zur Sicherheitsausrichtung eine wettbewerbsfähige Leistung erzielt, sowohl in Bezug auf die Angleichung an menschliche Präferenzen als auch auf die Verbesserung der Sicherheit.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper