Key points are not available for this paper at this time.
Mit der Entwicklung von instruktional abgestimmten großen Sprachmodellen (LLMs) ist die Verbesserung der Sicherheit von LLMs entscheidender geworden. Die aktuellen Ansätze zur Anpassung der LLM-Ausgabe an die erwartete Sicherheit erfordern jedoch in der Regel erhebliche Trainingsanstrengungen, z. B. hochwertige Sicherheitsdaten und teure Berechnungsressourcen, die kostspielig und ineffizient sind. Zu diesem Zweck präsentieren wir das umgekehrte Prompt-kontrastive Decoding (ROSE), eine einfache, aber effektive Methode, um direkt die Sicherheit bestehender instruktional abgestimmter LLMs ohne zusätzliches Training zu steigern. Das Prinzip von ROSE besteht darin, die Wahrscheinlichkeit der gewünschten sicheren Ausgabe zu erhöhen, indem die unerwünschte Ausgabe, die durch die sorgfältig gestalteten umgekehrten Prompts hervorgerufen wird, unterdrückt wird. Experimente an 6 Sicherheits- und 2 allgemeinen Aufgaben zeigen, dass unser ROSE nicht nur konsistente und signifikante Sicherheitsverbesserungen (bis zu +13,8 % Sicherheitsbewertung) bei 5 Arten von instruktional abgestimmten LLMs bringt, sondern auch die allgemeine Fähigkeit von LLMs verbessert. Tiefgehende Analysen untersuchen den zugrunde liegenden Mechanismus von ROSE und zeigen auf, wann und wo es eingesetzt werden sollte.
Zhong et al. (Mon,) untersuchten diese Frage.